Sobre OCR

Este guia descreve como o eDok lida com o reconhecimento ótico de caracteres, ou OCR, sigla em inglês para Optical Character Recognition. Apesar de fazer parte da documentação oficial, este guia refere-se a como o eDok aborda as tecnologias OCR no ciclo de vida do produto e do serviço do qual ele faz parte.

Esta documentação é voltada aos analistas e gestores de projeto, compras, auditores, e corpo jurídico dos clientes que estão avaliando a aquisição do eDok.

Sumário Executivo

OCR é um termo que descreve uma série de tecnologias para conversão de texto em imagens ou documentos para texto editável. Motivado pelos problemas dos falsos positivos e da falta de transparência quanto à privacidade dos dados de OCR, que podem expor os negócios de nossos clientes aos riscos de sanções cíveis e criminais, ou ameaçar seus ramos de atuação, o eDok não implementa outras tecnologias de OCR além de OMR, suportando especificamente a indexação por QR-Code (recomendado), código de barras ou o nome do arquivo. Conduzimos periodicamente testes para analisar a questão dos falsos positivos e observamos atentamente como os principais players do mercado de OCR tratam a transparência de suas políticas de privacidade. Implementaremos toda a gama de tecnologias OCR quando o cenário for absolutamente seguro para nossos clientes.

O Que é OCR?

O termo OCR é comumente utilizado para descrever diversas tecnologias que automatizam a extração de textos do domínio analógico para o digital, ou seja, converter textos do mundo real para textos editáveis em máquinas.

Contudo, o tema é bem mais amplo e complexo que isso. Faz-se necessário esclarecer as diversas tecnologias embutidas no termo. As principais em são:

OCR: lida com textos em documentos digitalizados;
ICR: sigla em inglês para Intelligent Character Recognition (reconhecimento de caracteres inteligente), lida com textos escritos por humanos;
OMR: sigla em inglês para Optical Mark Recognition (reconhecimento ótico de marcas), lida com o reconhecimento de simbologias especificamente desenvolvidas para serem lidas por dispositivos digitais, por exemplo, QR-Code e código de barras. Esta é a tecnologia OCR embutida no eDok;
Outras Siglas:
- Emergindo: STR, de Scene Text Recognition (reconhecimento de texto em cenários), lida com textos em cenas do cotidiano. Por exemplo: placas de veículos ou de ruas, letreiros de lojas, números de casas etc;
- Em desuso: BCR (Barcode Recognition) para código de barras em 1D e CHR (Cursive Handwritten Recognition) para escrita humana cursiva.

Com o avanço tecnológico, um novo método surgiu para dar suporte ao OCR. Trata-se da CV, sigla em inglês para Computer Vision, ou visão computacional. Esta tecnologia é utilizada para melhorar a forma que os dispositivos digitais "enxergam" o mundo, atuando entre o que é observado e a aplicação final. Aplicado ao OCR, a CV fornece algorítimos para melhorar imagens antes da extração final dos textos, na tentativa de produzir resultados mais precisos.

Como a emergência do ML (Machine Learning, ou aprendizado de máquina) e da AI (Artificial Intelligence, ou inteligência artificial), o desenvolvimento tecnológico tornou-se exponencial na área do OCR. Aplicada tanto aos diversos métodos de OCR quanto à CV, com modelos de dados cada vez mais robustos, a ML e AI vêm tornando o OCR mais próximo de entregar resultados mais confiáveis e precisos, mas não sem considerações adicionais.

Confiabilidade vs. Precisão

Confiabilidade e precisão são conceitos habitualmente confundidos entre si. No entanto, eles são muito distintos:

Confiabilidade (Reliability): significa que pode-se obter consistentemente os mesmos resultados após repetir uma avaliação.
Precisão (Accuracy): significa que os resultados são corretos, estando estatisticamente próximos da média de uma avaliação.

Ou seja, enquanto a precisão é estatística, a confiabilidade é determinística. Esses dois conceitos são centrais para a abordar a aplicação ou veto às tecnologias OCR.

Texto Não Reconhecido

Quando falamos em escala, os resultados importam. Numa escala de 100 documentos, 10% de documentos não reconhecidos podem ser facilmente tratados por um humano, afinal são apenas 10 documentos não reconhecidos.

Mas e quando lidamos com um milhão de documentos? Os mesmos 10% de documentos não reconhecidos produzirá 100.000 itens. Esse volume até pode ser tratados manualmente, mas o custo disso será incrivelmente alto. O processo inteiro torna-se ineficiente.

O problema do texto não reconhecido pelo OCR, apesar de importante, não é crítico. Ele só produz um processo ineficiente, sem mais consequencias ao mesmo. O perigo real reside em outro aspecto.

Falsos Positivos

Mas e quando o OCR produz isso:

Falso Positivo no OCR

Humanos e máquinas olham para o símbolo à esquerda e ficam na dúvida se é o número "8" ou a letra "B". Sistemas OCR foram programados para produzirem um resultado, o que faz com que na dúvida entre "8" ou "B", por mera estatística, o segundo vença. Mas na realidade trata-se de um número "8". A vitória da letra "B" no OCR significa a derrota para o seu negócio.

Mas como? Desta forma:

Decreto-Lei Nº 2.848/40

Art. 154 - Revelar alguém, sem justa causa, segredo, de que tem ciência em razão de função, ministério, ofício ou profissão, e cuja revelação possa produzir dano a outrem:

Pena - detenção, de três meses a um ano, ou multa.

O problema do falso positivo é muito mais grave que o do texto não reconhecido. Enquanto o segundo produz resultado nulo, o primeiro efetivamente pode produzir um texto reconhecido de modo equivocado.

Em sistemas de missão crítica, por exemplo, na área da saúde, isto significa dizer que o documento de um paciente pode ir parar no prontuário de outro paciente. Esta é uma inconformidade gravíssima tanto para o médico quanto para a instituição de saúde, passível de punição nas esferas administrativa, cível e criminal.

Existem métodos que podem ser aplicados ao OCR para reduzir os falsos positivos, mas eles não são 100% eficazes. O risco permanece enquanto os falsos positivos existirem.

Fatores Ambientais

Um dos aspectos mais críticos para obter OCR de boa confiabilidade e precisão são os fatores ambientais. Isto envolve os seguintes parâmetros:

Estilos: estilos aplicados em documentos são cruciais para OCR efetivo. Famílias de fontes, tamanhos do texto, formatação e outros aspectos precisam ser controlados. Isso nem sempre é possível, especialmente em documentos com origens externas ao negócio;
Equipamento: para OCR efetivo, scanners mais especializados passam a ser mandatórios. Esses equipamentos são caros e envolvem contratos de manutenção e suporte anuais, também custosos;
Configuração: os equipamentos necessitam de processos de configuração bem definidos, com pacotes padronizados que envolvem conhecimento técnico pouco usual no mercado, encarecendo sua implementação e operação;
Pessoal: pessoal de TI e operadores dos scanners necessitam de treinamento especializado para trabalharem sempre no nível ótimo. Este conhecimento tem custo, assim como tem custo manter profissionais bem treinados no negócio, reduzindo a rotatividade;
Idioma: é possível encontrar estatísticas otimistas sobre confiabilidade e precisão nas tecnologias OCR. Mas quase a totalidade desses números se referem ao idioma inglês. Porém, em português do Brasil com seus diacríticos (acentos e outros símbolos), a realidade é bem menos promissora;
Benchmark: muitos estudos de mercado comparam as ferramentas de OCR entre si com um conjunto de dados próprio. Muitas vezes, esses dados produzem resultados desconcertantes por conta de uma única ou poucas imagens tidas como "problemáticas". Então essas imagens são removidas e novos testes executados, alterando positivamente os resultados. Na fria realidade não haverá como evitar "imagens problemáticas".

Privacidade

Uma área crítica quanto ao uso das tecnologias OCR refere-se à privacidade das informações contidas nas imagens originais e textos extraídos.

Numa extensão da preocupação com o problema dos falsos positivos, este ponto de atenção refere-se mais às informações críticas que os fornecedores de OCR, sejam em nuvem ou on-premises, anonimizadas ou não, podem obter a partir da aplicação de tecnologias OCR.

Por exemplo: o fornecedor de OCR pode não guardar os dados pessoais de um paciente, mas ele pode obter dados estatísticos reais sobre tratamentos, medicamentos, ocorrências, compras e outras informações estratégicas sobre o seu negócio, sem que fique absolutamente transparente como ele poderá usar esses dados.

Vejamos o que os termos de serviço dos principais serviços de OCR e/ou IA em nuvem declaram no que tange a privacidade dos dados:

Amazon Textract

O Amazon Textract pode armazenar e usar entradas de documento e imagem processadas pelo serviço exclusivamente para oferecer e manter o serviço e para aprimorar e desenvolver a qualidade do Amazon Textract e de outras tecnologias de machine learning/inteligência artificial da Amazon.

Google Document AI

O Google não usa nenhum conteúdo seu (como documentos e previsões) para nenhuma finalidade, exceto para fornecer o serviço Document AI.

Microsoft Azure AI Document Intelligence

A Microsoft usa os dados que coletamos para proporcionar experiências sofisticadas e interativas. Especificamente, usamos dados para:
Fornecer nossos produtos, incluindo a atualização, segurança e solução de problemas, bem como o fornecimento de suporte. Isso também inclui o compartilhamento de dados, quando ele é necessário, para fornecer o serviço ou realizar as transações que você solicitar.
Melhorar e desenvolver nossos produtos.
Personalizar nossos produtos e fazer recomendações.
Anunciar e comercializar para você, incluindo o envio de comunicações promocionais, o direcionamento de anúncios e a apresentação de ofertas relevantes para você.

OpenAI ChatGPT

Fornecer, analisar e manter os nossos Serviços, por exemplo, para responder às suas perguntas para o ChatGPT;
Melhorar e desenvolver os nossos Serviços e realizar pesquisas, por exemplo, para desenvolver novas funcionalidades de produtos;

Torna-se evidente que os players em nuvem mais comuns usam os dados para "fornecer" o serviço, e em alguns casos muito mais do que isso. No caso específico do Google Document AI, não está claro se "fornecer" inclui o treinamento dos modelos de OCR e em qual extensão esses modelos são utilizados para outras finalidades.

No universo on-premises, os produtos mais conhecidos são ABBYY Vantage OCR Skill Container e Tungsten OmniPage Capture SDK. Como a oferta destes produtos dependem de negociação direta com seus fabricantes ou parceiros, não existem informações públicas sobre os termos de uso e privacidade.

A única solução que permite oferecer uma garantia real de privacidade, seja dos documentos processados, dos textos extraídos pelo OCR e dos modelos é o FLOSS (Free/Libre and Open Source Software, ou software livre e de código aberto) Tesseract. Porém, ela traz consigo componentes de custo importantes, como veremos abaixo.

Custo

Outro fator a ser considerado no OCR é o seu custo em si. As ofertas em nuvem disponíveis no mercado giram em torno de US$ 1,50 para cada mil páginas por mês. Estes valores podem cair a US$ 0,60 para mais de um milhão de páginas mensais.

Ou seja, se o seu negócio arquiva 100.000 páginas por mês (uma média comum entre os clientes eDok), o seu custo mensal só para OCR será algo em torno de US$ 150,00.

Existem ainda soluções on-premises licenciadas com preços negociados caso a caso, mas que relatos apontam custar £5,000/ano (apenas licenciamento, sem suporte).

Na esfera FLOSS que pode rodar on-premises, a alternativa mais evoluída embute custos de infraestrutura, modelos e treinamento (tanto do motor OCR quanto de pessoal) que podem torná-la tão custosa quanto as proprietárias, mas sem forneçer os níveis de confiabilidade e precisão destas.

É verdade que o custo de OCR caiu drasticamente nos últimos anos. Essa tendência se tornou mais acentuada com a entrada em cena da AI e do ML. Mesmo assim, para grandes volumes de documentos, este ainda pode ser um fator proibitivo, uma vez que o custo do OCR não é o único componente de preço dos processos de negócio.

Cenários

Há aplicações onde o OCR de fato brilha e já é uma ferramenta indispensável à automação em larga escala. Em geral, todas elas remetem às seguintes premissas:

Ambiente Controlado: todos os fatores ambientais são tratados ativamente;
Contextos Padronizados: o OCR é aplicado à extração de texto em casos restritos, como a leitura de placas de veículos e formulários com layouts sem grandes variações.

Com isso, o OCR realmente faz diferença na produtividade de processos como:

Extração de textos curtos em praças de pedágio, placas de rua, números de casas e outros;
Extração de textos em formulários estruturados;
Extração de textos de livros com impressão tipográfica;
Qualquer cenário onde o ambiente e o contexto são ativamente controlados;
O problema do falso positivo não envolve riscos às pessoas físicas e/ou jurídicas.

Nenhum desses cenários atendem às exigências dos processos de negócio onde o eDok se encaixa, sendo comuns os ambientes não controlados e com contextos não padronizados.

Nossa Abordagem

Como fornecedores de serviços para Gestão Eletrônica de Documentos, é nossa responsabilidade e obrigação estarmos atentos ao cenário global das aplicações do OCR. Também é nossa obrigação proteger nossos clientes de riscos inerentes as suas atividades cotidianas.

Entendemos que é uma escolha do cliente a melhor abordagem quanto aos seguintes aspectos:

Tolerância ao texto não reconhecido;
Investimento nos fatores ambientais;
Absorção do custo inerente ao OCR.

Porém, como corresponsáveis pelos riscos inerentes ao negócio de nossos clientes, cabe a nós a decisão no sentido de proteger seus interesses.

Os falsos positivos e a privacidade são os fatores críticos que nos leva a implementar no eDok apenas OMR.

Por motivos óbvios, somos os principais interessados em incluir toda a gama de tecnologias OCR embarcadas no eDok. Contudo, a experiência de quem está desde 2005 neste mercado nos obriga a declarar:

Não seguimos tendências. Estabelecemos padrões.

Desde 2013, investimos anualmente recursos consideráveis de R&D (Research & Development, ou pesquisa e desenvolvimento) na reavaliação das mais diversas tecnologias OCR, especialmente quanto aos falsos positivos. Possuímos um corpus com mais de 10 mil documentos - que cresce a cada ano - utilizados periodicamente em testes de confiabilidade e precisão. Quando esses testes deixarem de produzir falsos positivos por um período de pelo menos um ano inteiro, teremos chegado a 100% de confiabilidade.

Restará ainda a preocupação com a privacidade e nosso zêlo com a certeza inequívoca de que os dados de OCR não serão utilizados para estruturar bases de inteligência que possam introduzir outros riscos à continuidade dos negócios de nossos clientes.

Quando essas duas variáveis estiverem devidamente tratadas pelos players do mercado, terá chegado o momento de aplicar toda a gama de tecnologias OCR no eDok. Estamos ansiosos por esse dia.