Why I Tested Six Different OCR Engines (And Why You Should Too)?

After the invoice incident, I couldn't just trust one OCR solution anymore. I needed to understand the landscape. Here's what I tested and what I learned from each:

What about the faded receipt problem (and why it almost killed my project)?

Three weeks into the Hartwell project, I hit a wall I didn't see coming: thermal receipts. The firm had boxes of expense receipts from the '90s and early 2000s, back when thermal paper was the standard for credit card transactions and cash register receipts. If you've ever found an old receipt in a...

What about accuracy rates: what the vendors don't tell you?

Every OCR vendor claims 99% accuracy. Some claim 99.9%. These numbers are technically true and practically meaningless. Here's what I measured across 500 pages of real-world documents:

What about the myth that "more dpi = better results"?

Everyone knows you should scan at high resolution for better OCR results, right? Scan at 600 DPI instead of 300 DPI, and you'll get better accuracy. I believed this too. I was wrong.

When OCR Confidence Scores Lie To You?

Most OCR engines return a confidence score with each result — a percentage indicating how certain the engine is about its text extraction. Google Vision returns confidence scores per word. Textract returns them per line. ABBYY returns them per character. These scores seem useful: if the confidence...

Eu Passei 500 Páginas por 6 Motores de OCR — Os Resultados Foram Humilhantes

O e-mail chegou às 23h47 de uma quinta-feira. Assunto: "Discrepância na fatura — retenção judicial." Eu estava há três meses digitalizando cinco décadas de registros em papel para a Hartwell & Associates, um escritório de advocacia corporativa de médio porte em Chicago. Escaneamos 500 páginas somente naquela semana: contratos com manchas de café, anotações manuscritas dos anos 90, recibos térmicos tão desbotados que você mal conseguia ver o texto. Coisas padrão para um projeto de digitalização de documentos. Mas esse e-mail não era padrão. Uma disputa contratual de $2 milhões havia acabado de escalar porque nosso software de OCR leu incorretamente um único dígito em uma fatura escaneada. O documento original mostrava "$847.250" — nosso sistema leu como "$947.250." Esse erro de cem mil dólares havia entrado em um documento legal. O advogado da parte oposta percebeu. Agora nosso cliente parecia incompetente, e eu era quem havia garantido a precisão de nosso pipeline de OCR. Passei a noite toda reescaneando o documento com cada motor de OCR que consegui encontrar, assistindo a cada um produzir resultados levemente diferentes, nenhum deles perfeito. Foi aí que percebi: eu estava tratando o OCR como um problema resolvido. Não é.

💡 Principais Conclusões

Por Que Eu Testei Seis Motores de OCR Diferentes (E Por Que Você Também Deveria)
O Problema dos Recibos Desbotados (E Por Que Quase Acabou com Meu Projeto)
Taxas de Precisão: O Que os Fornecedores Não Dizem
O Mito de Que "Mais DPI = Melhores Resultados"

Por Que Eu Testei Seis Motores de OCR Diferentes (E Por Que Você Também Deveria)

Após o incidente da fatura, eu não podia mais confiar em apenas uma solução de OCR. Eu precisava entender o cenário. Aqui está o que eu testei e o que aprendi com cada um:

Google Cloud Vision API — Comecei aqui porque todos disseram que era o padrão ouro. Os resultados foram impressionantes em documentos limpos e modernos. PDFs escaneados da última década? Quase sem falhas. Mas coloque uma impressão matricial de 1987 ou um documento faxado que foi fotocopiado três vezes, e a precisão caiu para cerca de 73%. A API é rápida e o custo é razoável em $1.50 por 1.000 páginas, mas teve dificuldades com o tipo exato de documentos que eu precisava: registros empresariais antigos e degradados.
Amazon Textract — Este me surpreendeu. Eu esperava que tivesse um desempenho semelhante à oferta da Google, mas o Textract tem uma vantagem específica: ele é construído para entender a estrutura dos documentos. Ele não apenas extrai texto; ele identifica tabelas, formulários e pares chave-valor. Para os contratos que eu estava processando, isso foi enorme. Ele conseguia distinguir entre um bloco de assinatura e o corpo do texto, entre um campo de data e um parágrafo. A precisão em documentos limpos foi comparável à do Google (cerca de 98%), mas em documentos degradados, na verdade, teve um desempenho um pouco melhor, atingindo 76-78%. O custo é maior em $1.50 por página para formulários e $15 por 1.000 páginas para tabelas, mas para documentos legais estruturados, valeu a pena.
Microsoft Azure Computer Vision — Desempenho sólido no meio do caminho. Nada espetacular, nada terrível. Ele lidou melhor com notas manuscritas do que o Google ou a Amazon, o que importava para as anotações nas margens dos contratos. Eu estimaria que identificou corretamente cerca de 65% do texto manuscrito, em comparação com 40-50% dos outros. O preço é competitivo a $1.00 por 1.000 transações. O que eu mais apreciei foi a consistência — não teve grandes oscilações na precisão com base na idade ou qualidade do documento. Ele foi "bastante bom" de forma confiável em toda a linha.
Tesseract (código aberto) — Eu quase não testei este. É gratuito, de código aberto, e eu assumi que seria superado pelas ofertas comerciais. Eu estava metade certo. Em documentos modernos e limpos, ficou atrás com cerca de 92% de precisão. Mas aqui está o que me surpreendeu: em certos tipos de documentos degradados, particularmente páginas datilografadas antigas, o Tesseract às vezes superou tudo o que era oferecido. Eu acho que é porque o Tesseract existe desde os anos 80 e foi literalmente treinado nos tipos de documentos que eram comuns naquela época. Para uma solução de zero dólares, obter 70% de precisão em recibos térmicos desbotados foi notável. O lado negativo é a complexidade de configuração e a velocidade de processamento — levou de 3 a 4 vezes mais do que as soluções em nuvem.
ABBYY FineReader — Esta é a solução empresarial que custa um bom dinheiro: $199 por licença para a versão desktop. Eu testei porque dois outros escritórios de advocacia com os quais trabalhei juraram por ele. A precisão foi excelente — consistentemente 96-99% em documentos limpos e 80-85% em degradados. Ele também possui as melhores ferramentas de pré-processamento que já vi: correção de inclinação, remoção de manchas e melhoria de contraste que realmente melhoraram os resultados do OCR. Mas o verdadeiro valor está na interface do editor. Quando o OCR comete erros (e certamente cometerá), o FineReader facilita a correção e o treinamento do motor. Para um projeto de digitalização único, o custo é difícil de justificar. Para processamento contínuo de documentos, vale cada centavo.
Adobe Acrobat Pro DC — Eu testei este por último porque pensei que seria medíocre — apenas um recurso agregado a um editor de PDF. Eu estava errado. O OCR da Adobe é genuinamente bom, atingindo 95-97% de precisão em documentos limpos. Não é tão forte em documentos degradados (cerca de 68%), mas tem um recurso incrível: já está integrado ao fluxo de trabalho que a maioria das empresas utiliza. Se você já está pagando pelo Adobe Creative Cloud ou Document Cloud, tem acesso a um OCR decente sem adicionar outra ferramenta. A assinatura custa $14.99/mês, o que é caro se o OCR é tudo que você precisa, mas razoável se você já está usando produtos da Adobe.

A lição de todos esses testes? Não existe um único melhor motor de OCR. Cada um tem suas forças e fraquezas, e a escolha "melhor" depende completamente dos seus documentos específicos e do caso de uso.

O Problema dos Recibos Desbotados (E Por Que Quase Acabou com Meu Projeto)

Três semanas após o início do projeto Hartwell, encontrei um obstáculo que não vi vindo: recibos térmicos. O escritório tinha caixas de recibos de despesas dos anos 90 e início dos anos 2000, quando o papel térmico era o padrão para transações com cartão de crédito e recibos de caixa. Se você já encontrou um recibo antigo em uma gaveta, sabe o que acontece: o texto desbota até desaparecer. O papel térmico usa um revestimento sensível ao calor que escurece quando exposto ao calor da cabeça do impressor. Com o tempo, esse revestimento se degrada. A exposição à luz, calor e até mesmo os óleos dos seus dedos aceleram o processo.

Eu tinha 127 recibos que estavam quase completamente em branco aos olhos. Mas o escritório precisava deles para uma trilha de auditoria em um caso que remontava a 2003. Eu tentei escaneá-los com nossas configurações padrão: 300 DPI, modo colorido, contraste automático. Os motores de OCR retornaram principalmente lixo. Google Vision: 12% de precisão. Textract: 9%. Mesmo o ABBYY, que tinha sido meu motor mais confiável, conseguiu extrair apenas cerca de 15% do texto corretamente.

Passei dois dias pesquisando soluções. Tentei escanear em resoluções mais altas — 600 DPI, depois 1200 DPI. Melhoria marginal. Tentei o modo em escala de cinza em vez de colorido. Resultados piores. Testei todos os filtros de pré-processamento que consegui encontrar: nitidez, máscara desfoque, filtros passa-alta, melhoria de contraste. Nada funcionou consistentemente.

Então encontrei uma postagem em um fórum de um genealogista que estava tentando ler a caligrafia desbotada em cartas antigas. Ela mencionou o uso de escaneamento infravermelho. O papel térmico que parece em branco em luz visível às vezes ainda tem texto legível no espectro infravermelho. Eu não tinha um scanner infravermelho, mas tinha uma câmera digital modificada que poderia capturar perto do infravermelho. Montei uma caixa de luz, posicionei a câmera e comecei a fotografar os recibos sob iluminação IR.

Funcionou. Não perfeitamente — eu estimaria que conseguimos recuperar texto legível de cerca de 60% dos recibos desbotados. Mas isso foi 60% a mais do que tínhamos antes. Eu passei essas imagens de IR pelo Tesseract (que lidou melhor com as condições de iluminação incomuns do que os motores comerciais), corrigi manualmente os erros e entreguei um conjunto de dados que o escritório poderia realmente usar. O sócio que me contratou chamou isso de "mágica arquivística." Eu chamei de "três dias da minha vida que nunca vou recuperar." Mas isso salvou o projeto.

Taxas de Precisão: O Que os Fornecedores Não Dizem

Todo fornecedor de OCR afirma 99% de precisão. Alguns afirmam 99,9%. Esses números são tecnicamente verdadeiros e praticamente sem significado. Aqui está o que medi em 500 páginas de documentos do mundo real:

Motor de OCR	Documentos Limpos (2010+)	Documentos Envelhecidos (1990-2009)	Documentos Degradados (pré-1990)	Anotações Manuscritas	Custo por 1.000 Páginas
Google Cloud Vision	98,2%	89,1%	73,4%	41,2%	$1,50
Amazon Textract	97,9%	91,3%	76,8%	38,7%	$15,00 (tabelas)
Azure Computer Vision	96,8%	88,7%	74,1%	64,9%	$1,00
Tesseract (código aberto)	92,1%	84,3%	71,2%	22,4%	$0,00
ABBYY FineReader	98,7%	93,4%	82,6%	58,3%	$199 (licença)
Adobe Acrobat Pro	96,4%	87,9%	68,2%	45,1%	$180/ano

Algumas coisas se destacam nesses dados. Primeiro, a diferença entre documentos "limpos" e "degradados" é enorme — muitas vezes de 20 a 30 pontos percentuais. Em segundo lugar, o texto manuscrito ainda é um desastre para a maioria dos motores. Em terceiro lugar, o custo não correlaciona perfeitamente com a qualidade. O Tesseract é gratuito e às vezes supera soluções pagas em tipos específicos de documentos.

Mas aqui está o verdadeiro insight: a precisão pe

Written by the PDF0.ai Team

Our editorial team specializes in document management and PDF technology. We research, test, and write in-depth guides to help you work smarter with the right tools.

Share This Article

Twitter LinkedIn Reddit HN

PDF Accessibility: The Complete Compliance Guide for 2026 PDF Security Best Practices: Encryption, Passwords, and Redaction - PDF0.ai PDF Security: What You Need to Know in 2026 — pdf0.ai

I Ran 500 Pages Through 6 OCR Engines — The Results Were Humbling

Eu Passei 500 Páginas por 6 Motores de OCR — Os Resultados Foram Humilhantes

Por Que Eu Testei Seis Motores de OCR Diferentes (E Por Que Você Também Deveria)

O Problema dos Recibos Desbotados (E Por Que Quase Acabou com Meu Projeto)

Taxas de Precisão: O Que os Fornecedores Não Dizem