Why I Tested Six Different OCR Engines (And Why You Should Too)?

After the invoice incident, I couldn't just trust one OCR solution anymore. I needed to understand the landscape. Here's what I tested and what I learned from each:

What about the faded receipt problem (and why it almost killed my project)?

Three weeks into the Hartwell project, I hit a wall I didn't see coming: thermal receipts. The firm had boxes of expense receipts from the '90s and early 2000s, back when thermal paper was the standard for credit card transactions and cash register receipts. If you've ever found an old receipt in a...

What about accuracy rates: what the vendors don't tell you?

Every OCR vendor claims 99% accuracy. Some claim 99.9%. These numbers are technically true and practically meaningless. Here's what I measured across 500 pages of real-world documents:

What about the myth that "more dpi = better results"?

Everyone knows you should scan at high resolution for better OCR results, right? Scan at 600 DPI instead of 300 DPI, and you'll get better accuracy. I believed this too. I was wrong.

When OCR Confidence Scores Lie To You?

Most OCR engines return a confidence score with each result — a percentage indicating how certain the engine is about its text extraction. Google Vision returns confidence scores per word. Textract returns them per line. ABBYY returns them per character. These scores seem useful: if the confidence...

Tôi Đã Chạy 500 Trang Qua 6 Công Cụ OCR — Kết Quả Là Khiêm Tốn

Email đến vào lúc 11:47 PM vào một ngày thứ Năm. Tiêu đề: "Sự không nhất quán trong hóa đơn — giữ lại vụ kiện." Tôi đã ba tháng trong quá trình số hóa năm thập kỷ hồ sơ giấy cho Hartwell & Associates, một công ty luật vừa và nhỏ ở Chicago. Chúng tôi đã quét 500 trang chỉ trong tuần đó: hợp đồng có vết cà phê, ghi chú viết tay từ những năm '90, biên lai nhiệt mờ nhạt đến mức bạn có thể khó khăn để thấy được văn bản. Những điều bình thường cho một dự án số hóa tài liệu. Nhưng email này thì không bình thường. Một tranh chấp hợp đồng 2 triệu đô la vừa mới leo thang vì phần mềm OCR của chúng tôi đã đọc sai một chữ số duy nhất trên một hóa đơn đã quét. Tài liệu gốc chỉ ra "$847,250" — hệ thống của chúng tôi đọc là "$947,250." Lỗi trăm ngàn đô la đó đã lọt vào một tài liệu pháp lý. Luật sư đối phương đã phát hiện ra. Bây giờ khách hàng của chúng tôi trông thiếu năng lực, và tôi là người đã bảo đảm về độ chính xác của quy trình OCR của chúng tôi. Tôi đã dành toàn bộ đêm đó để quét lại tài liệu với mọi công cụ OCR tôi có thể kiếm được, theo dõi từng cái sản xuất ra những kết quả hơi khác nhau, không cái nào hoàn hảo. Đó là lúc tôi nhận ra: tôi đã đối xử với OCR như một vấn đề đã được giải quyết. Nó không phải vậy.

💡 Những Điểm Chính

Tại Sao Tôi Đã Kiểm Tra Sáu Công Cụ OCR Khác Nhau (Và Tại Sao Bạn Cũng Nên)
Vấn Đề Hóa Đơn Mờ (Và Tại Sao Nó Suýt Giết Chết Dự Án Của Tôi)
Tỷ Lệ Chính Xác: Những Điều Các Nhà Cung Cấp Không Nói Với Bạn
Huyền Thoại Về "Nhiều DPI = Kết Quả Tốt Hơn"

Tại Sao Tôi Đã Kiểm Tra Sáu Công Cụ OCR Khác Nhau (Và Tại Sao Bạn Cũng Nên)

Sau sự cố hóa đơn, tôi không thể chỉ tin tưởng vào một giải pháp OCR nữa. Tôi cần hiểu được bối cảnh. Đây là những gì tôi đã kiểm tra và những gì tôi đã học được từ mỗi công cụ:

Google Cloud Vision API — Tôi bắt đầu ở đây vì mọi người đều nói đây là tiêu chuẩn vàng. Kết quả rất ấn tượng với các tài liệu sạch, hiện đại. PDF đã quét từ thập kỷ trước? Gần như hoàn hảo. Nhưng khi bạn cho nó một bản in ma trận điểm năm 1987 hoặc một tài liệu fax đã được photocopy ba lần, độ chính xác giảm còn khoảng 73%. API này nhanh và giá cả hợp lý với 1,50 đô la cho mỗi 1.000 trang, nhưng nó gặp khó khăn với chính loại tài liệu mà tôi cần: hồ sơ kinh doanh cũ, xuống cấp, thực tế.
Amazon Textract — Cái này làm tôi ngạc nhiên. Tôi dự đoán nó sẽ hoạt động tương tự như sản phẩm của Google, nhưng Textract có một lợi thế cụ thể: nó được xây dựng để hiểu cấu trúc tài liệu. Nó không chỉ trích xuất văn bản; nó xác định bảng, biểu mẫu và cặp khóa-giá trị. Đối với các hợp đồng tôi đang xử lý, điều này rất quan trọng. Nó có thể phân biệt giữa một khối ký tên và văn bản chính, giữa một trường ngày và một đoạn văn. Độ chính xác trên các tài liệu sạch tương đương với Google (khoảng 98%), nhưng trên các tài liệu xuống cấp, nó thực sự hoạt động tốt hơn một chút, đạt từ 76-78%. Chi phí cao hơn với 1,50 đô la cho mỗi trang biểu mẫu và 15 đô la cho mỗi 1.000 trang bảng, nhưng đối với các tài liệu pháp lý có cấu trúc, điều đó rất xứng đáng.
Microsoft Azure Computer Vision — Hiệu suất ổn định. Không có gì đặc biệt, không có gì tồi tệ. Nó xử lý ghi chú viết tay tốt hơn Google hoặc Amazon, điều này quan trọng cho các chú thích trên tỷ lệ hợp đồng. Tôi ước lượng nó nhận diện chính xác khoảng 65% văn bản viết tay, so với 40-50% của các công cụ khác. Giá cả cạnh tranh với 1,00 đô la cho mỗi 1.000 giao dịch. Điều tôi đánh giá cao nhất là sự nhất quán — nó không có những biến động lớn trong độ chính xác dựa trên độ tuổi hoặc chất lượng tài liệu. Nó đáng tin cậy "khá tốt" trên toàn bộ.
Tesseract (mã nguồn mở) — Tôi gần như không kiểm tra cái này. Nó miễn phí, mã nguồn mở, và tôi đã nghĩ nó sẽ bị vượt trội bới các sản phẩm thương mại. Tôi đã đúng một nửa. Trên các tài liệu hiện đại, sạch, nó kém hơn với độ chính xác khoảng 92%. Nhưng điều khiến tôi sốc là: trên một số loại tài liệu xuống cấp, đặc biệt là các trang đánh máy cũ, Tesseract đôi khi vượt qua mọi thứ khác. Tôi nghĩ đó là vì Tesseract đã có từ những năm '80 và được huấn luyện trên các loại tài liệu phổ biến vào thời điểm đó. Đối với một giải pháp không tốn một đồng nào, việc đạt được 70% độ chính xác trên các biên lai nhiệt mờ thật đáng kinh ngạc. Nhược điểm là độ phức tạp trong thiết lập và tốc độ xử lý — nó mất 3-4 lần thời gian hơn so với các giải pháp đám mây.
ABBYY FineReader — Đây là giải pháp doanh nghiệp có giá trị thực: 199 đô la cho mỗi giấy phép phiên bản máy tính để bàn. Tôi đã kiểm tra nó vì hai công ty luật khác mà tôi đã làm việc đều khẳng định về nó. Độ chính xác rất xuất sắc — liên tục đạt 96-99% trên các tài liệu sạch, và 80-85% trên các tài liệu xuống cấp. Nó cũng có những công cụ tiền xử lý tốt nhất mà tôi từng thấy: chỉnh độ nghiêng, gỡ bỏ nhiễu, và nâng cao độ tương phản thực sự cải thiện kết quả OCR. Nhưng giá trị thực sự nằm ở giao diện biên tập. Khi OCR mắc lỗi (và nó sẽ), FineReader giúp dễ dàng sửa chúng và huấn luyện động cơ. Đối với một dự án số hóa một lần, chi phí rất khó biện minh. Đối với việc xử lý tài liệu liên tục, nó xứng đáng với từng xu.
Adobe Acrobat Pro DC — Tôi đã kiểm tra cái này cuối cùng vì tôi nghĩ nó sẽ không tốt — chỉ là một tính năng thêm vào trình chỉnh sửa PDF. Tôi đã sai. OCR của Adobe thật sự tốt, đạt được độ chính xác 95-97% trên các tài liệu sạch. Nó không mạnh bằng trên các tài liệu xuống cấp (khoảng 68%), nhưng nó có một tính năng tuyệt vời: nó đã được tích hợp vào quy trình làm việc mà hầu hết các doanh nghiệp sử dụng. Nếu bạn đã trả tiền cho Adobe Creative Cloud hoặc Document Cloud, bạn đã có quyền truy cập vào OCR hợp lý mà không cần thêm công cụ nào khác. Giá thuê là 14.99 đô la/tháng, điều này khá đắt nếu OCR là điều duy nhất bạn cần, nhưng hợp lý nếu bạn đã sử dụng các sản phẩm của Adobe.

Bài học từ tất cả việc thử nghiệm này? Không có một động cơ OCR nào là tốt nhất. Mỗi cái đều có điểm mạnh và điểm yếu, và lựa chọn "tốt nhất" phụ thuộc hoàn toàn vào tài liệu và trường hợp sử dụng cụ thể của bạn.

Vấn Đề Hóa Đơn Mờ (Và Tại Sao Nó Suýt Giết Chết Dự Án Của Tôi)

Ba tuần vào dự án Hartwell, tôi đã gặp phải một bức tường mà tôi không thấy trước: biên lai nhiệt. Công ty đã có những hộp hóa đơn chi phí từ những năm '90 và đầu những năm 2000, khi giấy nhiệt là tiêu chuẩn cho các giao dịch thẻ tín dụng và biên lai máy tính tiền. Nếu bạn từng tìm thấy một hóa đơn cũ trong một ngăn kéo, bạn biết điều gì xảy ra: văn bản phai mờ hoàn toàn. Giấy nhiệt sử dụng lớp phủ nhạy nhiệt sẽ tối lại khi tiếp xúc với nhiệt từ đầu in. Theo thời gian, lớp phủ đó sẽ suy giảm. Ánh sáng, nhiệt, và thậm chí cả dầu từ ngón tay của bạn làm tăng tốc độ quá trình này.

Tôi có 127 biên lai mà mắt thường hầu như hoàn toàn trắng. Nhưng công ty cần chúng cho một dấu vết kiểm toán liên quan đến một vụ án từ năm 2003. Tôi đã thử quét chúng với các cài đặt tiêu chuẩn của chúng tôi: 300 DPI, chế độ màu, tự động tương phản. Các công cụ OCR chủ yếu trả lại rác. Google Vision: 12% độ chính xác. Textract: 9%. Ngay cả ABBYY, công cụ mà tôi tin cậy nhất, cũng chỉ có thể trích xuất khoảng 15% văn bản chính xác.

Tôi đã dành hai ngày để nghiên cứu giải pháp. Tôi đã thử quét ở độ phân giải cao hơn — 600 DPI, sau đó là 1200 DPI. Cải thiện một cách tối thiểu. Tôi đã thử chế độ grayscale thay vì màu. Kết quả tồi hơn. Tôi đã thử mọi bộ lọc tiền xử lý mà tôi có thể tìm thấy: làm sắc nét, mặt nạ không sắc nét, bộ lọc cao tần, nâng cao độ tương phản. Không cái nào hoạt động nhất quán.

Rồi tôi tìm thấy một bài đăng trên diễn đàn của một nhà nghiên cứu gia đình đã cố gắng đọc chữ viết tay mờ trên những bức thư cũ. Cô ấy đề cập đến việc sử dụng quét hồng ngoại. Giấy nhiệt trông có vẻ trống rỗng dưới ánh sáng nhìn thấy đôi khi vẫn có thể có văn bản có thể đọc được trong quang phổ hồng ngoại. Tôi không có một máy quét hồng ngoại, nhưng tôi có một camera kỹ thuật số đã được chỉnh sửa có thể chụp gần hồng ngoại. Tôi đã lắp ráp một hộp ánh sáng, đặt camera và bắt đầu chụp ảnh biên lai dưới ánh sáng IR.

Nó hoạt động. Không hoàn hảo — tôi ước tính chúng tôi đã phục hồi được văn bản có thể đọc từ khoảng 60% các biên lai mờ. Nhưng đó đã là 60% nhiều hơn so với chúng tôi có trước đó. Tôi đã chạy những bức ảnh IR đó qua Tesseract (công cụ này xử lý các điều kiện ánh sáng bất thường tốt hơn các công cụ thương mại), sửa lỗi thủ công và giao một tập dữ liệu mà công ty thực sự có thể sử dụng. Đối tác đã thuê tôi gọi đó là "phép thuật bảo tồn tài liệu." Tôi gọi nó là "ba ngày đời tôi mà tôi sẽ không bao giờ lấy lại." Nhưng nó đã cứu dự án.

Tỷ Lệ Chính Xác: Những Điều Các Nhà Cung Cấp Không Nói Với Bạn

Mỗi nhà cung cấp OCR đều tuyên bố 99% độ chính xác. Một số tuyên bố 99.9%. Những con số này về kỹ thuật là đúng và thực tế không có nghĩa lý gì. Đây là những gì tôi đo được trên 500 trang tài liệu thực tế:

Công Cụ OCR	Tài Liệu Sạch (2010+)	Tài Liệu Cũ (1990-2009)	Tài Liệu Xuống Cấp (trước 1990)	Ghi Chú Viết Tay	Chi Phí Mỗi 1.000 Trang
Google Cloud Vision	98.2%	89.1%	73.4%	41.2%	1.50 đô la
Amazon Textract	97.9%	91.3%	76.8%	38.7%	15.00 đô la (bảng)
Azure Computer Vision	96.8%	88.7%	74.1%	64.9%	1.00 đô la
Tesseract (mã nguồn mở)	92.1%	84.3%	71.2%	22.4%	0.00 đô la
ABBYY FineReader	98.7%	93.4%	82.6%	58.3%	199 đô la (giấy phép)
Adobe Acrobat Pro	96.4%	87.9%	68.2%	45.1%	180 đô la/năm

Vài điều nổi bật từ dữ liệu này. Đầu tiên, khoảng cách giữa tài liệu "sạch" và "xuống cấp" là rất lớn — thường là từ 20-30 điểm phần trăm. Thứ hai, văn bản viết tay vẫn là một thảm họa đối với hầu hết các công cụ. Thứ ba, chi phí không tương quan hoàn toàn với chất lượng. Tesseract miễn phí và đôi khi vượt trội hơn các giải pháp trả phí trên những loại tài liệu cụ thể.

Nhưng đây là cái nhìn thực sự: độ chính xác pe

Written by the PDF0.ai Team

Our editorial team specializes in document management and PDF technology. We research, test, and write in-depth guides to help you work smarter with the right tools.

Share This Article

Twitter LinkedIn Reddit HN

PDF Accessibility: The Complete Compliance Guide for 2026 PDF Security Best Practices: Encryption, Passwords, and Redaction - PDF0.ai PDF Security: What You Need to Know in 2026 — pdf0.ai

I Ran 500 Pages Through 6 OCR Engines — The Results Were Humbling

Tôi Đã Chạy 500 Trang Qua 6 Công Cụ OCR — Kết Quả Là Khiêm Tốn

Tại Sao Tôi Đã Kiểm Tra Sáu Công Cụ OCR Khác Nhau (Và Tại Sao Bạn Cũng Nên)

Vấn Đề Hóa Đơn Mờ (Và Tại Sao Nó Suýt Giết Chết Dự Án Của Tôi)

Tỷ Lệ Chính Xác: Những Điều Các Nhà Cung Cấp Không Nói Với Bạn