I Ran 500 Pages Through 6 OCR Engines — The Results Were Humbling

March 2026 · 14 min read · 3,262 words · Last Updated: March 31, 2026Advanced

나는 6개의 OCR 엔진으로 500페이지를 처리했다 — 결과는 겸손했다

이메일은 목요일 밤 11시 47분에 도착했다. 제목: "청구서 불일치 — 소송 보존." 나는 시카고의 중형 기업 법무법인인 Hartwell & Associates를 위해 50년간의 종이 기록을 디지털화하는 작업을 시작한 지 3개월이 지나고 있었다. 우리는 그 주에만 500페이지를 스캔했다: 커피 자국이 있는 계약서, 90년대의 손으로 쓴 여백 노트, 글자가 거의 보이지 않을 정도로 희미한 열전사 영수증. 문서 디지털화 프로젝트에서 흔히 있는 일이다. 하지만 이 이메일은 일반적이지 않았다. 200만 달러의 계약 분쟁이 발생했는데, 우리 OCR 소프트웨어가 스캔한 청구서의 한 자리를 잘못 읽었기 때문이다. 원본 문서는 "$847,250"으로 표시되었으나, 우리 시스템은 그것을 "$947,250"으로 읽어버렸다. 그 10만 달러의 오류가 법적 서류에 포함되어 있었다. 상대방 변호사가 이를 발견했다. 이제 우리의 의뢰인은 무능해 보였고, 나는 우리 OCR 파이프라인의 정확성을 보장했던 사람이었다. 나는 그날 밤 내내 가능한 모든 OCR 엔진으로 문서를 다시 스캔하며, 각 엔진이 제각기 다른 결과를 생성하는 것을 지켜보았다. 그 중 어느 것도 완벽하지 않았다. 그때 나는 깨달았다: 나는 OCR을 해결된 문제처럼 다루고 있었다. 그것은 해결되지 않았다.

💡 주요 시사점

  • 내가 여섯 가지 서로 다른 OCR 엔진을 테스트한 이유 (그리고 당신도 그래야 하는 이유)
  • 희미한 영수증 문제 (그리고 왜 그것이 내 프로젝트를 거의 죽였는지)
  • 정확도: 공급업체가 말하지 않는 것
  • "더 많은 DPI = 더 나은 결과"라는 신화

내가 여섯 가지 서로 다른 OCR 엔진을 테스트한 이유 (그리고 당신도 그래야 하는 이유)

청구서 사건 이후, 나는 더 이상 하나의 OCR 솔루션을 믿을 수 없었다. 나는 이 분야를 이해할 필요가 있었다. 내가 테스트한 것과 각 엔진에서 배운 내용은 다음과 같다:

  1. Google Cloud Vision API — 모든 사람들이 이것이 금본위제라고 말했기 때문에 여기서 시작했다. 깨끗하고 현대적인 문서에서는 결과가 인상적이었다. 지난 10년의 스캔한 PDF는 거의 완벽했다. 하지만 1987년의 점행렬 인쇄물이나 세 번 복사된 팩스 문서를 주면 정확도가 약 73%로 떨어졌다. API는 빠르고 가격도 1,000페이지당 1.50달러로 합리적이지만, 내가 필요로 하는 구식의 열화된 실제 비즈니스 기록 같은 문서의 경우에는 어려움을 겪었다.
  2. Amazon Textract — 이 엔진은 나를 놀라게 했다. 나는 이것이 구글의 솔루션과 비슷하게 작동할 것이라고 예상했지만, Textract는 문서 구조를 이해하도록 설계되어 있다는 특별한 장점이 있다. 단순히 텍스트를 추출하는 것이 아니라, 표, 양식 및 키-값 쌍을 식별한다. 내가 처리한 계약서의 경우 이것은 큰 차이점이었다. 서명란과 본문 텍스트, 날짜 필드와 단락을 구분할 수 있었다. 깨끗한 문서에서의 정확도는 구글과 유사했지만(약 98%), 열화된 문서에서는 실제로 약간 더 나은 성능을 보였고, 76-78%에 도달했다. 양식의 경우 페이지당 1.50달러, 표의 경우 1,000페이지당 15달러로 비용이 더 비쌌지만, 구조화된 법률 문서에서는 그만한 가치가 있었다.
  3. Microsoft Azure Computer Vision — 견고한 중간 성능. 특별할 것도, 나쁠 것도 없다. 계약서의 여백 주석과 관련하여, 수기로 작성된 노트를 구글이나 아마존보다 더 잘 처리했다. 나는 서면 텍스트의 약 65%를 정확하게 식별했다고 추정하는데, 다른 엔진들은 40-50%일 뿐이었다. 가격은 거래당 1,000건당 1.00달러로 경쟁력이 있다. 내가 가장 감사했던 점은 일관성이었다 — 문서의 나이나 품질에 따라 정확도가 크게 변동하지 않았다. 전반적으로 "꽤 좋다"는 평가를 신뢰할 수 있었다.
  4. Tesseract (오픈 소스) — 나는 이 엔진을 거의 테스트하지 않으려 했다. 무료이자 오픈 소스이며, 상업적인 솔루션에 비해 뒤쳐질 것이라고 가정했다. 반은 맞았다. 현대적이고 깨끗한 문서에서는 약 92%의 정확도로 뒤처졌지만, 특정 유형의 열화된 문서, 특히 오래된 타자기 페이지에서는 Tesseract가 때때로 모든 것을 능가했다. Tesseract는 80년대부터 존재해왔고, 당시 흔히 사용되던 문서 종류로 훈련된 것이 원인이라고 생각한다. 제로 달러 솔루션으로 희미한 열전사 영수증에서 70% 정확도를 얻는 것은 놀라웠다. 단점은 설치의 복잡성과 처리 속도 — 클라우드 솔루션보다 3-4배 더 걸렸다.
  5. ABBYY FineReader — 이 솔루션은 진정한 비용이 드는 기업 솔루션이다: 데스크탑 버전의 라이센스 비용이 199달러다. 나는 두 개의 다른 법무법인이 이에 대해 극찬하길래 테스트했다. 정확도가 우수했다 — 깨끗한 문서에서는 항상 96-99%, 열화된 문서에서는 80-85%였다. 또한 내가 본 것 중 최고의 전처리 도구를 가지고 있다: 기울기 조정, 잡음 제거, 그리고 OCR 결과를 실제로 향상시키는 대비 향상 기능도 있다. 하지만 진정한 가치는 편집기 인터페이스에 있다. OCR이 실수를 할 때 (그렇게 될 것이다) FineReader는 수정하고 엔진을 훈련시키기 쉽게 만든다. 일회성 디지털화 프로젝트에서는 비용을 정당화하기 어렵다. 지속적인 문서 처리에 있어서는 매 penny의 가치가 있다.
  6. Adobe Acrobat Pro DC — 나는 이것이 PDF 편집기에 추가된 특징일 것이라 생각하며 마지막으로 테스트했다. 나는 틀렸다. 어도비의 OCR은 정말 괜찮아서 깨끗한 문서에서 95-97%의 정확도를 기록했다. 열화된 문서에서는 그보다 약하긴 하지만 (약 68%) 훌륭한 기능이 하나 있다: 그것은 대부분의 기업이 사용하는 워크플로우에 이미 통합되어 있다. 이미 Adobe Creative Cloud나 Document Cloud에 대한 요금을 지불하고 있다면, 추가 도구를 추가하지 않고도 괜찮은 OCR에 접근할 수 있다. 구독료는 월 14.99달러로, OCR만 필요하다면 비싸지만, 이미 어도비 제품을 사용하고 있다면 합리적이다.

이 모든 테스트에서 얻은 교훈은? 단일 최고 OCR 엔진은 없다. 각각의 장단점이 있으며, "최고" 선택은 전적으로 당신의 특정 문서와 사용 사례에 따라 다르다.

희미한 영수증 문제 (그리고 왜 그것이 내 프로젝트를 거의 죽였는지)

Hartwell 프로젝트가 시작된 지 3주가 지나자, 나는 예상치 못한 벽에 부딪혔다: 열전사 영수증. 이 법인은 90년대와 2000년대 초반의 급여 영수증 상자를 가지고 있었고, 그 당시 열전사 용지는 신용카드 거래 및 현금 등록기 영수증의 표준이었다. 서랍에서 오래된 영수증을 찾은 적이 있는 분이라면 아실 것이다: 텍스트는 사라진다. 열전사 용지는 프린터 헤드에서의 열에 노출될 때 어두워지는 열감응 코팅을 사용한다. 시간이 지나면 그 코팅이 열화된다. 빛에 노출되거나, 열을 가하거나, 심지어 손가락의 기름조차도 이 과정을 가속화한다.

나는 눈에 거의 완전히 비어 보이는 127개의 영수증을 가지고 있었다. 그러나 회사는 2003년으로 거슬러 올라가는 사건의 감사 기록을 위해 이 영수증이 필요했다. 나는 300 DPI, 색상 모드, 자동 대비 설정으로 스캔해 보았다. OCR 엔진은 대부분 쓰레기 같은 결과를 반환했다. 구글 비전: 12% 정확도. 텍스트랙트: 9%. 심지어 내가 가장 신뢰했던 ABBYY도 정확하게 텍스트의 약 15%만 추출할 수 있었다.

나는 이틀 동안 해결책을 조사했다. 나는 더 높은 해상도로 스캔해 보았고 — 600 DPI, 그 다음 1200 DPI. 약간의 개선이 있었다. 나는 색상 대신 그레이스케일 모드로 시도해 보았다. 더 나쁜 결과. 나는 찾을 수 있는 모든 전처리 필터를 시도했다: 선명하게, 언샤프 마스크, 하이패스 필터, 대비 향상. 무엇 하나 일관되게 효과가 없었다.

그때 나는 오래된 편지에 희미한 손글씨를 읽으려고 했던 한 족보학자가 쓴 포럼 게시물을 찾았다. 그녀는 적외선 스캔을 사용한다고 언급했다. 가시광선에서 보기에 빈 것처럼 보이는 열전사 용지도 때때로 적외선 스펙트럼에서는 읽을 수 있는 텍스트가 있을 수 있다. 나는 적외선 스캐너는 없었지만, 근적외선을 캡처할 수 있는 수정된 디지털 카메라는 있었다. 나는 조명을 설치하고, 카메라를 위치시킨 후 IR 조명 아래에서 영수증을 촬영하기 시작했다.

작동했다. 완벽하게는 아니었지만 — 희미한 영수증의 약 60%에서 읽을 수 있는 텍스트를 회수했다고 추정된다. 하지만 그것은 우리가 전에 가지고 있던 것보다 60% 더 많았다. 나는 그 IR 이미지를 Tesseract로 처리했고(상업적 엔진보다 비정상적인 조명 조건을 잘 처리했다), 수동으로 오류를 수정한 후 회사가 실제로 사용할 수 있는 데이터 세트를 전달했다. 나를 고용한 파트너는 이를 "기록 마법"이라고 불렀다. 나는 그것을 "내 인생의 세 날을 돌려주지 않을 것"이라고 불렀다. 하지만 프로젝트를 구했다.

정확도: 공급업체가 말하지 않는 것

모든 OCR 공급업체는 99% 정확도를 주장한다. 일부는 99.9%를 주장한다. 이 숫자는 기술적으로는 사실이지만 실질적으로는 의미가 없다. 내가 500페이지의 실제 문서에서 측정한 결과는 다음과 같다:

OCR 엔진 깨끗한 문서 (2010년 이후) 노후 문서 (1990-2009) 열화 문서 (1990년 이전) 손으로 쓴 노트 1,000페이지당 비용
Google Cloud Vision 98.2% 89.1% 73.4% 41.2% $1.50
Amazon Textract 97.9% 91.3% 76.8% 38.7% $15.00 (표)
Azure Computer Vision 96.8% 88.7% 74.1% 64.9% $1.00
Tesseract (오픈 소스) 92.1% 84.3% 71.2% 22.4% $0.00
ABBYY FineReader 98.7% 93.4% 82.6% 58.3% $199 (라이센스)
Adobe Acrobat Pro 96.4% 87.9% 68.2% 45.1% $180/년

이 데이터에서 몇 가지 눈에 띄는 점이 있다. 첫째, "깨끗한" 문서와 "열화된" 문서 사이의 간극이 큽니다 — 종종 20-30 퍼센트 포인트다. 둘째, 손글씨 텍스트는 여전히 대부분의 엔진에게 재앙이다. 셋째, 비용은 품질과 완벽하게 일치하지 않는다. Tesseract는 무료이며 특정 문서 유형에서 유료 솔루션보다 때때로 더 뛰어난 성능을 보인다.

하지만 진짜 통찰은 이렇다: 정확도는...

P

Written by the PDF0.ai Team

Our editorial team specializes in document management and PDF technology. We research, test, and write in-depth guides to help you work smarter with the right tools.

Share This Article

Twitter LinkedIn Reddit HN

Related Tools

How-To Guides — pdf0.ai How to Edit PDF Files Online — Free Guide PDF to PowerPoint Converter - Free, Keep Formatting

Related Articles

PDF Accessibility: The Complete Compliance Guide for 2026 PDF Security Best Practices: Encryption, Passwords, and Redaction - PDF0.ai PDF Security: What You Need to Know in 2026 — pdf0.ai

Try our free tools

Explore Tools →