私は500ページを6つのOCRエンジンで処理しました — 結果は謙虚でした
そのメールは木曜日の午後11時47分に届きました。件名: "請求書の不一致 — 訴訟保留。" 私は、シカゴの中規模な企業法務事務所であるHartwell & Associatesのために、50年分の紙の記録をデジタル化する作業に3か月取り組んでいました。その週だけで500ページをスキャンしました:コーヒーの stainsがついた契約書、90年代の手書きの余白メモ、ほとんど文字が見えないほど色あせたサーマルレシート。ドキュメントデジタル化プロジェクトの標準的なもの。しかし、このメールは標準的なものではありませんでした。2百万ドルの契約紛争が、スキャンした請求書の単一の数字がOCRソフトウェアによって誤読されたため、エスカレートしたのです。元の文書は「$847,250」と示されていましたが、我が社のシステムは「$947,250」と読み取ったのです。その10万ドルの誤りが法的文書に含まれていました。対立する弁護士がそれを見つけました。今、私たちのクライアントは無能に見え、私は私たちのOCRパイプラインの正確性を保証した者でした。私はその夜中、手に入るすべてのOCRエンジンを使って文書を再スキャンし、各エンジンがわずかに異なる結果を出すのを見ましたが、完璧なものはありませんでした。その時、私は気づきました:私はOCRを解決済みの問題のように扱っていたのです。しかし、それはそうではありません。
💡 重要なポイント
- なぜ私は6つの異なるOCRエンジンをテストしたのか(そしてあなたもすべき理由)
- 色あせたレシートの問題(そしてそれが私のプロジェクトをほぼ危険にさらした理由)
- 精度レート:ベンダーが教えてくれないこと
- 「より多くのDPI = より良い結果」という神話
なぜ私は6つの異なるOCRエンジンをテストしたのか(そしてあなたもすべき理由)
請求書の事件の後、私はもはや1つのOCRソリューションだけを信頼することができませんでした。私はその状況を理解する必要がありました。ここで私がテストしたことと、各エンジンから学んだことを紹介します:
- Google Cloud Vision API — 皆がこれをゴールドスタンダードだと言っていたので、ここから始めました。結果はクリーンで現代的な文書で印象的でした。過去10年のスキャンされたPDFはほぼ完璧でした。しかし、1987年のドットマトリックスプリントアウトや、3回コピーされたファックス文書を与えると、精度は約73%に落ちました。このAPIは速く、価格は1,000ページあたり$1.50と妥当ですが、私が必要とする正確なタイプの文書、すなわち古くて劣化した現実のビジネス記録には苦労しました。
- Amazon Textract — これは私を驚かせました。私がGoogleの提供と似たように機能することを期待していたのに対し、Textractには特定の利点があります:ドキュメントの構造を理解するために設計されています。テキストを抽出するだけでなく、テーブル、フォーム、キー-バリューペアを識別します。私が処理していた契約書にとって、これは非常に重要でした。署名ブロックと本文テキスト、日付フィールドと段落の違いを識別できました。クリーンな文書での精度はGoogleに匹敵(約98%)でしたが、劣化した文書では実際にはやや良いパフォーマンスを発揮し、76-78%に達しました。コストは形式でページあたり$1.50、テーブルで1,000ページあたり$15と高いですが、構造化された法的文書にはその価値がありました。
- Microsoft Azure Computer Vision — 中庸の性能。特に素晴らしいこともなく、特に悪いこともありませんでした。手書きのメモをGoogleやAmazonよりも良く処理しました。それは契約書の余白の注釈には重要でした。私は、手書きのテキストを約65%正しく識別したと推定しますが、他のものでは40-50%です。価格は1,000トランザクションあたり$1.00と競争力があります。私が最も評価したのは、一貫性です — 文書の年齢や品質に基づく精度の大きな変動がありませんでした。全体的に、信頼性のある「かなり良い」結果を維持していました。
- Tesseract(オープンソース) — 私はほとんどこれをテストしませんでした。無料でオープンソースで、商業的な提供物に劣るだろうと思っていました。半分は正しかったです。現代のクリーンな文書では、約92%の精度で後れを取っていました。しかし、私を驚かせたのは:特定のタイプの劣化した文書、特に古いタイプのページでは、Tesseractが他のすべてを上回ることがあることです。これは、Tesseractは80年代から存在しており、その時代によく見られた文書の種類で訓練されたからだと思います。ゼロドルの解決策で、色あせたサーマルレシートで70%の精度を得るのは驚くべきことでした。欠点はセットアップの複雑さと処理速度です — クラウドソリューションの3〜4倍かかりました。
- ABBYY FineReader — これは本当にお金がかかる企業向けソリューションです:デスクトップ版のライセンスが$199です。私は、私が過去に一緒に働いた他の2つの法律事務所が絶賛していたので、これをテストしました。精度は素晴らしく、クリーンな文書で一貫して96-99%、劣化した文書で80-85%です。また、私が見た中で最高の前処理ツールも備えています:歪み補正、デスペックリング、そしてOCR結果を実際に改善するコントラスト強化。しかし、本当の価値はエディタインターフェースにあります。OCRが誤りを犯したとき(必ずそうなります)、FineReaderはそれを簡単に修正し、エンジンを訓練することを可能にします。一度限りのデジタル化プロジェクトに対しては、そのコストは正当化しにくいです。しかし、継続的な文書処理の場合、それはすべてのペニーの価値があります。
- Adobe Acrobat Pro DC — 私はこれを最後にテストしました、なぜならそれが平凡だと思ったからです — ただのPDFエディタに追加された機能だと思いました。私は間違っていました。AdobeのOCRは本当に良く、クリーンな文書で95-97%の精度に達しました。劣化した文書ではそれほど強くない(約68%)ですが、1つのキラー機能があります:ほとんどのビジネスが使用しているワークフローにすでに統合されています。あなたがすでにAdobe Creative CloudやDocument Cloudにお金を払っているなら、他のツールを追加することなく適当なOCRにアクセスできます。サブスクリプションは$14.99/月で、OCRだけが必要な場合は高いですが、すでにAdobe製品を使用しているなら妥当です。
このすべてのテストからの教訓は何でしょうか?単一の最高のOCRエンジンは存在しません。それぞれに強みと弱みがあり、「最良」の選択は、あなたの特定の文書とユースケースによって完全に依存します。
色あせたレシートの問題(そしてそれが私のプロジェクトをほぼ危険にさらした理由)
Hartwellプロジェクトに3週間入ったとき、私は思いもよらぬ壁にぶつかりました:サーマルレシートです。この事務所には、90年代と2000年代初頭の経費レシートが箱に入っており、その頃サーマルペーパーがクレジットカード取引やレジの領収書の標準でした。古いレシートを引き出しの中で見つけたことがあるなら、何が起きるか知っているでしょう:テキストは消えてしまいます。サーマルペーパーは、プリンターヘッドの熱にさらされると暗くなる熱感受性コーティングを使用しています。時間が経つにつれて、そのコーティングは劣化します。光、熱、さらには手の油がそのプロセスを加速させるのです。
私は肉眼ではほとんど完全に白く見える127のレシートを持っていました。しかし、その事務所は、2003年に遡る案件の監査トレイルのためにそれらを必要としていました。私は標準設定でスキャンしようとしました:300DPI、カラーモード、自動コントラスト。OCRエンジンはほとんどガラクタを返しました。Google Vision:12%の精度。Textract:9%。最も信頼できるエンジンであったABBYYですら、正しくテキストを抽出できたのは約15%でした。
私は解決策を模索するために二日間を費やしました。解像度を高くスキャンしてみました — 600DPI、次に1200DPI。わずかな改善。カラーモードの代わりにグレースケールモードを試みました。結果は悪化しました。私は見つけられるすべての前処理フィルターを試しました:シャープ化、アンシャープマスク、高周波フィルター、コントラスト強化。どれもうまくいきませんでした。
その時、古い手紙の色あせた手書きを読み取ろうとしていた系譜学者からのフォーラムの投稿を見つけました。彼女は赤外線スキャンを使用していると言及していました。可視光下で白く見えるサーマルペーパーも、赤外線スペクトルにおいては読めるテキストが残っていることがあります。私は赤外線スキャナーを持っていませんでしたが、近赤外線をキャプチャできる改造されたデジタルカメラを持っていました。私はライトボックスを組み立て、カメラの位置を決め、IR照明の下でレシートの写真を撮り始めました。
うまくいきました。完璧ではありませんでした — 色あせたレシートの約60%から読めるテキストを回復したと推定します。しかし、それは私たちが以前持っていた60%よりも多いものでした。私はそのIR画像をTesseractに通し(これは特殊な照明条件を商業エンジンよりもよく処理しました)、手動でエラーを修正し、事務所が実際に使用できるデータセットを提供しました。私を雇ったパートナーはそれを「アーカイブの魔法」と呼びました。私はそれを「二度と戻らない三日間の私の人生」と呼びました。しかし、それはプロジェクトを救いました。
精度レート:ベンダーが教えてくれないこと
すべてのOCRベンダーは99%の精度を主張します。一部は99.9%と主張しています。これらの数字は技術的には正しいですが、実際には意味がありません。私が500ページの実際の文書を通じて測定したことは次の通りです:
| OCRエンジン | クリーン文書 (2010+) | 経年文書 (1990-2009) | 劣化文書 (1990年以前) | 手書きメモ | 1,000ページあたりのコスト |
|---|---|---|---|---|---|
| Google Cloud Vision | 98.2% | 89.1% | 73.4% | 41.2% | $1.50 |
| Amazon Textract | 97.9% | 91.3% | 76.8% | 38.7% | $15.00(テーブル) |
| Azure Computer Vision | 96.8% | 88.7% | 74.1% | 64.9% | $1.00 |
| Tesseract(オープンソース) | 92.1% | 84.3% | 71.2% | 22.4% | $0.00 |
| ABBYY FineReader | 98.7% | 93.4% | 82.6% | 58.3% | $199(ライセンス) |
| Adobe Acrobat Pro | 96.4% | 87.9% | 68.2% | 45.1% | $180/年 |
このデータからいくつかのことが浮かび上がります。まず、「クリーン」と「劣化した」文書のギャップは巨大であり、しばしば20-30ポイントの差があります。第二に、手書きのテキストはほとんどのエンジンにとって依然として悪夢です。第三に、コストは品質と完全には相関しません。Tesseractは無料で、特定の文書タイプでは有料ソリューションを上回ることがあります。
しかし、ここに本当の洞察があります:精度は...
Written by the PDF0.ai Team
Our editorial team specializes in document management and PDF technology. We research, test, and write in-depth guides to help you work smarter with the right tools.
Related Tools