J'ai fait passer 500 pages à travers 6 moteurs OCR — Les résultats étaient humbles
L'email est arrivé à 23h47 un jeudi. Objet : "Discrepance de facture — mise en litige." J'étais à trois mois de la numérisation de cinq décennies de dossiers papier pour Hartwell & Associates, un cabinet d'avocats d'entreprise de taille moyenne à Chicago. Nous avions scanné 500 pages cette semaine-là : des contrats avec des taches de café, des notes manuscrites en marge des années 90, des reçus thermiques si décolorés que vous pouviez à peine voir le texte. Des choses standard pour un projet de numérisation de documents. Mais cet email n'était pas standard. Un litige contractuel de 2 millions de dollars venait juste d'escalader parce que notre logiciel OCR avait mal interprété un seul chiffre sur une facture scannée. Le document original indiquait "$847,250" — notre système l'a lu comme "$947,250." Cette erreur de cent mille dollars avait fait son chemin dans un mémoire juridique. L'avocat adverse l'a repéré. Maintenant, notre client avait l'air incompétent, et c'était moi qui avais garantit l'exactitude de notre pipeline OCR. J'ai passé toute la nuit à rescanner le document avec tous les moteurs OCR que je pouvais trouver, observant chacun produire des résultats légèrement différents, aucun d'eux parfait. C'est alors que j'ai réalisé : j'avais traité l'OCR comme un problème résolu. Ce n'est pas le cas.
💡 Points clés
- Pourquoi j'ai testé six moteurs OCR différents (et pourquoi vous devriez aussi)
- Le problème des reçus décolorés (et pourquoi cela a presque tué mon projet)
- Taux de précision : Ce que les fournisseurs ne vous disent pas
- Le mythe selon lequel "plus de DPI = meilleurs résultats"
Pourquoi j'ai testé six moteurs OCR différents (et pourquoi vous devriez aussi)
Après l'incident de la facture, je ne pouvais plus faire confiance à une seule solution OCR. J'avais besoin de comprendre le paysage. Voici ce que j'ai testé et ce que j'ai appris de chacun :
- Google Cloud Vision API — J'ai commencé ici car tout le monde disait que c'était la référence. Les résultats étaient impressionnants sur des documents modernes et bien propres. Des PDF scannés de la dernière décennie ? Presque sans défaut. Mais si vous lui donnez une impression matricielle de 1987 ou un document faxé qui avait été photocopié trois fois, l'exactitude tombait à environ 73%. L'API est rapide et le tarif est raisonnable à 1,50 $ pour 1 000 pages, mais elle a eu des difficultés avec le type exact de documents pour lesquels j'avais besoin : anciens, dégradés, dossiers commerciaux du monde réel.
- Amazon Textract — Celui-ci m'a surpris. Je m'attendais à ce qu'il performe de manière similaire à l'offre de Google, mais Textract a un avantage spécifique : il est conçu pour comprendre la structure des documents. Il n'extrait pas seulement du texte ; il identifie les tableaux, les formulaires et les paires clé-valeur. Pour les contrats que je traitais, c'était énorme. Il pouvait faire la différence entre un bloc de signature et du texte de corps, entre un champ de date et un paragraphe. L'exactitude sur des documents propres était comparable à celle de Google (environ 98%), mais sur des documents dégradés, il a en fait légèrement mieux performé, atteignant 76-78%. Le coût est plus élevé à 1,50 $ par page pour les formulaires et 15 $ par 1 000 pages pour les tableaux, mais pour des documents juridiques structurés, cela en valait la peine.
- Microsoft Azure Computer Vision — Performances solides dans la moyenne. Rien de spectaculaire, rien de terrible. Il gérait mieux les notes manuscrites que Google ou Amazon, ce qui comptait pour les annotations en marge des contrats. J'estime qu'il a correctement identifié environ 65 % de texte manuscrit, contre 40-50 % pour les autres. Les tarifs sont compétitifs à 1,00 $ pour 1 000 transactions. Ce que j'ai le plus apprécié, c'est la cohérence — il n'avait pas de fluctuations sauvages dans l'exactitude en fonction de l'âge ou de la qualité des documents. Il était de manière fiable "assez bon" dans l'ensemble.
- Tesseract (open source) — J'ai presque oublié de tester celui-ci. Il est gratuit, open-source, et je pensais qu'il serait surclassé par les offres commerciales. J'avais à moitié raison. Sur des documents modernes et propres, il était en retard avec une exactitude d'environ 92 %. Mais voici ce qui m'a choqué : sur certains types de documents dégradés, en particulier des pages dactylographiées anciennes, Tesseract surpassait parfois tout le reste. Je pense que c'est parce que Tesseract existe depuis les années 80 et qu'il a été littéralement entraîné sur les types de documents qui étaient courants à l'époque. Pour une solution à zéro dollar, obtenir 70 % d'exactitude sur des reçus thermiques décolorés était remarquable. Le inconvénient est la complexité de configuration et la vitesse de traitement — cela a pris 3-4 fois plus de temps que les solutions cloud.
- ABBYY FineReader — C'est la solution d'entreprise qui coûte de l'argent : 199 $ par licence pour la version de bureau. Je l'ai testée parce que deux autres cabinets d'avocats avec lesquels j'avais travaillé en faisaient l'éloge. L'exactitude était excellente — constamment de 96 à 99 % sur des documents propres, et de 80 à 85 % sur des documents dégradés. Il dispose également des meilleurs outils de prétraitement que j'ai vus : redressement, suppression de bruit, et amélioration du contraste qui ont réellement amélioré les résultats OCR. Mais la vraie valeur réside dans l'interface d'édition. Lorsque l'OCR fait des erreurs (et il le fera), FineReader facilite leur correction et l'entraînement du moteur. Pour un projet de numérisation ponctuel, le coût est difficile à justifier. Pour un traitement continu de documents, cela vaut chaque centime.
- Adobe Acrobat Pro DC — Je l'ai testé en dernier car je pensais que ce serait médiocre — juste une fonctionnalité ajoutée à un éditeur PDF. Je me suis trompé. L'OCR d'Adobe est vraiment bon, atteignant 95 à 97 % d'exactitude sur des documents propres. Ce n'est pas aussi fort sur des documents dégradés (environ 68 %), mais cela a une fonctionnalité incontournable : elle est déjà intégrée dans le flux de travail que la plupart des entreprises utilisent. Si vous payez déjà pour Adobe Creative Cloud ou Document Cloud, vous avez accès à un OCR convenable sans ajouter un autre outil. L'abonnement coûte 14,99 $/mois, ce qui est cher si l'OCR est tout ce dont vous avez besoin, mais raisonnable si vous utilisez déjà des produits Adobe.
La leçon tirée de tous ces tests ? Il n'y a pas un meilleur moteur OCR. Chacun a ses forces et ses faiblesses, et le choix "meilleur" dépend entièrement de vos documents spécifiques et de votre cas d'utilisation.
Le problème des reçus décolorés (et pourquoi cela a presque tué mon projet)
Trois semaines après le projet Hartwell, j'ai rencontré un mur que je ne voyais pas venir : les reçus thermiques. Le cabinet avait des boîtes de reçus de dépenses des années 90 et du début des années 2000, à l'époque où le papier thermique était la norme pour les transactions par carte de crédit et les reçus de caisse. Si vous avez déjà trouvé un vieux reçu dans un tiroir, vous savez ce qui se passe : le texte s'efface. Le papier thermique utilise un revêtement sensible à la chaleur qui s'assombrit lorsqu'il est exposé à la chaleur de la tête d'impression. Avec le temps, ce revêtement s'altère. L'exposition à la lumière, la chaleur et même les huiles de vos doigts accélèrent le processus.
J'avais 127 reçus qui étaient presque complètement blancs à l'œil nu. Mais le cabinet en avait besoin pour une trace d'audit sur une affaire datant de 2003. J'ai essayé de les scanner avec nos paramètres standard : 300 DPI, mode couleur, contraste automatique. Les moteurs OCR ont retourné principalement des déchets. Google Vision : 12 % de précision. Textract : 9 %. Même ABBYY, qui avait été mon moteur le plus fiable, n'a pu extraire qu'environ 15 % du texte correctement.
J'ai passé deux jours à rechercher des solutions. J'ai essayé de scanner à des résolutions plus élevées — 600 DPI, puis 1200 DPI. Amélioration marginale. J'ai essayé le mode niveaux de gris au lieu de la couleur. Pires résultats. J'ai essayé tous les filtres de prétraitement que je pouvais trouver : affiner, masque flou, filtres passe-haut, amélioration du contraste. Rien n'a fonctionné de manière constante.
Ensuite, j'ai trouvé un message sur un forum d'un généalogiste qui tentait de lire une écriture manuscrite décolorée sur de vieilles lettres. Elle mentionnait l'utilisation de numérisation infrarouge. Le papier thermique qui semble blanc dans la lumière visible a parfois encore du texte lisible dans le spectre infrarouge. Je n'avais pas de scanner infrarouge, mais j'avais un appareil photo numérique modifié capable de capturer du proche infrarouge. J'ai bricolé une boîte lumineuse, positionné la caméra, et commencé à photographier les reçus sous illumination IR.
Ça a fonctionné. Pas parfaitement — j'estime que nous avons récupéré un texte lisible d'environ 60 % des reçus décolorés. Mais c'était 60 % de plus que ce que nous avions avant. J'ai passé ces images IR à Tesseract (qui a géré les conditions d'éclairage inhabituelles mieux que les moteurs commerciaux), corrigé manuellement les erreurs, et livré un ensemble de données que le cabinet pouvait effectivement utiliser. Le partenaire qui m'avait embauché a qualifié cela d'"magie d'archivage." Je l'ai appelé "trois jours de ma vie que je ne récupérerai jamais." Mais cela a sauvé le projet.
Taux de précision : Ce que les fournisseurs ne vous disent pas
Chaque fournisseur OCR affirme 99 % de précision. Certains revendiquent 99,9 %. Ces chiffres sont techniquement exacts et pratiquement sans signification. Voici ce que j'ai mesuré sur 500 pages de documents réels :
| Moteur OCR | Documents propres (2010+) | Documents anciens (1990-2009) | Documents dégradés (avant 1990) | Notes manuscrites | Coût par 1 000 pages |
|---|---|---|---|---|---|
| Google Cloud Vision | 98.2% | 89.1% | 73.4% | 41.2% | 1,50 $ |
| Amazon Textract | 97.9% | 91.3% | 76.8% | 38.7% | 15,00 $ (tableaux) |
| Azure Computer Vision | 96.8% | 88.7% | 74.1% | 64.9% | 1,00 $ |
| Tesseract (open source) | 92.1% | 84.3% | 71.2% | 22.4% | 0,00 $ |
| ABBYY FineReader | 98.7% | 93.4% | 82.6% | 58.3% | 199 $ (licence) |
| Adobe Acrobat Pro | 96.4% | 87.9% | 68.2% | 45.1% | 180 $/an |
Quelques éléments ressortent de ces données. Tout d'abord, l'écart entre les documents "propres" et "dégradés" est énorme — souvent de 20 à 30 points de pourcentage. Deuxièmement, le texte manuscrit reste un désastre pour la plupart des moteurs. Troisièmement, le coût ne corrèle pas parfaitement avec la qualité. Tesseract est gratuit et surpasse parfois les solutions payantes pour des types spécifiques de documents.
Mais voici la véritable découverte : la précision pe...
Written by the PDF0.ai Team
Our editorial team specializes in document management and PDF technology. We research, test, and write in-depth guides to help you work smarter with the right tools.
Related Tools