# J'ai compressé 1 000 PDFs avec tous les outils disponibles — Voici les gagnants
💡 Points clés
- Midnight Called — La facture cloud du musée était en pleine hémorragie financière
- Métodologie de test — Comment j'ai réellement mesuré ce qui compte
- Découverte de la raison pour laquelle les archives des musées gonflent — Une histoire sur les paramètres des scanners
- Données de performance — Les chiffres qui comptent vraiment
Midnight Called — La facture cloud du musée était en pleine hémorragie financière
Appel reçu à 23h47 un mardi. Dr. Sarah Chen, directrice du musée du patrimoine maritime, examinait une facture de stockage cloud trimestrielle de 47 000 $ qui avait triplé en six mois. Leur archive numérique — 2 To de documents numérisés, de manuscrits et d'archives historiques — dévorait leur budget. Documents d'assurance des années 1890. Manifeste de navires avec des bords endommagés par l'eau. Cartes de navigation dessinées à la main photographiées à des résolutions absurdes.
« Nous avons une réunion du conseil d'administration vendredi matin, » a-t-elle dit, sa voix tendue. « Ils menacent de retirer le financement de l'ensemble du programme de numérisation. Pouvez-vous nous aider ? »
J'avais 72 heures pour réduire leur stockage de 60 % sans perdre un seul détail important. Pas de pression.
Ce n'était pas ma première expérience avec des archives gonflées. J'ai passé sept ans à numériser des collections pour des musées, des bibliothèques et des sociétés historiques. J'ai traité tout, des correspondances de la guerre de Sécession aux cartes de zonage des années 1960, jusqu'aux manuscrits médiévaux. Mais c'était différent. C'était un test de résistance sous pression réelle avec des conséquences concrètes.
J'ai pris mon ordinateur portable, j'ai ouvert ma boîte à outils de compression, et je me suis mis au travail. Ce qui a suivi a été trois jours de tests méthodiques sur 1 000 PDFs représentatifs de leur collection. Factures à une page. Journaux de bord de 400 pages. Photographies couleur. Texte en noir et blanc. Tout.
Ce que j'ai appris a changé ma façon d'aborder chaque projet d'archive maintenant.
Méthodologie de test — Comment j'ai réellement mesuré ce qui compte
La plupart des articles sur la compression testent cinq fichiers et appellent cela un jour. C'est inutile pour du travail réel. J'avais besoin de données qui tiendraient sous l'examen d'un conseil d'administration de musée, donc j'ai construit un cadre de test approprié.
J'ai sélectionné 1 000 PDFs de l'archive du musée, stratifiés en cinq catégories : documents texte uniquement (200 fichiers), texte avec graphiques simples (200 fichiers), photographies numérisées (200 fichiers), manuscrits à contenu mixte (200 fichiers), et dessins techniques (200 fichiers). Les tailles de fichiers variaient de 87 Ko à 340 Mo. La moyenne était de 2,1 Mo.
Pour chaque fichier, j'ai suivi sept indicateurs : taille finale du fichier, ratio de compression, temps de traitement, score de qualité visuelle (échelle de 1 à 10, évalué par trois évaluateurs indépendants), rétention de la capacité de recherche des textes, préservation des métadonnées, et toute corruption ou erreur. J'ai testé douze outils et méthodes différents, allant des utilitaires en ligne de commande aux logiciels d'entreprise et services en ligne.
Chaque fichier compressé a passé un processus de validation. Pouvions-nous encore lire le texte ? Les images étaient-elles toujours lisibles à 100 % de zoom ? L'OCR fonctionnait-elle encore ? Les chercheurs pouvaient-ils réellement utiliser ces fichiers, ou avais-je juste créé 1 000 fichiers inutilisables ?
J'ai réalisé des tests sur un ordinateur portable moyen (16 Go de RAM, processeur i7) pour simuler des conditions du monde réel. Pas de fermes de serveurs. Pas de matériel spécialisé. Juste le genre de configuration qu'un petit musée ou une archive pourrait réellement avoir.
Les tests ont pris 31 heures de travail actif étalées sur ces trois jours. J'ai bu trop de café. J'ai découvert que 3 heures du matin, c'est le moment où l'on commence à avoir des opinions sur l'encodage JPEG2000. Mais j'ai eu des réponses.
Découverte de la raison pour laquelle les archives des musées gonflent — Une histoire sur les paramètres des scanners
Voici quelque chose que personne ne vous dit à propos des projets de numérisation : le plus gros problème n'est pas les fichiers avec lesquels vous travaillez. C'est les fichiers que vous avez créés il y a six mois quand vous ne saviez pas mieux.
En 2019, je numérisais une collection de programmes de théâtre des années 1920 pour un musée des arts du spectacle. De belles choses — designs art déco, typographie vintage, le tout. Le conservateur voulait une « qualité d'archive », alors j'ai configuré notre scanner à la résolution maximale : 1200 DPI, profondeur de couleur de 48 bits, sortie TIFF non compressée.
Chaque programme mesurait 8.5 x 11 pouces. Chaque scan faisait 450 Mo.
Nous avons numérisé 3 000 programmes avant que quiconque ne le remarque. C'est 1,35 téraoctets de programmes de théâtre. Le directeur informatique du musée a failli avoir une crise lorsqu'il a vu les coûts de stockage.
Ces programmes étaient imprimés sur du papier journal avec des points de trame. La densité d'information réelle atteignait un maximum d'environ 300 DPI. Tout ce qui était au-dessus était juste le scan de la texture du papier. Nous stockions les motifs de fibres de papier journal vieux de 100 ans à une qualité d'archive.
J'ai passé deux semaines à reprocesser tout ça. Résultat final : 40 Mo par programme à 600 DPI avec compression intelligente. Visuellement identique aux originaux. Total de stockage : 120 Go au lieu de 1,35 To. Le conservateur n'a pas pu faire de différence lors des tests à l'aveugle.
C'est à ce moment que j'ai appris : la compression ne consiste pas à rendre les fichiers plus petits. Il s'agit de ne pas les rendre inutilement énormes au départ.
Le musée du patrimoine maritime avait le même problème. Quelqu'un avait configuré leurs scanners pour « qualité maximale » sans comprendre ce que cela signifiait. Manifests de navires scannés à 1200 DPI. Formulaires d'assurance enregistrés sous forme de TIFF non compressés, puis convertis en PDFs. Photographies capturées en couleur 48 bits lorsque 24 bits étaient indiscernables.
Ils ne stockaient pas des documents. Ils stockaient du bruit de scanner.
Données de performance — Les chiffres qui comptent vraiment
Je vais vous montrer les données, mais d'abord, un avertissement : les ratios de compression sont sans signification sans contexte. Un outil qui atteint 90 % de compression sur des PDFs texte uniquement peut détruire la qualité des photographies. Un outil qui préserve une fidélité d'image parfaite peut prendre six heures pour traiter 100 fichiers.
Ce qui compte, c'est la combinaison de la compression, de la qualité et de la vitesse pour votre cas d'utilisation spécifique.
| Outil | Compression Moyenne | Score de Qualité | Vitesse (fichiers/min) | Texte Consultable | Idéal Pour |
|---|---|---|---|---|---|
| Ghostscript (écran) | 87% | 4.2/10 | 47 | Oui | Rien (trop dégradant) |
| Ghostscript (ebook) | 71% | 7.8/10 | 43 | Oui | Documents riches en texte |
| Ghostscript (imprimante) | 54% | 9.1/10 | 38 | Oui | Contenu mixte |
| Adobe Acrobat Pro | 68% | 8.9/10 | 12 | Oui | Flux de travail professionnels |
| PDFtk + ImageMagick | 63% | 8.4/10 | 31 | Oui | Traitement par lot |
| Smallpdf (en ligne) | 59% | 8.1/10 | 8 | Oui | Rapide et ponctuel |
| QPDF + jbig2enc | 76% | 9.3/10 | 19 | Oui | Documents texte |
| OCRmyPDF (optimiser) | 69% | 8.7/10 | 14 | Oui (amélioré) | Documents numérisés |
| ps2pdf (défaut) | 41% | 9.6/10 | 52 | Oui | Compression minimale |
| Sejda (en ligne) | 62% | 8.3/10 | 6 | Oui | Pas d'accès par ligne de commande |
| cpdf (squeeze) | 48% | 9.4/10 | 67 | Oui | Optimisation sans perte |
| Pipeline personnalisé | 73% | 9.2/10 | 28 | Oui | Projets d'archive |
Les pourcentages de compression représentent la réduction moyenne sur les 1 000 fichiers de test. Les scores de qualité sont moyennés sur trois évaluateurs indépendants utilisant un ruban standardisé. Les mesures de vitesse excluent le temps de configuration initiale.
Quelques observations qui sautent aux yeux : le préréglage « écran » de Ghostscript est rapide mais détruit la qualité. Adobe Acrobat Pro offre d'excellents résultats mais est douloureusement lent pour un travail par lot. Le pipeline personnalisé que j'ai développé atteint un point idéal pour le travail d'archive — une compression forte avec une perte de qualité minimale.
Mais voici ce que le tableau ne montre pas : la cohérence. Certains outils ont des performances très différentes selon le type de fichier. Ghostscript a bien géré les documents texte mais a abîmé les photographies. OCRmyPDF était brillant pour les pages numérisées mais excessif pour les PDFs nés numériques.
Comprendre pourquoi la « compression maximale » échoue avec les archives
Il y a un mythe persistant dans le travail de numérisation : plus de compression est toujours mieux. Des fichiers plus petits, des coûts réduits, tout le monde y gagne. N'est-ce pas ?
Faux. Catastrophiquement faux.
« La compression est une porte à sens unique. Vous ne pouvez pas décomprimer pour retrouver une qualité que vous avez déjà détruite. Chaque projet d'archive doit d'abord répondre à une question : quel est le minimum de qualité acceptable pour l'utilisation prévue de ce contenu ? »
J'ai appris cela à mes dépens en 2020. Une bibliothèque universitaire m'a engagé pour compresser leur archive de thèses — 15 000 PDFs datant de 1985. Ils voulaient une compression maximale pour minimiser les coûts cloud. J'ai livré 92 % de compression en utilisant