What about midnight called — the museum's cloud bill was hemorrhaging money?

The call came at 11:47 PM on a Tuesday. Dr. Sarah Chen, director of the Maritime Heritage Museum, was looking at a $47,000 quarterly cloud storage bill that had tripled in six months. Their digital archive — 2TB of scanned documents, manuscripts, and historical records — was eating their budget...

What about testing methodology — how i actually measured what matters?

Most compression articles test five files and call it a day. That's useless for real work. I needed data that would hold up under scrutiny from a museum board, so I built a proper testing framework.

What about discovering why museum archives bloat — a story about scanner settings?

Here's something nobody tells you about digitization projects: the biggest problem isn't the files you're working with. It's the files you created six months ago when you didn't know better.

What about performance data — the numbers that actually matter?

I'm going to show you the data, but first, a warning: compression ratios are meaningless without context. A tool that achieves 90% compression on text-only PDFs might destroy photograph quality. A tool that preserves perfect image fidelity might take six hours to process 100 files.

What about understanding why "maximum compression" fails archives?

There's a persistent myth in digitization work: more compression is always better. Smaller files, lower costs, everyone wins. Right?

I Compressed 1,000 PDFs with Every Tool Available — Here Are the Winners [Français]

# J'ai compressé 1 000 PDFs avec tous les outils disponibles — Voici les gagnants

💡 Points clés

Midnight Called — La facture cloud du musée était en pleine hémorragie financière
Métodologie de test — Comment j'ai réellement mesuré ce qui compte
Découverte de la raison pour laquelle les archives des musées gonflent — Une histoire sur les paramètres des scanners
Données de performance — Les chiffres qui comptent vraiment

Midnight Called — La facture cloud du musée était en pleine hémorragie financière

Appel reçu à 23h47 un mardi. Dr. Sarah Chen, directrice du musée du patrimoine maritime, examinait une facture de stockage cloud trimestrielle de 47 000 $ qui avait triplé en six mois. Leur archive numérique — 2 To de documents numérisés, de manuscrits et d'archives historiques — dévorait leur budget. Documents d'assurance des années 1890. Manifeste de navires avec des bords endommagés par l'eau. Cartes de navigation dessinées à la main photographiées à des résolutions absurdes.

« Nous avons une réunion du conseil d'administration vendredi matin, » a-t-elle dit, sa voix tendue. « Ils menacent de retirer le financement de l'ensemble du programme de numérisation. Pouvez-vous nous aider ? »

J'avais 72 heures pour réduire leur stockage de 60 % sans perdre un seul détail important. Pas de pression.

Ce n'était pas ma première expérience avec des archives gonflées. J'ai passé sept ans à numériser des collections pour des musées, des bibliothèques et des sociétés historiques. J'ai traité tout, des correspondances de la guerre de Sécession aux cartes de zonage des années 1960, jusqu'aux manuscrits médiévaux. Mais c'était différent. C'était un test de résistance sous pression réelle avec des conséquences concrètes.

J'ai pris mon ordinateur portable, j'ai ouvert ma boîte à outils de compression, et je me suis mis au travail. Ce qui a suivi a été trois jours de tests méthodiques sur 1 000 PDFs représentatifs de leur collection. Factures à une page. Journaux de bord de 400 pages. Photographies couleur. Texte en noir et blanc. Tout.

Ce que j'ai appris a changé ma façon d'aborder chaque projet d'archive maintenant.

Méthodologie de test — Comment j'ai réellement mesuré ce qui compte

La plupart des articles sur la compression testent cinq fichiers et appellent cela un jour. C'est inutile pour du travail réel. J'avais besoin de données qui tiendraient sous l'examen d'un conseil d'administration de musée, donc j'ai construit un cadre de test approprié.

J'ai sélectionné 1 000 PDFs de l'archive du musée, stratifiés en cinq catégories : documents texte uniquement (200 fichiers), texte avec graphiques simples (200 fichiers), photographies numérisées (200 fichiers), manuscrits à contenu mixte (200 fichiers), et dessins techniques (200 fichiers). Les tailles de fichiers variaient de 87 Ko à 340 Mo. La moyenne était de 2,1 Mo.

Pour chaque fichier, j'ai suivi sept indicateurs : taille finale du fichier, ratio de compression, temps de traitement, score de qualité visuelle (échelle de 1 à 10, évalué par trois évaluateurs indépendants), rétention de la capacité de recherche des textes, préservation des métadonnées, et toute corruption ou erreur. J'ai testé douze outils et méthodes différents, allant des utilitaires en ligne de commande aux logiciels d'entreprise et services en ligne.

Chaque fichier compressé a passé un processus de validation. Pouvions-nous encore lire le texte ? Les images étaient-elles toujours lisibles à 100 % de zoom ? L'OCR fonctionnait-elle encore ? Les chercheurs pouvaient-ils réellement utiliser ces fichiers, ou avais-je juste créé 1 000 fichiers inutilisables ?

J'ai réalisé des tests sur un ordinateur portable moyen (16 Go de RAM, processeur i7) pour simuler des conditions du monde réel. Pas de fermes de serveurs. Pas de matériel spécialisé. Juste le genre de configuration qu'un petit musée ou une archive pourrait réellement avoir.

Les tests ont pris 31 heures de travail actif étalées sur ces trois jours. J'ai bu trop de café. J'ai découvert que 3 heures du matin, c'est le moment où l'on commence à avoir des opinions sur l'encodage JPEG2000. Mais j'ai eu des réponses.

Découverte de la raison pour laquelle les archives des musées gonflent — Une histoire sur les paramètres des scanners

Voici quelque chose que personne ne vous dit à propos des projets de numérisation : le plus gros problème n'est pas les fichiers avec lesquels vous travaillez. C'est les fichiers que vous avez créés il y a six mois quand vous ne saviez pas mieux.

En 2019, je numérisais une collection de programmes de théâtre des années 1920 pour un musée des arts du spectacle. De belles choses — designs art déco, typographie vintage, le tout. Le conservateur voulait une « qualité d'archive », alors j'ai configuré notre scanner à la résolution maximale : 1200 DPI, profondeur de couleur de 48 bits, sortie TIFF non compressée.

Chaque programme mesurait 8.5 x 11 pouces. Chaque scan faisait 450 Mo.

Nous avons numérisé 3 000 programmes avant que quiconque ne le remarque. C'est 1,35 téraoctets de programmes de théâtre. Le directeur informatique du musée a failli avoir une crise lorsqu'il a vu les coûts de stockage.

Ces programmes étaient imprimés sur du papier journal avec des points de trame. La densité d'information réelle atteignait un maximum d'environ 300 DPI. Tout ce qui était au-dessus était juste le scan de la texture du papier. Nous stockions les motifs de fibres de papier journal vieux de 100 ans à une qualité d'archive.

J'ai passé deux semaines à reprocesser tout ça. Résultat final : 40 Mo par programme à 600 DPI avec compression intelligente. Visuellement identique aux originaux. Total de stockage : 120 Go au lieu de 1,35 To. Le conservateur n'a pas pu faire de différence lors des tests à l'aveugle.

C'est à ce moment que j'ai appris : la compression ne consiste pas à rendre les fichiers plus petits. Il s'agit de ne pas les rendre inutilement énormes au départ.

Le musée du patrimoine maritime avait le même problème. Quelqu'un avait configuré leurs scanners pour « qualité maximale » sans comprendre ce que cela signifiait. Manifests de navires scannés à 1200 DPI. Formulaires d'assurance enregistrés sous forme de TIFF non compressés, puis convertis en PDFs. Photographies capturées en couleur 48 bits lorsque 24 bits étaient indiscernables.

Ils ne stockaient pas des documents. Ils stockaient du bruit de scanner.

Données de performance — Les chiffres qui comptent vraiment

Je vais vous montrer les données, mais d'abord, un avertissement : les ratios de compression sont sans signification sans contexte. Un outil qui atteint 90 % de compression sur des PDFs texte uniquement peut détruire la qualité des photographies. Un outil qui préserve une fidélité d'image parfaite peut prendre six heures pour traiter 100 fichiers.

Ce qui compte, c'est la combinaison de la compression, de la qualité et de la vitesse pour votre cas d'utilisation spécifique.

Outil	Compression Moyenne	Score de Qualité	Vitesse (fichiers/min)	Texte Consultable	Idéal Pour
Ghostscript (écran)	87%	4.2/10	47	Oui	Rien (trop dégradant)
Ghostscript (ebook)	71%	7.8/10	43	Oui	Documents riches en texte
Ghostscript (imprimante)	54%	9.1/10	38	Oui	Contenu mixte
Adobe Acrobat Pro	68%	8.9/10	12	Oui	Flux de travail professionnels
PDFtk + ImageMagick	63%	8.4/10	31	Oui	Traitement par lot
Smallpdf (en ligne)	59%	8.1/10	8	Oui	Rapide et ponctuel
QPDF + jbig2enc	76%	9.3/10	19	Oui	Documents texte
OCRmyPDF (optimiser)	69%	8.7/10	14	Oui (amélioré)	Documents numérisés
ps2pdf (défaut)	41%	9.6/10	52	Oui	Compression minimale
Sejda (en ligne)	62%	8.3/10	6	Oui	Pas d'accès par ligne de commande
cpdf (squeeze)	48%	9.4/10	67	Oui	Optimisation sans perte
Pipeline personnalisé	73%	9.2/10	28	Oui	Projets d'archive

Pipeline personnalisé : QPDF décompresse → ImageMagick optimise → jbig2enc pour le texte → QPDF recompresse

Les pourcentages de compression représentent la réduction moyenne sur les 1 000 fichiers de test. Les scores de qualité sont moyennés sur trois évaluateurs indépendants utilisant un ruban standardisé. Les mesures de vitesse excluent le temps de configuration initiale.

Quelques observations qui sautent aux yeux : le préréglage « écran » de Ghostscript est rapide mais détruit la qualité. Adobe Acrobat Pro offre d'excellents résultats mais est douloureusement lent pour un travail par lot. Le pipeline personnalisé que j'ai développé atteint un point idéal pour le travail d'archive — une compression forte avec une perte de qualité minimale.

Mais voici ce que le tableau ne montre pas : la cohérence. Certains outils ont des performances très différentes selon le type de fichier. Ghostscript a bien géré les documents texte mais a abîmé les photographies. OCRmyPDF était brillant pour les pages numérisées mais excessif pour les PDFs nés numériques.

Comprendre pourquoi la « compression maximale » échoue avec les archives

Il y a un mythe persistant dans le travail de numérisation : plus de compression est toujours mieux. Des fichiers plus petits, des coûts réduits, tout le monde y gagne. N'est-ce pas ?

Faux. Catastrophiquement faux.

« La compression est une porte à sens unique. Vous ne pouvez pas décomprimer pour retrouver une qualité que vous avez déjà détruite. Chaque projet d'archive doit d'abord répondre à une question : quel est le minimum de qualité acceptable pour l'utilisation prévue de ce contenu ? »

J'ai appris cela à mes dépens en 2020. Une bibliothèque universitaire m'a engagé pour compresser leur archive de thèses — 15 000 PDFs datant de 1985. Ils voulaient une compression maximale pour minimiser les coûts cloud. J'ai livré 92 % de compression en utilisant