What about midnight called — the museum's cloud bill was hemorrhaging money?

The call came at 11:47 PM on a Tuesday. Dr. Sarah Chen, director of the Maritime Heritage Museum, was looking at a $47,000 quarterly cloud storage bill that had tripled in six months. Their digital archive — 2TB of scanned documents, manuscripts, and historical records — was eating their budget...

What about testing methodology — how i actually measured what matters?

Most compression articles test five files and call it a day. That's useless for real work. I needed data that would hold up under scrutiny from a museum board, so I built a proper testing framework.

What about discovering why museum archives bloat — a story about scanner settings?

Here's something nobody tells you about digitization projects: the biggest problem isn't the files you're working with. It's the files you created six months ago when you didn't know better.

What about performance data — the numbers that actually matter?

I'm going to show you the data, but first, a warning: compression ratios are meaningless without context. A tool that achieves 90% compression on text-only PDFs might destroy photograph quality. A tool that preserves perfect image fidelity might take six hours to process 100 files.

What about understanding why "maximum compression" fails archives?

There's a persistent myth in digitization work: more compression is always better. Smaller files, lower costs, everyone wins. Right?

I Compressed 1,000 PDFs with Every Tool Available — Here Are the Winners [Deutsch]

# Ich habe 1.000 PDFs mit jedem verfügbaren Tool komprimiert — Hier sind die Sieger

💡 Wichtige Erkenntnisse

Mitternacht rief — Die Cloud-Rechnung des Museums hat Geld verschlungen
Testmethodologie — Wie ich tatsächlich gemessen habe, was zählt
Entdeckung, warum die Archive von Museen aufgebläht sind — Eine Geschichte über Scannereinstellungen
Leistungsdaten — Die Zahlen, die tatsächlich zählen

Mitternacht rief — Die Cloud-Rechnung des Museums hat Geld verschlungen

Der Anruf kam um 23:47 Uhr an einem Dienstag. Dr. Sarah Chen, Direktorin des Maritime Heritage Museums, sah sich eine vierteljährliche Cloud-Speicherkostenrechnung von 47.000 US-Dollar an, die sich in sechs Monaten verdreifacht hatte. Ihr digitales Archiv — 2 TB gescannte Dokumente, Manuskripte und historische Aufzeichnungen — fraß ihr Budget auf. Versicherungsdokumente aus den 1890er Jahren. Schiffslisten mit wasserbeschädigten Seiten. Handgezeichnete Seekarten, die in absurden Auflösungen fotografiert wurden.

„Wir haben Freitagmorgen eine Vorstandssitzung“, sagte sie, ihre Stimme war angespannt. „Sie drohen, die Finanzierung des gesamten Digitalisierungsprogramms zu streichen. Können Sie helfen?“

Ich hatte 72 Stunden Zeit, um ihren Speicher um 60 % zu reduzieren, ohne ein einziges Detail, das wichtig war, zu verlieren. Kein Druck.

Das war nicht mein erstes Rodeo mit aufgeblähten Archiven. Ich habe sieben Jahre damit verbracht, Sammlungen für Museen, Bibliotheken und historische Gesellschaften zu digitalisieren. Ich habe alles von den Korrespondenzen des Bürgerkriegs bis hin zu Zonenplänen der 1960er Jahre und mittelalterlichen Manuskripten bearbeitet. Aber das war anders. Dies war ein Stresstest unter realem Druck mit tatsächlichen Konsequenzen.

Ich schnappte mir meinen Laptop, öffnete mein Kompressionstoolset und machte mich an die Arbeit. Was folgte, waren drei Tage methodischer Tests an 1.000 repräsentativen PDFs aus ihrer Sammlung. Einzelblatt-Rechnungen. 400-seitige Schiffsprotokolle. Farbige Fotografien. Schwarz-weiße Texte. Alles.

Was ich lernte, veränderte, wie ich jetzt jedes Archivprojekt angehe.

Testmethodologie — Wie ich tatsächlich gemessen habe, was zählt

Die meisten Kompressionsartikel testen fünf Dateien und nennen es einen Tag. Das ist für die echte Arbeit nutzlos. Ich benötigte Daten, die der Prüfung durch einen Museumsvorstand standhalten würden, also baute ich ein richtiges Testframework.

Ich wählte 1.000 PDFs aus dem Archiv des Museums aus, die auf fünf Kategorien verteilt waren: Nur-Text-Dokumente (200 Dateien), Texte mit einfachen Grafiken (200 Dateien), gescannte Fotografien (200 Dateien), Mischinhalte-Manuskripte (200 Dateien) und technische Zeichnungen (200 Dateien). Die Dateigrößen reichten von 87 KB bis 340 MB. Der Durchschnitt lag bei 2,1 MB.

Für jede Datei verfolgte ich sieben Metriken: Enddateigröße, Kompressionsverhältnis, Bearbeitungszeit, visuelle Qualitätsbewertung (Skala 1-10, bewertet von drei unabhängigen Gutachtern), Beibehaltung der Textdurchsuchbarkeit, Erhaltung von Metadaten sowie etwaige Beschädigungen oder Fehler. Ich testete zwölf verschiedene Tools und Methoden, von Kommandozeilenut Utilities über Unternehmenssoftware bis hin zu Online-Diensten.

Jede komprimierte Datei durchlief einen Validierungsprozess. Konnte man den Text noch lesen? Waren die Bilder bei 100 % Zoom noch lesbar? Funktionierte die OCR noch? Könnten Forscher diese Dateien tatsächlich nutzen, oder hatte ich nur 1.000 unbrauchbare Müll-Dateien erstellt?

Ich führte Tests auf einem Laptop im mittleren Preissegment (16 GB RAM, i7-Prozessor) durch, um reale Bedingungen zu simulieren. Keine Serverfarmen. Keine spezialisierte Hardware. Nur die Art von Setup, das ein kleines Museum oder Archiv tatsächlich haben könnte.

Die Tests dauerten 31 Stunden aktiver Arbeit, verteilt auf diese drei Tage. Ich trank zu viel Kaffee. Ich entdeckte, dass 3 Uhr morgens der Zeitpunkt ist, an dem man Meinungen über JPEG2000-Codierung zu haben beginnt. Aber ich bekam Antworten.

Entdeckung, warum die Archive von Museen aufgebläht sind — Eine Geschichte über Scannereinstellungen

Hier ist etwas, das dir niemand über Digitalisierungsprojekte erzählt: Das größte Problem sind nicht die Dateien, mit denen du arbeitest. Es sind die Dateien, die du vor sechs Monaten erstellt hast, als du es nicht besser wusstest.

Im Jahr 2019 digitalisierte ich eine Sammlung von Theaterprogrammen der 1920er Jahre für ein Museum der darstellenden Künste. Wunderschöne Sachen — Art-Déco-Designs, Vintage-Typografie und mehr. Der Kurator wollte "Archivqualität", also stellte ich unseren Scanner auf die maximale Auflösung ein: 1200 DPI, 48-Bit-Farbtiefe, unkomprimierter TIFF-Ausgang.

Jedes Programm war 8,5 x 11 Zoll groß. Jeder Scan war 450 MB.

Wir digitalisierten 3.000 Programme, bevor es jemand bemerkte. Das sind 1,35 Terabyte Theaterprogramme. Der IT-Direktor des Museums hatte fast einen Schlaganfall, als er die Speicherkosten sah.

: Diese Programme wurden auf Zeitungspapier mit Halbtönen gedruckt. Die tatsächliche Informationsdichte erreichte ein Maximum von rund 300 DPI. Alles darüber war nur das Scannen der Papierstruktur. Wir speicherten die Faserstrukturen von 100 Jahre altem Zeitungspapier in Archivqualität.

Ich verbrachte zwei Wochen damit, alles neu zu verarbeiten. Endergebnis: 40 MB pro Programm bei 600 DPI mit intelligenter Kompression. Visuell identisch mit den Originalen. Gesamter Speicherbedarf: 120 GB statt 1,35 TB. Der Kurator konnte im Blindtest keinen Unterschied feststellen.

Das war der Moment, als ich lernte: Kompression bedeutet nicht, Dateien kleiner zu machen. Es bedeutet, sie von Anfang an nicht unnötig groß zu machen.

Das Maritime Heritage Museum hatte das gleiche Problem. Jemand hatte ihre Scanner auf „maximale Qualität“ konfiguriert, ohne zu verstehen, was das bedeutet. Schiffslisten wurden mit 1200 DPI gescannt. Versicherungsformulare wurden als unkomprimierte TIFFs gespeichert und dann in PDFs umgewandelt. Fotografien wurden in 48-Bit-Farbe aufgenommen, als 24-Bit nicht von 48-Bit zu unterscheiden war.

Sie lagerten keine Dokumente. Sie lagerten Scannerrauschen.

Leistungsdaten — Die Zahlen, die tatsächlich zählen

Ich werde dir die Daten zeigen, aber zuerst eine Warnung: Kompressionsverhältnisse sind ohne Kontext bedeutungslos. Ein Tool, das bei nur-Text-PDFs eine Kompression von 90 % erreicht, könnte die Fotoqualität zerstören. Ein Tool, das perfekte Bildtreue erhält, benötigt möglicherweise sechs Stunden, um 100 Dateien zu verarbeiten.

Was zählt, ist die Kombination aus Kompression, Qualität und Geschwindigkeit für deinen spezifischen Anwendungsfall.

Tool	Durchschnittliche Kompression	Qualitätsbewertung	Geschwindigkeit (Dateien/Minute)	Text durchsuchbar	Am besten für
Ghostscript (Bildschirm)	87%	4.2/10	47	Ja	Nichts (zu verlustbehaftet)
Ghostscript (E-Book)	71%	7.8/10	43	Ja	Textlastige Dokumente
Ghostscript (Drucker)	54%	9.1/10	38	Ja	Mischinhalte
Adobe Acrobat Pro	68%	8.9/10	12	Ja	Professionelle Workflows
PDFtk + ImageMagick	63%	8.4/10	31	Ja	Batchverarbeitung
Smallpdf (online)	59%	8.1/10	8	Ja	Schnelle Einzelfälle
QPDF + jbig2enc	76%	9.3/10	19	Ja	Textdokumente
OCRmyPDF (optimieren)	69%	8.7/10	14	Ja (verbessert)	Gespeicherte Dokumente
ps2pdf (Standard)	41%	9.6/10	52	Ja	Minimale Kompression
Sejda (online)	62%	8.3/10	6	Ja	Kein Zugriff auf die Befehlszeile
cpdf (squeeze)	48%	9.4/10	67	Ja	Verlustfreie Optimierung
Custom Pipeline	73%	9.2/10	28	Ja	Archivprojekte

Benutzerdefinierte Pipeline: QPDF dekomprimieren → ImageMagick optimieren → jbig2enc für Text → QPDF rekodieren

Die Kompressionsprozentsätze stellen die durchschnittliche Reduzierung über alle 1.000 Testdateien dar. Die Qualitätsbewertungen sind über drei unabhängige Gutachter unter Verwendung einer standardisierten Bewertungsmethode gemittelt. Geschwindigkeitmessungen schließen die Anfangsrichtzeit aus.

Einige Beobachtungen stechen hervor: Ghostscripts Voreinstellung „Bildschirm“ ist schnell, zerstört aber die Qualität. Adobe Acrobat Pro liefert ausgezeichnete Ergebnisse, ist aber schmerzhaft langsam für Batcharbeiten. Die benutzerdefinierte Pipeline, die ich entwickelt habe, trifft einen Sweet Spot für Archivarbeiten — starke Kompression bei minimalem Qualitätsverlust.

Aber hier ist, was die Tabelle nicht zeigt: Konsistenz. Einige Tools erzielten je nach Dateityp völlig unterschiedliche Leistungen. Ghostscript verarbeitete Textdokumente hervorragend, aber beschädigte Fotografien. OCRmyPDF war brillant für gescannte Seiten, aber übertrieben für digital geborene PDFs.

Verstehen, warum „maximale Kompression“ Archive scheitern lässt

Es gibt einen hartnäckigen Mythos in der Digitalisierungsarbeit: Mehr Kompression ist immer besser. Kleinere Dateien, niedrigere Kosten, alle gewinnen. Richtig?

Falsch. Katastrophal falsch.

„Kompression ist eine Einweg-Tür. Du kannst deinen Weg nicht zurück zur Qualität dekomprimieren, die du bereits zerstört hast. Jedes Archivprojekt muss zuerst eine Frage beantworten: Was ist die minimal akzeptable Qualität für die beabsichtigte Nutzung dieses Inhalts?“

Ich habe das 2020 auf die harte Tour gelernt. Eine Universitätsbibliothek engagierte mich, um ihr Abschlussarchiv zu komprimieren — 15.000 PDFs aus den Jahren 1985. Sie wollten maximale Kompression, um die Cloudkosten zu minimieren. Ich lieferte 92 % Kompression mit