# 1,000のPDFを利用可能なすべてのツールで圧縮しました — 勝者はこちら
💡 キーポイント
- 真夜中の呼び出し — 博物館のクラウド請求書が赤字続きだった
- テスト方法論 — 重要なことをどう測定したか
- 博物館のアーカイブが膨れ上がる理由を発見 — スキャナー設定についての話
- パフォーマンスデータ — 実際に重要な数字
真夜中の呼び出し — 博物館のクラウド請求書が赤字続きだった
電話は火曜日の午後11時47分にかかってきた。海事遺産博物館の館長、サラ・チェン博士は、6か月で3倍になった47,000ドルの四半期ごとのクラウドストレージの請求書を見ていた。彼らのデジタルアーカイブ — スキャンされた文書、原稿、歴史的記録の2TBは、予算を食い尽くしていた。1890年代の保険文書。水に濡れて傷んだ船の目録。無茶な解像度で撮影された手描きの航海図。
「金曜日の朝に理事会があります」と彼女は言った。声は緊張している。「全デジタル化プログラムへの資金提供を停止すると脅されています。手伝えますか?」
重要な詳細を失うことなく、60%ストレージを削減するための72時間が与えられた。プレッシャーは全くなかった。
これは私にとって初めての高膨張アーカイブではなかった。博物館、図書館、歴史協会のために集められたコレクションを7年間デジタル化してきた。南北戦争の文書から1960年代の区画図、さらには中世の原稿まで、何でも取り扱った。しかし、これは違った。これは実際の結果を伴う現実の圧力の下でのストレステストだった。
ノートパソコンを取って、圧縮ツールキットを開き、作業に取り掛かった。その後、彼らのコレクションから1,000の代表的なPDFについて、3日間の体系的なテストが行われた。単ページの請求書。400ページの船の記録。カラー写真。白黒のテキスト。すべて。
私が学んだことは、今すべてのアーカイブプロジェクトに対するアプローチを変えるものだった。
テスト方法論 — 重要なことをどう測定したか
ほとんどの圧縮記事は5つのファイルをテストして終わりにする。それは実務にとって無意味だ。博物館の理事会からの厳しい目に耐えうるデータが必要だったので、適切なテストフレームワークを構築した。
博物館のアーカイブから1,000のPDFを選択し、テキストのみの文書(200ファイル)、簡単なグラフィック付きのテキスト(200ファイル)、スキャンされた写真(200ファイル)、混合コンテンツ原稿(200ファイル)、技術図面(200ファイル)の5つのカテゴリに層別化した。ファイルサイズは87KBから340MBまで。平均は2.1MBだった。
各ファイルについて、最終ファイルサイズ、圧縮率、処理時間、視覚の品質スコア(1-10スケール、独立した3人の評価者によって評価)、テキストの検索保持、メタデータの保存、及び損傷やエラーの7つのメトリクスを追跡した。コマンドラインユーティリティからエンタープライズソフトウェア、オンラインサービスまで、12の異なるツールと方法をテストした。
すべての圧縮ファイルは検証プロセスを経た。テキストはまだ読めるか? 画像は100%のズームでまだ判読できるか? OCRはまだ機能するか? 研究者は実際にこれらのファイルを使用できるのか、それとも無用な1,000のゴミファイルを作成しただけなのか?
実際の条件をシミュレートするために、中性能のノートパソコン(16GB RAM、i7プロセッサ)でテストを行った。サーバーファームもなければ、専門のハードウェアも必要ない。小さな博物館やアーカイブが実際に持っているであろうセットアップの種類だ。
テストには合計31時間の作業がかかった。私はコーヒーを飲みすぎた。午前3時には、JPEG2000エンコーディングについて意見を持ちはじめたが、答えは得られた。
博物館のアーカイブが膨れ上がる理由を発見 — スキャナー設定についての話
デジタル化プロジェクトについて誰も言わないことがある。最大の問題は、あなたが作業しているファイルではない。6か月前に作成したファイルなのだ。
2019年、私はパフォーミングアーツ博物館のために1920年代の劇場プログラムをデジタル化していた。美しいものだ — アールデコのデザイン、ビンテージのタイポグラフィ、すべて。キュレーターは「アーカイブ品質」を求めたので、スキャナーを最大解像度に設定した:1200 DPI、48ビットカラーデプス、未圧縮TIFF出力。
各プログラムは8.5 x 11インチで、各スキャンは450MBだった。
誰も気づくまでに3,000プログラムをデジタル化した。それは1.35テラバイトの劇場プログラムだ。博物館のITディレクターは、ストレージコストを見たときにほぼ意識を失った。
それらのプログラムはニュースプリントに半色ドットで印刷されていた。実際の情報密度は300DPIあたりで最大になった。それ以上は紙のテクスチャをスキャンするだけだった。我々はアーカイブ品質で100年古いニュースプリントの繊維模様を保存することになっていた。
すべてを再処理するのに2週間かかった。最終結果:600DPIでスマート圧縮による40MBのプログラム。視覚的には元のものと同一。総ストレージ:1.35TBの代わりに120GB。ブラインドテストでキュレーターは違いを見分けられなかった。
これが私の学びだった:圧縮はファイルを小さくすることではない。最初から不必要に巨大にしないことが大切なのだ。
海事遺産博物館も同じ問題を抱えていた。誰かが「最高品質」を求めてスキャナーを設定し、意味を理解していなかった。1200 DPIでスキャンされた船の目録。未圧縮TIFFとして保存された保険文書の後、PDFに変換された。24ビットでは識別できないのに48ビットカラーでキャプチャされた写真。
彼らは文書を保存していたのではない。スキャナーのノイズを保存していたのだ。
パフォーマンスデータ — 実際に重要な数字
データを示すが、まず警告を:圧縮率は文脈なしでは意味がない。テキストのみのPDFで90%の圧縮を達成するツールは、写真の質を破壊するかもしれない。完璧な画像の忠実度を保つツールは、100ファイルを処理するのに6時間かかるかもしれない。
重要なのは特定の使用ケースにおける圧縮、品質、速度の組み合わせである。
| ツール | 平均圧縮率 | 品質スコア | 速度(ファイル/分) | テキスト検索可能 | 最適 |
|---|---|---|---|---|---|
| Ghostscript(画面用) | 87% | 4.2/10 | 47 | はい | なし(あまりにも劣化がひどい) |
| Ghostscript(電子書籍用) | 71% | 7.8/10 | 43 | はい | テキストが多い文書 |
| Ghostscript(プリンター用) | 54% | 9.1/10 | 38 | はい | 混合コンテンツ |
| Adobe Acrobat Pro | 68% | 8.9/10 | 12 | はい | 専門的なワークフロー |
| PDFtk + ImageMagick | 63% | 8.4/10 | 31 | はい | バッチ処理 |
| Smallpdf(オンライン) | 59% | 8.1/10 | 8 | はい | クイックなワンオフ |
| QPDF + jbig2enc | 76% | 9.3/10 | 19 | はい | テキスト文書 |
| OCRmyPDF(最適化) | 69% | 8.7/10 | 14 | はい(強化済み) | スキャンされた文書 |
| ps2pdf(デフォルト) | 41% | 9.6/10 | 52 | はい | 最小限の圧縮 |
| Sejda(オンライン) | 62% | 8.3/10 | 6 | はい | コマンドラインアクセスなし |
| cpdf(スイクイーズ) | 48% | 9.4/10 | 67 | はい | ロスレス最適化 |
| カスタムパイプライン | 73% | 9.2/10 | 28 | はい | アーカイブプロジェクト |
圧縮率は1,000のテストファイル全体の平均減少を示す。品質スコアは、標準化されたルーブリックを使用して、独立した3人の評価者によって平均化される。速度測定には初期設定時間は含まれない。
目を引くいくつかの観察結果:Ghostscriptの「画面」プリセットは早いが品質を破壊する。Adobe Acrobat Proは優れた結果をもたらすが、バッチ作業にとっては痛ましいほど遅い。私が開発したカスタムパイプラインは、アーカイブ作業にとってのスウィートスポットを打つ — 最小限の品質損失で強力な圧縮。
しかし、表には表示されないことがある:一貫性。ファイルタイプによってツールのパフォーマンスが大きく異なる場合があった。Ghostscriptはテキスト文書を美しく圧縮したが、写真を損なった。OCRmyPDFはスキャンされたページで素晴らしかったが、デジタルネイティブのPDFに対してはやりすぎだった。
なぜ「最大圧縮」がアーカイブに失敗するのかを理解する
デジタル化の仕事には持続的な神話がある:より多くの圧縮は常に良い。小さなファイル、低コスト、みんなが勝つ。そうだろう?
間違いだ。壊滅的な間違いだ。
「圧縮は片方向ドアだ。既に破壊した品質に戻るために解凍することはできない。すべてのアーカイブプロジェクトはまず1つの質問に答える必要がある:このコンテンツの意図した使用のために、最小限受け入れ可能な品質は何か?」
私は2020年にこの教訓を厳しい方法で学んだ。大学の図書館が、1985年からの15,000のPDFの修士論文アーカイブを圧縮するために私を雇った。彼らはクラウドコストを最小限に抑えるために最大圧縮を求めた。私は92%の圧縮を達成した。