I Compressed 1,000 PDFs with Every Tool Available — Here Are the Winners

March 2026 · 14 min read · 3,385 words · Last Updated: March 31, 2026Advanced

# Saya Mengompresi 1,000 PDF dengan Setiap Alat yang Tersedia — Berikut Adalah Pemenangnya

💡 Poin Penting

  • Panggilan Tengah Malam — Tagihan Cloud Museum Mengalami Kerugian Besar
  • Metodologi Pengujian — Cara Saya Mengukur Apa yang Penting
  • Menemukan Mengapa Arsip Museum Membengkak — Sebuah Kisah Tentang Pengaturan Pemindai
  • Data Kinerja — Angka yang Sebenarnya Penting

Panggilan Tengah Malam — Tagihan Cloud Museum Mengalami Kerugian Besar

Panggilan itu datang pada pukul 11:47 malam di sebuah Selasa. Dr. Sarah Chen, direktur Museum Warisan Maritim, sedang melihat tagihan penyimpanan cloud sebesar $47,000 per kuartal yang telah tiga kali lipat dalam enam bulan. Arsip digital mereka — 2TB dokumen yang dipindai, manuskrip, dan catatan sejarah — menggerogoti anggaran mereka. Dokumen asuransi dari tahun 1890-an. Manifest kapal dengan tepi yang rusak oleh air. Peta navigasi yang digambar tangan difoto pada resolusi yang absurd.

"Kami ada rapat dewan pada Jumat pagi," katanya, suaranya tegang. "Mereka mengancam akan menarik dana untuk seluruh program digitalisasi. Bisakah Anda membantu?"

Saya memiliki waktu 72 jam untuk mengurangi penyimpanan mereka sebesar 60% tanpa kehilangan satu detail yang berarti. Tidak ada tekanan.

Ini bukan pertama kalinya saya menghadapi arsip yang membengkak. Saya telah menghabiskan tujuh tahun melakukan digitalisasi koleksi untuk museum, perpustakaan, dan masyarakat sejarah. Saya telah menangani semuanya mulai dari korespondensi Perang Saudara hingga peta zonasi tahun 1960-an hingga manuskrip abad pertengahan. Tapi ini berbeda. Ini adalah uji stres di bawah tekanan nyata dengan konsekuensi yang sebenarnya.

Saya mengambil laptop saya, mengeluarkan paket alat kompresi saya, dan mulai bekerja. Apa yang terjadi selanjutnya adalah tiga hari pengujian metodis di 1,000 PDF representatif dari koleksi mereka. Faktur satu halaman. Buku catatan kapal 400 halaman. Foto berwarna. Teks hitam-putih. Semua.

Apa yang saya pelajari mengubah cara saya mendekati setiap proyek arsip sekarang.

Metodologi Pengujian — Cara Saya Mengukur Apa yang Penting

Kebanyakan artikel tentang kompresi menguji lima file dan menganggapnya selesai. Itu tidak berguna untuk pekerjaan nyata. Saya memerlukan data yang dapat dipertanggungjawabkan di hadapan dewan museum, jadi saya membangun kerangka pengujian yang tepat.

Saya memilih 1,000 PDF dari arsip museum, terstratifikasi dalam lima kategori: dokumen teks saja (200 file), teks dengan grafik sederhana (200 file), foto yang dipindai (200 file), manuskrip konten campuran (200 file), dan gambar teknik (200 file). Ukuran file bervariasi dari 87KB hingga 340MB. Rata-rata adalah 2.1MB.

Untuk setiap file, saya melacak tujuh metrik: ukuran file akhir, rasio kompresi, waktu pemrosesan, skor kualitas visual (skala 1-10, dinilai oleh tiga penilai independen), retensi pencarian teks, pelestarian metadata, dan adanya korupsi atau kesalahan. Saya menguji dua belas alat dan metode berbeda, dari utilitas baris perintah hingga perangkat lunak perusahaan hingga layanan online.

Setiap file yang dikompresi melalui proses validasi. Dapatkah kami masih membaca teksnya? Apakah gambar masih terbaca pada zoom 100%? Apakah OCR masih berfungsi? Dapatkah peneliti benar-benar menggunakan file-file ini, atau saya hanya menciptakan 1,000 file sampah yang tidak dapat digunakan?

Saya menjalankan tes di laptop kelas menengah (16GB RAM, prosesor i7) untuk mensimulasikan kondisi dunia nyata. Tidak ada farm server. Tidak ada perangkat keras khusus. Hanya pengaturan yang mungkin dimiliki oleh museum kecil atau arsip.

Pengujian memakan waktu 31 jam kerja aktif yang tersebar di tiga hari itu. Saya minum terlalu banyak kopi. Saya menemukan bahwa pukul 3 pagi adalah saat Anda mulai memiliki pendapat tentang pengkodean JPEG2000. Tapi saya mendapatkan jawaban.

Menemukan Mengapa Arsip Museum Membengkak — Sebuah Kisah Tentang Pengaturan Pemindai

Inilah sesuatu yang tidak ada yang memberi tahu Anda tentang proyek digitalisasi: masalah terbesar bukanlah file yang Anda kerjakan. Itu adalah file yang Anda buat enam bulan lalu ketika Anda tidak tahu lebih baik.

Pada tahun 2019, saya sedang mendigitalisasi koleksi program teater tahun 1920-an untuk museum seni表演. Barang-barang yang indah — desain art deco, tipografi vintage, semuanya. Kurator menginginkan "kualitas arsip," jadi saya mengatur pemindai kami pada resolusi maksimum: 1200 DPI, kedalaman warna 48-bit, output TIFF tidak terkompresi.

Setiap program berukuran 8.5 x 11 inci. Setiap pemindaian berukuran 450MB.

Kami mendigitalisasi 3,000 program sebelum seseorang menyadarinya. Itu 1.35 terabyte program teater. Direktur TI museum hampir terkena stroke saat melihat biaya penyimpanan.

: program-program itu dicetak di kertas koran dengan titik setengah. Kepadatan informasi aktual mencapai maksimum sekitar 300 DPI. Semuanya di atas itu hanya memindai tekstur kertas. Kami menyimpan pola serat dari kertas koran berusia 100 tahun dengan kualitas arsip.

Saya menghabiskan dua minggu memproses ulang semuanya. Hasil akhir: 40MB per program pada 600 DPI dengan kompresi cerdas. Secara visual identik dengan yang aslinya. Total penyimpanan: 120GB alih-alih 1.35TB. Kurator tidak dapat membedakan perbedaan dalam tes buta.

Saat itulah saya belajar: kompresi bukan tentang membuat file lebih kecil. Ini tentang tidak membuatnya tidak perlu besar sejak awal.

Museum Warisan Maritim memiliki masalah yang sama. Seseorang telah mengonfigurasi pemindai mereka untuk "kualitas maksimum" tanpa memahami apa artinya. Manifest kapal dipindai pada 1200 DPI. Formulir asuransi disimpan sebagai TIFF tidak terkompresi lalu diubah menjadi PDF. Foto diambil pada warna 48-bit ketika 24-bit tidak dapat dibedakan.

Mereka bukan menyimpan dokumen. Mereka menyimpan kebisingan pemindai.

Data Kinerja — Angka yang Sebenarnya Penting

Saya akan menunjukkan data kepada Anda, tetapi pertama, sebuah peringatan: rasio kompresi tidak berarti apa-apa tanpa konteks. Sebuah alat yang mencapai 90% kompresi pada PDF hanya teks mungkin menghancurkan kualitas foto. Alat yang mempertahankan fidelitas gambar yang sempurna mungkin memerlukan enam jam untuk memproses 100 file.

Yang penting adalah kombinasi kompresi, kualitas, dan kecepatan untuk kasus penggunaan spesifik Anda.

Alat Rata-Rata Kompresi Skor Kualitas Kecepatan (file/menit) Pencarian Teks Terbaik Untuk
Ghostscript (layar) 87% 4.2/10 47 Ya Tidak ada (terlalu banyak kehilangan)
Ghostscript (ebook) 71% 7.8/10 43 Ya Dokumen berat teks
Ghostscript (printer) 54% 9.1/10 38 Ya Konten campuran
Adobe Acrobat Pro 68% 8.9/10 12 Ya Alur kerja profesional
PDFtk + ImageMagick 63% 8.4/10 31 Ya Proses batch
Smallpdf (online) 59% 8.1/10 8 Ya Quick one-offs
QPDF + jbig2enc 76% 9.3/10 19 Ya Dokumen teks
OCRmyPDF (optimize) 69% 8.7/10 14 Ya (ditingkatkan) Dokumen yang dipindai
ps2pdf (default) 41% 9.6/10 52 Ya Kompresi minimal
Sejda (online) 62% 8.3/10 6 Ya Tidak ada akses baris perintah
cpdf (squeeze) 48% 9.4/10 67 Ya Optimizasi tanpa kehilangan
Custom pipeline 73% 9.2/10 28 Ya Proyek arsip
Pipa kustom: QPDF decompress → ImageMagick optimize → jbig2enc untuk teks → QPDF recompress

Persentase kompresi mewakili pengurangan rata-rata di seluruh 1,000 file tes. Skor kualitas dirata-ratakan di antara tiga penilai independen menggunakan rubrik yang distandarisasi. Pengukuran kecepatan tidak termasuk waktu pengaturan awal.

Beberapa pengamatan yang menonjol: preset "layar" Ghostscript cepat tetapi menghancurkan kualitas. Adobe Acrobat Pro memberikan hasil yang sangat baik tetapi sangat lambat untuk pekerjaan batch. Pipeline kustom yang saya kembangkan mencapai titik manis untuk pekerjaan arsip — kompresi kuat dengan kehilangan kualitas minimal.

Tetapi inilah yang tidak ditunjukkan tabel: konsistensi. Beberapa alat berkinerja sangat berbeda tergantung pada jenis file. Ghostscript memampatkan dokumen teks dengan sangat baik tetapi merusak foto. OCRmyPDF sangat baik untuk halaman yang dipindai tetapi berlebihan untuk PDF yang dibuat secara digital.

Memahami Mengapa "Kompresi Maksimum" Gagal pada Arsip

Ada mitos yang persisten dalam pekerjaan digitalisasi: lebih banyak kompresi selalu lebih baik. File yang lebih kecil, biaya lebih rendah, semua orang menang. Benar?

Salah. Sangat salah.

"Kompresi adalah pintu satu arah. Anda tidak dapat mengompres kembali menjadi kualitas yang sudah Anda hancurkan. Setiap proyek arsip perlu menjawab satu pertanyaan terlebih dahulu: apa kualitas minimum yang dapat diterima untuk penggunaan yang dimaksudkan dari konten ini?"

Saya belajar ini dengan cara yang sulit pada tahun 2020. Sebuah perpustakaan universitas menyewa saya untuk mengompresi arsip tesis mereka — 15,000 PDF yang berasal dari tahun 1985. Mereka ingin kompresi maksimum untuk meminimalkan biaya cloud. Saya memberikan kompresi 92% menggunakan

P

Written by the PDF0.ai Team

Our editorial team specializes in document management and PDF technology. We research, test, and write in-depth guides to help you work smarter with the right tools.

Share This Article

Twitter LinkedIn Reddit HN

Related Tools

Help Center — pdf0.ai Flatten PDF Form — Lock Fields, Free Online Tool Categories — pdf0.ai

Related Articles

How to Password Protect a PDF (And Why Most People Do It Wrong) PDF Accessibility: A Practical WCAG Compliance Checklist How Digital Signatures Work in PDFs — pdf0.ai

Put this into practice

Try Our Free Tools →