# Tôi đã nén 1.000 file PDF với mọi công cụ sẵn có — Đây là những người chiến thắng
💡 Những điểm chính
- Cuộc gọi lúc nửa đêm — Hóa đơn đám mây của bảo tàng đang lỗ nặng
- Phương pháp thử nghiệm — Cách tôi thực sự đo lường những gì quan trọng
- Khám phá lý do tại sao kho lưu trữ bảo tàng bị phình ra — Một câu chuyện về cài đặt máy quét
- Dữ liệu hiệu suất — Những con số thực sự quan trọng
Cuộc gọi lúc nửa đêm — Hóa đơn đám mây của bảo tàng đang lỗ nặng
Cuộc gọi đến vào lúc 11:47 chiều vào một ngày thứ Ba. Tiến sĩ Sarah Chen, giám đốc Bảo tàng Di sản Hàng hải, đang nhìn vào một hóa đơn lưu trữ đám mây quý trị giá 47.000 đô la đã tăng gấp ba lần trong vòng sáu tháng. Kho lưu trữ kỹ thuật số của họ — 2TB tài liệu đã quét, bản thảo và hồ sơ lịch sử — đang khiến ngân sách của họ bị ăn mòn. Tài liệu bảo hiểm từ những năm 1890. Bảng kê tàu với các cạnh bị hư do nước. Bản đồ điều hướng vẽ tay được chụp ở độ phân giải không tưởng.
"Chúng tôi có một cuộc họp hội đồng vào sáng thứ Sáu," cô nói, giọng nói căng thẳng. "Họ đang đe dọa cắt nguồn tài trợ cho toàn bộ chương trình số hóa. Bạn có thể giúp không?"
Tôi có 72 giờ để giảm dung lượng lưu trữ của họ xuống 60% mà không mất đi một chi tiết nào quan trọng. Không áp lực.
Đây không phải là lần đầu tiên tôi làm việc với các kho lưu trữ phình to. Tôi đã dành bảy năm để số hóa các bộ sưu tập cho các bảo tàng, thư viện và hội lịch sử. Tôi đã xử lý mọi thứ từ thư từ Thế chiến thứ nhất đến bản đồ quy hoạch những năm 1960 đến các bản thảo trung cổ. Nhưng lần này thì khác. Đây là một bài kiểm tra căng thẳng dưới áp lực thực tế với những hậu quả thực sự.
Tôi cầm laptop, mở công cụ nén của mình và bắt tay vào công việc. Điều theo sau là ba ngày thử nghiệm có phương pháp trên 1.000 file PDF đại diện từ bộ sưu tập của họ. Hóa đơn một trang. Nhật ký tàu 400 trang. Ảnh màu. Văn bản đen trắng. Tất cả mọi thứ.
Những gì tôi học được đã thay đổi cách tôi tiếp cận mọi dự án kho lưu trữ hiện tại.
Phương pháp thử nghiệm — Cách tôi thực sự đo lường những gì quan trọng
Hầu hết các bài viết về nén chỉ thử nghiệm năm file và cho rằng đã xong. Điều đó vô nghĩa cho công việc thực tế. Tôi cần dữ liệu có thể chịu đựng được sự xem xét từ hội đồng bảo tàng, vì vậy tôi đã xây dựng một khung thử nghiệm hợp lý.
Tôi chọn 1.000 file PDF từ kho lưu trữ của bảo tàng, phân loại thành năm loại: tài liệu chỉ có văn bản (200 file), văn bản với đồ họa đơn giản (200 file), ảnh đã quét (200 file), bản thảo có nội dung hỗn hợp (200 file), và bản vẽ kỹ thuật (200 file). Kích thước file dao động từ 87KB đến 340MB. Trung bình là 2.1MB.
Đối với mỗi file, tôi theo dõi bảy chỉ số: kích thước file cuối cùng, tỷ lệ nén, thời gian xử lý, điểm chất lượng hình ảnh (thang 1-10, được đánh giá bởi ba nhà đánh giá độc lập), khả năng tìm kiếm văn bản, bảo tồn siêu dữ liệu, và bất kỳ sự hỏng hóc hoặc lỗi nào. Tôi đã thử nghiệm mười hai công cụ và phương pháp khác nhau, từ các tiện ích dòng lệnh đến phần mềm doanh nghiệp đến dịch vụ trực tuyến.
Mỗi file nén đều trải qua một quy trình xác thực. Chúng tôi có thể đọc văn bản không? Hình ảnh có còn rõ nét ở mức phóng to 100% không? OCR còn hoạt động không? Các nhà nghiên cứu có thể thực sự sử dụng những file này không, hay tôi chỉ tạo ra 1.000 file rác không sử dụng được?
Tôi đã chạy thử nghiệm trên một laptop tầm trung (RAM 16GB, bộ xử lý i7) để mô phỏng điều kiện thực tế. Không có cụm máy chủ. Không phần cứng chuyên dụng. Chỉ là kiểu thiết lập mà một bảo tàng hoặc kho lưu trữ nhỏ có thể thực sự có.
Việc thử nghiệm kéo dài 31 giờ làm việc tích cực trải dài trong ba ngày đó. Tôi đã uống quá nhiều cà phê. Tôi phát hiện ra rằng 3 giờ sáng là khi bạn bắt đầu có ý kiến về mã hóa JPEG2000. Nhưng tôi đã có được câu trả lời.
Khám phá lý do tại sao kho lưu trữ bảo tàng bị phình ra — Một câu chuyện về cài đặt máy quét
Đây là điều mà không ai nói với bạn về các dự án số hóa: vấn đề lớn nhất không phải là các file bạn đang làm việc với. Đó là các file bạn đã tạo ra cách đây sáu tháng khi bạn chưa biết tốt hơn.
Vào năm 2019, tôi đã số hóa một bộ sưu tập chương trình nhà hát những năm 1920 cho một bảo tàng nghệ thuật biểu diễn. Những thứ đẹp đẽ — thiết kế art deco, kiểu chữ cổ điển, tất cả các thứ. Người quản lý muốn "chất lượng lưu trữ", vì vậy tôi đã đặt máy quét của chúng tôi ở độ phân giải tối đa: 1200 DPI, độ sâu màu 48-bit, đầu ra TIFF không nén.
Mỗi chương trình có kích thước 8.5 x 11 inch. Mỗi lần quét là 450MB.
Chúng tôi đã số hóa 3.000 chương trình trước khi ai đó nhận thấy. Đó là 1.35 terabyte chương trình nhà hát. Giám đốc CNTT của bảo tàng gần như ngất xỉu khi nhìn thấy chi phí lưu trữ.
: những chương trình đó được in trên giấy newsprint với các chấm nửa tông. Mật độ thông tin thực tế đã tối đa ở khoảng 300 DPI. Mọi thứ trên mức đó chỉ là quét kết cấu giấy. Chúng tôi đã lưu trữ các mô hình sợi của giấy newsprint 100 năm tuổi với chất lượng lưu trữ.
Tôi đã dành hai tuần để xử lý lại mọi thứ. Kết quả cuối cùng: 40MB mỗi chương trình ở 600 DPI với nén thông minh. Về mặt hình ảnh giống hệt với bản gốc. Tổng dung lượng lưu trữ: 120GB thay vì 1.35TB. Người quản lý không thể phân biệt sự khác biệt trong các bài thử nghiệm mù.
Đó là khi tôi học được: nén không phải là về việc làm cho các file nhỏ hơn. Nó là về việc không làm cho chúng trở nên vô ích lớn trong lần đầu tiên.
Bảo tàng Di sản Hàng hải cũng gặp vấn đề tương tự. Ai đó đã cấu hình máy quét của họ cho "chất lượng tối đa" mà không hiểu điều đó có nghĩa là gì. Hồ sơ tàu được quét ở 1200 DPI. Mẫu đơn bảo hiểm được lưu dưới dạng TIFF không nén và sau đó chuyển đổi thành PDF. Ảnh được chụp ở độ sâu màu 48-bit khi 24-bit là không thể phân biệt.
Họ không đang lưu trữ tài liệu. Họ đang lưu trữ tiếng ồn từ máy quét.
Dữ liệu hiệu suất — Những con số thực sự quan trọng
Tôi sẽ cho bạn xem dữ liệu, nhưng trước tiên, cảnh báo: tỷ lệ nén là vô nghĩa nếu không có ngữ cảnh. Một công cụ đạt 90% nén trên PDF chỉ có văn bản có thể phá hủy chất lượng ảnh. Một công cụ bảo vệ độ trung thực hình ảnh hoàn hảo có thể mất sáu giờ để xử lý 100 file.
Điều quan trọng là sự kết hợp giữa nén, chất lượng và tốc độ cho trường hợp sử dụng cụ thể của bạn.
| Công cụ | Tỷ lệ nén trung bình | Điểm chất lượng | Tốc độ (file/phút) | Có thể tìm kiếm văn bản | Tốt nhất cho |
|---|---|---|---|---|---|
| Ghostscript (màn hình) | 87% | 4.2/10 | 47 | Có | Không có gì (quá mất mát) |
| Ghostscript (ebook) | 71% | 7.8/10 | 43 | Có | Tài liệu nặng văn bản |
| Ghostscript (máy in) | 54% | 9.1/10 | 38 | Có | Nội dung hỗn hợp |
| Adobe Acrobat Pro | 68% | 8.9/10 | 12 | Có | Quy trình làm việc chuyên nghiệp |
| PDFtk + ImageMagick | 63% | 8.4/10 | 31 | Có | Xử lý hàng loạt |
| Smallpdf (trực tuyến) | 59% | 8.1/10 | 8 | Có | Nhanh chóng một lần |
| QPDF + jbig2enc | 76% | 9.3/10 | 19 | Có | Tài liệu văn bản |
| OCRmyPDF (tối ưu hóa) | 69% | 8.7/10 | 14 | Có (tăng cường) | Tài liệu đã quét |
| ps2pdf (mặc định) | 41% | 9.6/10 | 52 | Có | Nén tối thiểu |
| Sejda (trực tuyến) | 62% | 8.3/10 | 6 | Có | Không có quyền truy cập dòng lệnh |
| cpdf (squeeze) | 48% | 9.4/10 | 67 | Có | Tối ưu hóa không mất mát |
| Dây chuyền tùy chỉnh | 73% | 9.2/10 | 28 | Có | Dự án kho lưu trữ |
Các tỷ lệ nén đại diện cho mức giảm trung bình trên tất cả 1.000 file thử nghiệm. Điểm chất lượng được tính trung bình từ ba nhà đánh giá độc lập sử dụng một rubrics tiêu chuẩn hóa. Các phép đo tốc độ không bao gồm thời gian cài đặt ban đầu.
Vài quan sát nổi bật: cài đặt "màn hình" của Ghostscript rất nhanh nhưng làm hỏng chất lượng. Adobe Acrobat Pro mang lại kết quả xuất sắc nhưng chậm chạp trong công việc xử lý hàng loạt. Dây chuyền tùy chỉnh tôi phát triển đạt được một điểm ngọt cho công việc lưu trữ — nén mạnh mẽ với sự mất mát chất lượng tối thiểu.
Nhưng đây là điều bảng không cho thấy: sự nhất quán. Một số công cụ hoạt động rất khác nhau tùy thuộc vào loại file. Ghostscript nén tài liệu văn bản một cách tuyệt vời nhưng làm hỏng hình ảnh. OCRmyPDF rất tuyệt cho các trang đã quét nhưng lại quá mức cho các PDF gốc kỹ thuật số.
Hiểu lý do tại sao "Nén tối đa" thất bại với kho lưu trữ
Có một huyền thoại dai dẳng trong công việc số hóa: nén càng nhiều thì càng tốt. Các file nhỏ hơn, chi phí thấp hơn, mọi người đều thắng. Đúng không?
Sai. Hoàn toàn sai.
"Nén là một cánh cửa một chiều. Bạn không thể giải nén để trở lại chất lượng mà bạn đã phá hủy. Mọi dự án kho lưu trữ đều cần trả lời một câu hỏi trước tiên: chất lượng tối thiểu chấp nhận được cho việc sử dụng nội dung này là gì?"
Tôi đã học điều này theo cách khó vào năm 2020. Một thư viện đại học đã thuê tôi để nén kho lưu trữ luận án của họ — 15.000 file PDF từ năm 1985. Họ muốn nén tối đa để giảm thiểu chi phí đám mây. Tôi đã giao nén 92% sử dụng ...