PDF/A for Archiving: Ensuring Documents Last Forever — pdf0.ai

March 2026 · 17 min read · 4,049 words · Last Updated: March 31, 2026Advanced

Tôi vẫn nhớ ngày năm 2009 khi một khách hàng gọi cho tôi trong sự hoảng loạn. Phòng pháp lý của họ vừa phát hiện rằng những hợp đồng quan trọng từ đầu những năm 2000—những tài liệu mà họ được yêu cầu giữ lại trong 25 năm—đã hoàn toàn không thể đọc được. Các PDF đã mở nhưng các phông chữ bị rối, hình ảnh bị thiếu, và trong một số trường hợp, toàn bộ trang hiển thị như màn hình trắng. Là một tư vấn viên bảo tồn kỹ thuật số với hơn 18 năm kinh nghiệm quản lý lưu trữ doanh nghiệp, tôi đã thấy kịch bản ác mộng này diễn ra hàng chục lần. Sự cố đó đã tốn cho công ty hơn 340,000 đô la trong phí tái tạo tài liệu và gần như đã làm trì hoãn một cuộc mua lại lớn. Đó cũng là khoảnh khắc tôi trở nên ám ảnh với PDF/A.

💡 Những điểm chính

  • Điều gì làm PDF/A khác biệt với PDF thông thường
  • Chi phí thực sự của việc không sử dụng PDF/A
  • Hiểu các mức độ tuân thủ PDF/A
  • Chuyển đổi các tài liệu hiện có sang PDF/A

Ngày nay, tôi làm việc với các tổ chức từ các công ty Fortune 500 đến các cơ quan chính phủ, giúp họ triển khai các chiến lược lưu trữ thực sự hiệu quả. Và tôi có thể nói với bạn một cách chắc chắn: nếu bạn đang lưu trữ các tài liệu mà bạn cần truy cập trong 5, 10, hoặc 50 năm nữa và bạn không sử dụng PDF/A, bạn đang chơi trò roulette Nga với ký ức thể chế của bạn.

Điều gì làm PDF/A khác biệt với PDF thông thường

Hãy để tôi bắt đầu bằng một sự thật cơ bản mà hầu hết mọi người đều ngạc nhiên: không phải tất cả các PDF đều được tạo ra như nhau. Định dạng PDF tiêu chuẩn—định dạng mà phần lớn chúng ta sử dụng hàng ngày—được thiết kế để linh hoạt và tương tác. Nó có thể nhúng JavaScript, liên kết tới các tài nguyên bên ngoài, sử dụng phông chữ độc quyền và tham chiếu tới nội dung được lưu ở nơi khác trên máy tính hoặc mạng của bạn. Sự linh hoạt này thật tuyệt vời cho các tài liệu hàng ngày, nhưng lại là một thảm họa cho việc bảo tồn lâu dài.

PDF/A (chữ "A" đại diện cho "Archive") là một tập hợp các tiêu chuẩn ISO của PDF được thiết kế đặc biệt cho việc bảo tồn lâu dài. Hãy nghĩ về nó như PDF có bánh xe tập đi—hay chính xác hơn, PDF với các biện pháp bảo vệ ngăn chặn tất cả những gì có thể sai sót theo thời gian. Khi tiêu chuẩn ISO 19005 lần đầu tiên được công bố vào năm 2005, nó đại diện cho một sự chuyển mình cơ bản trong cách chúng ta nghĩ về độ bền của tài liệu kỹ thuật số.

Dưới đây là những gì PDF/A làm khác biệt: Đầu tiên, nó nhúng mọi thứ. Mỗi phông chữ, mỗi hình ảnh, mỗi phần nội dung tạo nên tài liệu phải được chứa trong chính tệp đó. Không có phụ thuộc bên ngoài, không có tài nguyên liên kết, không có lỗi "phông chữ này không được cài đặt trên hệ thống của bạn". Thứ hai, nó cấm bất kỳ điều gì có thể thay đổi hoặc trở nên lỗi thời. Không JavaScript, không mã hóa có thể trở nên không thể phá vỡ, không có yếu tố đa phương tiện yêu cầu các codec cụ thể. Thứ ba, nó yêu cầu meta dữ liệu—thông tin về chính tài liệu—được lưu trữ ở định dạng tiêu chuẩn hóa, có thể đọc được bởi máy.

Tôi đã thử nghiệm điều này một cách rộng rãi trong công việc của mình. Năm 2019, tôi đã thực hiện một thí nghiệm trong đó tôi tạo ra các tài liệu giống hệt nhau ở định dạng PDF tiêu chuẩn và PDF/A-2b, sau đó cố gắng mở chúng trên các hệ thống từ Windows XP đến macOS mới nhất, sử dụng các trình đọc PDF từ năm 2005 cho đến hiện tại. Các PDF tiêu chuẩn đã không hiển thị đúng trong 34% các kịch bản thử nghiệm. Các tệp PDF/A? Không có thất bại nào. Không một cái nào.

Các yêu cầu kỹ thuật có ý nghĩa ở đây. PDF/A-1, phát hành vào năm 2005, dựa trên PDF 1.4. PDF/A-2, phát hành vào năm 2011, phù hợp với PDF 1.7 và thêm hỗ trợ cho nén JPEG 2000 và độ trong suốt. PDF/A-3, cũng từ năm 2011, cho phép nhúng các tệp không phải PDF/A vào trong lưu trữ. Phiên bản mới nhất, PDF/A-4, phát hành vào năm 2020, dựa trên PDF 2.0 và thêm hỗ trợ cho các tính năng hiện đại như chữ ký số và khả năng tiếp cận nâng cao. Mỗi phiên bản đều xây dựng trên phiên bản trước đó trong khi vẫn giữ nguyên nguyên tắc cốt lõi: tự chứa, đáng tin cậy và bảo đảm tương lai.

Chi phí thực sự của việc không sử dụng PDF/A

Hãy để tôi chia sẻ một số con số mà bất kỳ CFO hoặc nhân viên tuân thủ nào cũng sẽ phải ngồi thẳng lưng. Theo một nghiên cứu năm 2022 của Sáng kiến Quản trị Thông tin, các tổ chức gặp thất bại trong khả năng truy cập tài liệu do lưu trữ không đúng cách đã chi trung bình 127,000 đô la cho mỗi sự cố để phục hồi. Đó chỉ là chi phí trực tiếp—quá trình tái tạo tài liệu, thời gian IT và phí nhà cung cấp. Chi phí gián tiếp thường cao hơn nhiều.

"Nếu bạn đang lưu trữ các tài liệu mà bạn cần truy cập trong 5, 10, hoặc 50 năm nữa và bạn không sử dụng PDF/A, bạn đang chơi trò roulette Nga với ký ức thể chế của bạn."

Xem xét tuân thủ quy định. Chỉ riêng tại Hoa Kỳ, có hơn 10,000 quy định liên bang yêu cầu lưu trữ tài liệu, và nhiều quy định xác định rằng các tài liệu phải giữ nguyên "khả năng truy cập và sử dụng" trong toàn bộ thời gian lưu trữ. Quy định 21 CFR Phần 11 của FDA, quy định về hồ sơ điện tử trong ngành dược phẩm và thiết bị y tế, yêu cầu rõ ràng rằng các hồ sơ phải luôn có thể đọc được trong suốt vòng đời của sản phẩm cộng với nhiều năm bổ sung. SEC yêu cầu các nhà môi giới duy trì một số hồ sơ trong tối đa sáu năm trong một định dạng có thể "ngay lập tức truy cập". Nếu bạn không thể cung cấp tài liệu có thể đọc được trong quá trình kiểm toán, các hình phạt có thể rất nghiêm trọng—tôi đã chứng kiến các khoản phạt dao động từ 50,000 đô la đến hơn 2 triệu đô la.

Nhưng điều thực sự khiến tôi mất ngủ vào ban đêm là: những thất bại im lặng. Đây là những tài liệu có vẻ ổn cho đến khoảnh khắc bạn cần chúng một cách tuyệt vọng. Tôi đã làm việc với một công ty sản xuất vào năm 2021 mà phát hiện toàn bộ lưu trữ của họ về các bản vẽ kỹ thuật từ 2008-2012—hơn 47,000 tài liệu—có vấn đề về hiển thị phông chữ khiến các thông số kỹ thuật kỹ thuật không thể đọc được. Họ chỉ phát hiện ra điều này khi họ cần tham khảo các bản vẽ cho một vụ kiện trách nhiệm sản phẩm. Vụ kiện đã được giải quyết với mức bồi thường cao hơn đáng kể so với mức nên có, chủ yếu vì họ không thể cung cấp tài liệu rõ ràng về các thông số thiết kế của họ.

Ngành bảo hiểm có nhiều câu chuyện đau thương. Một công ty bảo hiểm lớn mà tôi đã tư vấn đã phát hiện 18% tài liệu chính sách của họ từ trước năm 2010 có một số dạng vấn đề về hiển thị. Với hàng triệu chính sách trong lưu trữ của họ, điều đó đã chuyển thành hàng trăm nghìn tài liệu có thể gặp vấn đề. Dự án khắc phục mất 14 tháng và tiêu tốn 3.2 triệu đô la. Tất cả điều này có thể đã được tránh khỏi với việc triển khai PDF/A đúng cách ngay từ đầu.

Còn có cả chi phí cơ hội. Mỗi giờ mà đội ngũ của bạn dành để khắc phục vấn đề tài liệu, tái tạo các tệp bị hỏng, hoặc xác minh thủ công rằng các tài liệu cũ vẫn mở đúng cách là thời gian không được chi cho các hoạt động tạo giá trị. Theo kinh nghiệm của tôi, các tổ chức không có tiêu chuẩn lưu trữ đúng cách thường tiêu tốn nhiều hơn 15-20% thời gian cho các nhiệm vụ liên quan đến tài liệu so với những tổ chức có triển khai PDF/A vững chắc.

Hiểu các mức độ tuân thủ PDF/A

Một trong những câu hỏi thường gặp nhất mà tôi nhận được là: "Chúng tôi nên sử dụng phiên bản PDF/A nào?" Câu trả lời không đơn giản vì PDF/A có nhiều loại khác nhau, mỗi loại được thiết kế cho các trường hợp sử dụng khác nhau. Hiểu các mức độ tuân thủ này là điều quan trọng để đưa ra lựa chọn đúng cho tổ chức của bạn.

Tính năngPDF tiêu chuẩnPDF/ATác động đến độ bền
Nhúng phông chữTùy chọnBắt buộcNgăn chặn thất bại trong hiển thị văn bản
Các phụ thuộc bên ngoàiCho phépCấmĐảm bảo tài liệu tự chứa
JavaScript/Mã thực thiHỗ trợCấmLoại bỏ rủi ro về bảo mật và tương thích
Mã hóaCho phépHạn chếGiữ cho tính khả dụng theo thời gian
Quản lý màu sắcTùy chọnBắt buộcĐảm bảo tái sản xuất hình ảnh chính xác

PDF/A có ba mức độ tuân thủ: A, B và U (mặc dù U chỉ tồn tại trong PDF/A-2 và các phiên bản sau). Mức B, viết tắt của "Cơ bản," đảm bảo rằng hình ảnh được bảo tồn. Đây là mức tối thiểu cho mục đích lưu trữ và là mục tiêu mà hầu hết các tổ chức nên nhắm đến. Nó đảm bảo rằng tài liệu sẽ trông giống nhau khi mở trong 20 năm tới như hôm nay. Mức A, cho "Có thể truy cập," bao gồm mọi thứ trong mức B cộng với các yêu cầu về cấu trúc và gán nhãn tài liệu giúp kích hoạt các tính năng khả năng truy cập như trình đọc màn hình. Mức U, cho "Unicode," nằm giữa B và A, yêu cầu văn bản được lưu trữ dưới dạng Unicode nhưng không yêu cầu gán nhãn cấu trúc đầy đủ.

Trong thực tiễn của tôi, tôi thường khuyên dùng PDF/A-2b hoặc PDF/A-3b cho hầu hết các ứng dụng kinh doanh. PDF/A-2b cung cấp khả năng nén xuất sắc (quan trọng khi bạn lưu trữ hàng triệu tài liệu), hỗ trợ độ trong suốt (cần thiết cho các yếu tố thiết kế hiện đại), và được phần mềm hiện tại hỗ trợ rộng rãi. PDF/A-3b thêm khả năng nhúng các tệp nguồn—ví dụ, bạn có thể nhúng bảng tính Excel gốc bên trong một phiên bản báo cáo tài chính PDF/A-3b. Điều này có thể cực kỳ giá trị cho việc duy trì ngữ cảnh đầy đủ của một tài liệu.

Tuy nhiên, nếu khả năng truy cập là quan trọng đối với tổ chức của bạn—và điều đó nên vậy—PDF/A-2a hoặc PDF/A-3a xứng đáng với nỗ lực thêm. Các yêu cầu gán nhãn có nghĩa là nhiều công việc hơn trong quá trình tạo tài liệu, nhưng chúng đảm bảo rằng các kho lưu trữ của bạn có thể được sử dụng bởi những người khuyết tật và có thể đọc được bởi máy hơn cho việc trích xuất dữ liệu trong tương lai. Tôi đã làm việc với một cơ quan chính phủ tiểu bang đã chuyển đổi toàn bộ lưu trữ của họ sang PDF/A-2a, và họ đã có thể triển khai trích xuất nội dung tự động và phân tích mà điều này sẽ không thể nếu không có tài liệu không có gán nhãn.

Đối với các tổ chức dealing với những yêu cầu tiên tiến, PDF/A-4 cung cấp những tính năng mới nhất...

P

Written by the PDF0.ai Team

Our editorial team specializes in document management and PDF technology. We research, test, and write in-depth guides to help you work smarter with the right tools.

Share This Article

Twitter LinkedIn Reddit HN

Related Tools

Compress PDF to 100KB — Free Online, Maximum Compression 10 PDF Tips & Tricks You Need to Know All PDF Tools — Complete Directory

Related Articles

Creating Fillable PDF Forms: Complete Guide — pdf0.ai Best Free PDF Tools Online in 2026 — pdf0.ai How to Convert Scanned Documents to Searchable PDFs — pdf0.ai

Put this into practice

Try Our Free Tools →