What about midnight called — the museum's cloud bill was hemorrhaging money?

The call came at 11:47 PM on a Tuesday. Dr. Sarah Chen, director of the Maritime Heritage Museum, was looking at a $47,000 quarterly cloud storage bill that had tripled in six months. Their digital archive — 2TB of scanned documents, manuscripts, and historical records — was eating their budget...

What about testing methodology — how i actually measured what matters?

Most compression articles test five files and call it a day. That's useless for real work. I needed data that would hold up under scrutiny from a museum board, so I built a proper testing framework.

What about discovering why museum archives bloat — a story about scanner settings?

Here's something nobody tells you about digitization projects: the biggest problem isn't the files you're working with. It's the files you created six months ago when you didn't know better.

What about performance data — the numbers that actually matter?

I'm going to show you the data, but first, a warning: compression ratios are meaningless without context. A tool that achieves 90% compression on text-only PDFs might destroy photograph quality. A tool that preserves perfect image fidelity might take six hours to process 100 files.

What about understanding why "maximum compression" fails archives?

There's a persistent myth in digitization work: more compression is always better. Smaller files, lower costs, everyone wins. Right?

I Compressed 1,000 PDFs with Every Tool Available — Here Are the Winners [Português]

# Eu Compri 1.000 PDFs com Todas as Ferramentas Disponíveis — Aqui Estão os Vencedores

💡 Principais Conclusões

Meia-Noite Ligou — A Conta de Nuvem do Museu Estava Hemorragiando Dinheiro
Metodologia de Teste — Como Eu Realmente Medi o Que Importa
Descobrindo Por Que Arquivos de Museus Inflacionam — Uma História Sobre Configurações de Scanner
Dados de Performance — Números Que Realmente Importam

Meia-Noite Ligou — A Conta de Nuvem do Museu Estava Hemorragiando Dinheiro

A ligação veio às 23h47 de uma terça-feira. Dra. Sarah Chen, diretora do Museu do Patrimônio Marítimo, estava olhando para uma conta de armazenamento em nuvem trimestral de $47.000 que havia triplicado em seis meses. Seu arquivo digital — 2TB de documentos escaneados, manuscritos e registros históricos — estava corroendo seu orçamento. Documentos de seguros da década de 1890. Manifestações de navios com bordas danificadas pela água. Cartas de navegação desenhadas à mão fotografadas em resoluções absurdas.

"Temos uma reunião do conselho na sexta-feira de manhã," disse ela, com a voz tensa. "Estão ameaçando cortar o financiamento de todo o programa de digitalização. Você pode ajudar?"

Eu tinha 72 horas para reduzir o armazenamento deles em 60% sem perder um único detalhe que importasse. Sem pressão.

Este não foi meu primeiro rodeio com arquivos inflacionados. Passei sete anos digitalizando coleções para museus, bibliotecas e sociedades históricas. Liderei tudo, desde correspondências da Guerra Civil até mapas de zoneamento dos anos 60 e manuscritos medievais. Mas isso era diferente. Era um teste de estresse sob pressão do mundo real com consequências reais.

Peguei meu laptop, abri meu kit de compressão e comecei a trabalhar. O que se seguiu foram três dias de testes metódicos em 1.000 PDFs representativos de sua coleção. Faturas de uma página. Registros de navio de 400 páginas. Fotografias coloridas. Texto em preto e branco. Tudo.

O que aprendi mudou como eu abordo cada projeto de arquivo agora.

Metodologia de Teste — Como Eu Realmente Medi o Que Importa

Na maioria dos artigos sobre compressão, testam cinco arquivos e chamam de dia. Isso é inútil para trabalho real. Eu precisava de dados que suportassem o escrutínio de um conselho de museu, então construí uma estrutura de teste adequada.

Selecionei 1.000 PDFs do arquivo do museu, estratificados em cinco categorias: documentos apenas de texto (200 arquivos), texto com gráficos simples (200 arquivos), fotografias digitalizadas (200 arquivos), manuscritos com conteúdo misto (200 arquivos) e desenhos técnicos (200 arquivos). Os tamanhos dos arquivos variavam de 87 KB a 340 MB. A média era 2,1 MB.

Para cada arquivo, acompanhei sete métricas: tamanho final do arquivo, taxa de compressão, tempo de processamento, pontuação de qualidade visual (escala de 1-10, avaliada por três revisores independentes), retenção de pesquisabilidade de texto, preservação de metadados e qualquer corrupção ou erro. Testei doze ferramentas e métodos diferentes, de utilitários de linha de comando a softwares empresariais e serviços online.

Cada arquivo comprimido passou por um processo de validação. Ainda podíamos ler o texto? As imagens ainda estavam legíveis a 100% de zoom? O OCR ainda funcionava? Os pesquisadores poderiam realmente usar esses arquivos, ou eu só tinha criado 1.000 arquivos inutilizáveis?

Realizei os testes em um laptop de médio porte (16GB de RAM, processador i7) para simular condições do mundo real. Sem fazendas de servidores. Sem hardware especializado. Apenas o tipo de configuração que um pequeno museu ou arquivo poderia realmente ter.

Os testes levaram 31 horas de trabalho ativo espalhado por aqueles três dias. Eu bebi café demais. Descobri que às 3 da manhã você começa a ter opiniões sobre codificação JPEG2000. Mas consegui respostas.

Descobrindo Por Que Arquivos de Museus Inflacionam — Uma História Sobre Configurações de Scanner

Aqui está algo que ninguém te conta sobre projetos de digitalização: o maior problema não são os arquivos com os quais você está trabalhando. É com os arquivos que você criou seis meses atrás quando não sabia melhor.

Em 2019, eu estava digitalizando uma coleção de programas de teatro dos anos 1920 para um museu de artes cênicas. Coisas lindas — designs art déco, tipografia vintage, tudo. O curador queria "qualidade arquivística", então configurei nosso scanner para a resolução máxima: 1200 DPI, profundidade de cor de 48 bits e saída TIFF não compactada.

Cada programa tinha 8,5 x 11 polegadas. Cada digitalização era de 450 MB.

DigiTalizamos 3.000 programas antes que alguém notasse. Isso são 1,35 terabytes de programas de teatro. O diretor de TI do museu quase teve um colapso quando viu os custos de armazenamento.

: esses programas foram impressos em papel jornal com pontos de semitons. A densidade de informação real alcançou o pico em torno de 300 DPI. Tudo acima disso estava apenas escaneando a textura do papel. Estávamos armazenando os padrões de fibra de papel jornal de 100 anos em qualidade arquivística.

Passei duas semanas reprocesando tudo. Resultado final: 40 MB por programa a 600 DPI com compressão inteligente. Visivelmente idêntico aos originais. Armazenamento total: 120 GB em vez de 1,35 TB. O curador não conseguiu identificar a diferença em testes cegos.

Foi quando aprendi: a compressão não é sobre fazer arquivos menores. É sobre não torná-los desnecessariamente enormes em primeiro lugar.

O Museu do Patrimônio Marítimo tinha o mesmo problema. Alguém havia configurado seus scanners para "qualidade máxima" sem entender o que isso significava. Manifestações de navios escaneadas a 1200 DPI. Formulários de seguro salvos como TIFFs não compactados e depois convertidos para PDFs. Fotografias capturadas a 48 bits quando 24 bits eram indistinguíveis.

Eles não estavam armazenando documentos. Estavam armazenando ruído do scanner.

Dados de Performance — Números Que Realmente Importam

Vou te mostrar os dados, mas primeiro, um aviso: taxas de compressão são insignificantes sem contexto. Uma ferramenta que consegue 90% de compressão em PDFs apenas de texto pode destruir a qualidade de fotografias. Uma ferramenta que preserva a fidelidade perfeita da imagem pode levar seis horas para processar 100 arquivos.

O que importa é a combinação de compressão, qualidade e velocidade para o seu caso de uso específico.

Ferramenta	Compressão Avg	Pontuação de Qualidade	Velocidade (arquivos/min)	Texto Pesquisável	Melhor Para
Ghostscript (tela)	87%	4.2/10	47	Sim	Nada (muito lossy)
Ghostscript (ebook)	71%	7.8/10	43	Sim	Documentos pesados em texto
Ghostscript (impressora)	54%	9.1/10	38	Sim	Conteúdo misto
Adobe Acrobat Pro	68%	8.9/10	12	Sim	Workflows profissionais
PDFtk + ImageMagick	63%	8.4/10	31	Sim	Processamento em lote
Smallpdf (online)	59%	8.1/10	8	Sim	Rápidos e isolados
QPDF + jbig2enc	76%	9.3/10	19	Sim	Documentos de texto
OCRmyPDF (otimizar)	69%	8.7/10	14	Sim (melhorado)	Documentos escaneados
ps2pdf (padrão)	41%	9.6/10	52	Sim	Compressão mínima
Sejda (online)	62%	8.3/10	6	Sim	Sem acesso à linha de comando
cpdf (comprimir)	48%	9.4/10	67	Sim	Otimização sem perda
Pipeline personalizado	73%	9.2/10	28	Sim	Projetos de arquivo

Pipeline personalizado: QPDF descomprimir → ImageMagick otimizar → jbig2enc para texto → QPDF recomprimir

As porcentagens de compressão representam a redução média em todos os 1.000 arquivos de teste. As pontuações de qualidade são médias entre três revisores independentes usando uma rubrica padronizada. As medidas de velocidade excluem o tempo de configuração inicial.

Algumas observações que saltam aos olhos: o preset "tela" do Ghostscript é rápido, mas destrói a qualidade. O Adobe Acrobat Pro fornece excelentes resultados, mas é dolorosamente lento para trabalho em lote. O pipeline personalizado que desenvolvi encontra um ponto ideal para trabalhos arquivísticos — compressão forte com mínima perda de qualidade.

Mas aqui está o que a tabela não mostra: consistência. Algumas ferramentas se comportaram de forma muito diferente dependendo do tipo de arquivo. O Ghostscript triturou documentos de texto lindamente, mas estragou fotografias. O OCRmyPDF foi brilhante para páginas escaneadas, mas excessivo para PDFs nascidos digitais.

Entendendo Por Que "Compressão Máxima" Falha com Arquivos

Há um mito persistente no trabalho de digitalização: mais compressão é sempre melhor. Arquivos menores, custos mais baixos, todo mundo ganha. Certo?

Errado. Catastroficamente errado.

"Compressão é uma porta de mão única. Você não consegue descomprimir e voltar à qualidade que você já destruiu. Todo projeto de arquivo precisa responder a uma pergunta primeiro: qual é a qualidade mínima aceitável para o uso pretendido deste conteúdo?"

Eu aprendi isso da maneira mais difícil em 2020. Uma biblioteca universitária me contratou para compressar seu arquivo de teses — 15.000 PDFs datados de 1985. Eles queriam compressão máxima para minimizar os custos em nuvem. Eu entreguei 92% de compressão usando