나는 내가 인생의 3일을 낭비했다는 사실을 깨달았던 순간을 아직도 기억한다. 2019년 화요일 새벽 2시 47분에 나는 PDF에서 Excel로 200페이지의 재무 보고서를 변환하려는 네 번째 시도를 바라보고 있었다. PDF의 표는 완벽하게 보였다 — 깔끔한 열, 병합된 셀, 세심하게 형식화된 헤더. Excel에서는? 완전한 혼란. 숫자는 무작위로 흩어져 있는 셀들에 퍼져 있었고, 헤더는 조각으로 나뉘어 있었고, 수식은 어느 곳에도 없었다.
💡 주요 내용
- 왜 PDF에서 Excel로 변환하는 것이 형식을 망치는가 (기술적 현실)
- PDF 테이블의 세 가지 유형 (그리고 왜 중요한가)
- 변환 도구가 실제로 하는 일 (마케팅 이면)
- 존재하는 형식 요소 (존재하지 않는 요소들)
그날 밤은 나에게 모든 것을 바꿔 놓았다. 나는 마커스 천이고, 지난 14년 동안 데이터 운영 컨설턴트로 일해왔으며, 주로 매달 수천 개의 PDF 문서를 처리하는 금융 기관과 의료기관과 협력해왔다. 나는 개인적으로 230만 페이지 이상의 PDF를 Excel로 변환하는 작업을 감독했고, 대부분의 "PDF에서 Excel" 튜토리얼이 말하지 않는 것을 배웠다: 테이블 형식을 유지하는 것은 단순히 어렵지 않고 — 왜 PDF가 그처럼 깨지는지 이해하지 않는 한 불가능한 경우가 많다.
이 기사는 여러분에게 거짓희망을 주지 않을 것이다. 대신, 저는 PDF에서 Excel로 변환하는 것에 대한 힘든 진실, 형식이 파괴되는 기술적 이유, 그리고 실제 세계에서 작동하는 실제 전략을 공유할 것이다 — 비현실적인 데모 시나리오가 아니라.
왜 PDF에서 Excel로 변환하는 것이 형식을 망치는가 (기술적 현실)
제가 대부분의 변환 도구 웹사이트가 인정하지 않으려는 것부터 시작하겠습니다: PDF는 결코 구조화된 데이터로 다시 변환되도록 설계되지 않았습니다. Adobe가 1993년에 PDF 형식을 만들었을 때 그들의 목표는 정반대였습니다 — 원래의 글꼴, 소프트웨어 또는 소스 파일이 있는지 여부에 관계없이 모든 장치에서 동일하게 보이는 문서 형식을 만드는 것이었습니다.
표가 있는 PDF를 만들면 실제로 어떻게 되는지 보겠습니다. 여러분의 스프레드시트 소프트웨어(Excel, Google Sheets 등)는 여러분이 신중하게 구조화한 데이터 — 행, 열, 수식, 셀 관계 — 를 가져와서 사실상 그 밖의 도움 없이 사진을 찍습니다. 문자 그대로 이미지가 아니라 매우 딱딱한 형태입니다. PDF는 각 텍스트 조각을 페이지에서 특정 X 및 Y 좌표를 가진 개별 객체로 저장합니다. "수익: $45,000"이 포함된 테이블 셀은 "수익:", "$", "45,000"의 세 개의 개별 텍스트 객체로 저장될 수 있으며, 각각은 독립적으로 배치됩니다.
변환 소프트웨어가 이 과정을 다시 역전시키려고 할 때, 그것은 불가능한 작업에 직면합니다: 위치에서 구조를 유추해야 합니다. 스프레드시트를 재구성하려고 사진을 보고 모든 것을 수동으로 입력해야 하는 상황을 상상해 보십시오. 여러분은 맥락, 의미 또는 인간의 의도를 이해하지 못하는 컴퓨터 프로그램입니다. 단지 좌표를 보고 어떤 텍스트 객체가 함께 있는지를 추측하려고 하는 것입니다.
2022년, 나는 500개의 다양한 PDF 문서에서 테스트를 실행했습니다. 다섯 개의 인기 있는 변환 도구(Adobe의 Acrobat 포함)를 사용하여, 내가 발견한 것은 다음과 같았습니다: 12%의 표만이 5분 미만의 수동 정리가 필요한 형식으로 변환되었습니다. 또 다른 31%는 5-30분의 작업이 필요했습니다. 나머지 57%는 너무 심하게 망가져서, 처음부터 다시 시작하는 것이 더 빠를 것이었습니다.
가장 나쁜 부분? 실패한 PDF는 형편없이 만들지 않았습니다. 그것들은 포춘 500대 기업, 정부 기관, 주요 금융 기관의 전문 문서였습니다. 문제는 품질이 아니었습니다 — PDF의 '고정 레이아웃' 철학과 Excel의 '구조화된 데이터' 모델 간의 근본적인 불일치였습니다.
문제를 완벽하게 설명하는 특정 예를 들어 보겠습니다. 나는 한 번 1,200개의 PDF 보고서에서 환자 인구 통계 데이터를 추출해야 하는 의료 클라이언트와 작업한 적이 있습니다. 각 보고서에는 단순한 표가 있었습니다: 다섯 개의 열, 아마도 30개의 행. 쉽겠죠? 잘못입니다. PDF 작성자가 비례 글꼴을 사용했기 때문에 각 문자가 차지하는 공간이 달랐습니다. 변환 소프트웨어는 간격을 보고 "환자 ID"와 "123456"이 완벽하게 픽셀 레벨에서 정렬되지 않기 때문에 서로 다른 열에 있다고 판단했습니다. 그 식별 오류가 1,200개 문서에 걸쳐 반복되면, 재앙이 발생하게 됩니다.
PDF 테이블의 세 가지 유형 (그리고 왜 중요한가)
모든 PDF 테이블이 동일하게 생성되는 것은 아니며, 그 차이를 이해하는 것은 수많은 시간을 절약해 줄 것입니다. 내 컨설팅 업무에서 나는 세 가지 distinct 카테고리를 식별했으며, 각각은 서로 다른 변환 성공률과 전략을 가지고 있습니다.
"PDF는 결코 구조화된 데이터로 다시 변환되도록 설계되지 않았습니다. PDF를 Excel로 되돌리려고 할 때, 본질적으로 소프트웨어에 사진에서 빌딩을 재구성하라고 요청하는 것입니다."
첫 번째로, 네이티브 디지털 테이블이 있습니다. 이것들은 Excel, Google Sheets 또는 데이터베이스 보고서에서 직접 생성된 PDF로, 구조화된 데이터로 시작한 문서입니다. 이들은 내 경험에 따르면 약 60-70%의 가장 높은 변환 성공률을 가지고 있습니다. 왜냐하면 문서의 역사에서 기초 구조가 상대적으로 최근에 있기 때문입니다. 텍스트 객체가 보통 잘 정리되어 있고 간격도 더 일관됩니다. PDF 생성에 대한 제어가 있는 클라이언트와 작업할 때마다, 나는 항상 이러한 소스 파일을 유지하는 것을 권장합니다. 원본 Excel 파일에서 변환하는 것이 PDF를 역으로 변환하려고 하는 것보다 무한히 나습니다.
두 번째로, 스캔된 문서가 있습니다. 이러한 문서는 스캐너를 통해 스캔된 물리적 종이가 되어 이미지를 기반으로 한 PDF를 생성합니다. OCR(광학 문자 인식)이 없는 경우, 이것들은 그냥 사진입니다 — 추출할 텍스트가 전혀 없습니다. OCR이 있다면, 또 다른 잠재적 오류의 층이 추가됩니다. 나는 2021년 법률 업체와 함께 15년 이상의 스캔된 재무 기록을 작업했습니다. 프리미엄 OCR 소프트웨어를 사용하더라도, 우리는 숫자 데이터에서 3-8%의 오류율을 보았습니다. 이것은 많지 않은 것처럼 보일 수 있지만, 재무 수치를 다룰 때 단 하나의 잘못 읽은 소수점은 수백만 달러의 차이를 의미할 수 있습니다.
셋째이자 가장 문제가 되는 것은 하이브리드 문서입니다. 이러한 PDF는 네이티브 디지털 콘텐츠와 스캔된 이미지, 주석, 양식 필드 및 기타 요소를 결합한 것입니다. 나는 디지털로 작성된 양식이 있지만 손으로 서명된 이후 스캔된 정부 계약에서 이러한 것을 자주 봅니다. 이를 변환하는 것은 악몽입니다. 문서의 서로 다른 부분이 완전히 다른 추출 전략을 필요로 하기 때문입니다.
한 번은 200개의 문서에 대해 하이브리드 PDF를 처리하는 맞춤형 솔루션을 개발하는 데 2주를 보낸 적이 있습니다. 테이블 헤더는 디지털적이었고, 데이터 행은 스캔되었으며 여백에는 손으로 쓴 메모가 있었습니다. 일반적인 변환 도구는 혼란을 초래했습니다. 우리는 세 가지 다른 소프트웨어 패키지, 맞춤형 Python 스크립트 및 예, 일부 수동 데이터 입력을 조합해서 작업을 완료했습니다. 프로젝트 예산은 45,000달러 — 200개의 문서에 대해서였습니다. 문서당 225달러로, 우리가 평가한 다른 대안보다 여전히 저렴했습니다.
변환 도구가 실제로 하는 일 (마케팅 이면)
나는 수년 동안 무료 온라인 변환기에서 라이센스 비용이 2,000달러가 넘는 기업 소프트웨어까지 23개의 다양한 PDF에서 Excel로 변환 도구를 테스트했습니다. "완벽한 변환" 및 "모든 형식을 보존"이라는 마케팅 약속을 넘어서, 이들이 실제로 어떻게 작동하는지에 대해 내가 배운 것이 다음과 같습니다.
| 변환 방법 | 형식 정확도 | 최적의 경우 | 일반 비용 |
|---|---|---|---|
| 온라인 무료 도구 | 20-40% | 단순한 테이블, 비중요 데이터 | 무료 |
| Adobe Acrobat Pro | 60-75% | 표준 비즈니스 문서 | $239.88/연간 |
| 전문 소프트웨어 (Able2Extract, Tabula) | 70-85% | 복잡한 테이블, 배치 처리 | $150-300 일회성 |
| 수동 재구성 | 95-100% | 중요한 재무 데이터, 법률 문서 | $25-75/시간 |
| 맞춤형 Python 스크립트 (Camelot, pdfplumber) | 75-90% | 반복적 변환, 기술 사용자를 위한 | 무료 (코딩 요구) |
대부분의 도구는 두 가지 접근 방법 중 하나를 사용합니다: 규칙 기반 추출 또는 기계 학습. 규칙 기반 도구는 패턴 — 선, 간격, 반복된 구조 — 를 찾아내고 이를 해석하기 위한 미리 결정된 규칙을 적용합니다. PDF에 실제로 테이블 셀 주위에 경계선이 있는 경우, 이 도구들은 상당히 잘 작동합니다. 나는 단순한 경계선이 있는 테이블에서 약 75%의 성공률을 보았습니다. 그러나 경계선이 없는 테이블(현대 문서 디자인에서 점점 더 일반적임)이 있는 순간, 성공률은 아마도 30%로 떨어집니다.
기계 학습 도구는 더 새롭고 이론적으로 더 정교합니다. 그들은 명확한 시각적 경계 없이도 테이블 구조를 인식하기 위해 수천 개의 PDF 문서에서 훈련되었습니다. 내 테스트에서, 최고의 ML 기반 도구(Adobe Acrobat Pro DC의 일부 기능과 Docparser와 같은 전문 서비스)는 복잡한 테이블에서 약 80%의 정확도를 달성하지만, 여전히 20%의 실패율은 상당한 수동 작업을 의미합니다.