반응형
Python으로 PDF 데이터 추출하기 – 초보자도 가능한 업무 자동화
보고서, 계약서, 청구서처럼 중요한 문서가 PDF로만 제공될 때, 데이터를 일일이 복사·붙여넣기 하는 대신 Python으로 자동 추출하면 업무 시간을 크게 줄일 수 있습니다.
1. 필요한 라이브러리 설치
PDF 처리에는 PyPDF2
또는 pdfplumber
를 많이 사용합니다.
pip install PyPDF2 pdfplumber
2. 기본 – 텍스트 추출
import PyPDF2
with open("sample.pdf", "rb") as f:
reader = PyPDF2.PdfReader(f)
text = ""
for page in reader.pages:
text += page.extract_text()
print(text)
3. 표 데이터 추출
표를 그대로 가져오려면 pdfplumber
가 유리합니다.
import pdfplumber
with pdfplumber.open("sample.pdf") as pdf:
first_page = pdf.pages[0]
table = first_page.extract_table()
for row in table:
print(row)
4. 실무 활용 아이디어
- 청구서 목록 → 엑셀로 변환 후 합계 자동 계산
- 계약서 주요 조항 자동 추출
- 보고서에서 키워드 검색·통계
5. 주의사항
- PDF 구조에 따라 추출 품질이 달라질 수 있음
- 스캔된 문서는 OCR(예: Tesseract) 사용 필요
- 개인정보 포함 문서 처리 시 보안 준수 필수
- 스캔된 문서는 OCR(예: Tesseract) 사용 필요
- 개인정보 포함 문서 처리 시 보안 준수 필수
마무리
Python으로 PDF를 다루면 반복 작업을 줄이고 데이터 가공 속도를 높일 수 있습니다. 다음 글에서는 OCR을 활용한 스캔 PDF 문자 인식을 다루겠습니다.
관련 글
반응형
'Python 기본기' 카테고리의 다른 글
Python으로 엑셀 업무 자동화하기 – 매크로 대신 파이썬 활용법(초보 가이드) (2) | 2025.08.12 |
---|---|
[debugging] core dump error (0) | 2023.11.08 |
댓글