본문 바로가기
Python 기본기

Python으로 PDF 데이터 추출하기 – 초보자도 가능한 업무 자동화

by 두뇌향상중 2025. 8. 14.
반응형

Python으로 PDF 데이터 추출하기 – 초보자도 가능한 업무 자동화

보고서, 계약서, 청구서처럼 중요한 문서가 PDF로만 제공될 때, 데이터를 일일이 복사·붙여넣기 하는 대신 Python으로 자동 추출하면 업무 시간을 크게 줄일 수 있습니다.

1. 필요한 라이브러리 설치

PDF 처리에는 PyPDF2 또는 pdfplumber를 많이 사용합니다.

pip install PyPDF2 pdfplumber

2. 기본 – 텍스트 추출

import PyPDF2

with open("sample.pdf", "rb") as f:
    reader = PyPDF2.PdfReader(f)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    print(text)

3. 표 데이터 추출

표를 그대로 가져오려면 pdfplumber가 유리합니다.

import pdfplumber

with pdfplumber.open("sample.pdf") as pdf:
    first_page = pdf.pages[0]
    table = first_page.extract_table()
    for row in table:
        print(row)

4. 실무 활용 아이디어

  • 청구서 목록 → 엑셀로 변환 후 합계 자동 계산
  • 계약서 주요 조항 자동 추출
  • 보고서에서 키워드 검색·통계

5. 주의사항

- PDF 구조에 따라 추출 품질이 달라질 수 있음
- 스캔된 문서는 OCR(예: Tesseract) 사용 필요
- 개인정보 포함 문서 처리 시 보안 준수 필수

마무리

Python으로 PDF를 다루면 반복 작업을 줄이고 데이터 가공 속도를 높일 수 있습니다. 다음 글에서는 OCR을 활용한 스캔 PDF 문자 인식을 다루겠습니다.

관련 글

반응형

댓글