본문 바로가기

데이터분석2

Pandas로 데이터 정리 - 빠른 업무 자동화 Pandas로 데이터 정리하기 – 엑셀보다 빠른 파이썬 데이터 처리엑셀에서 하던 정렬·필터·집계를 Pandas로 더 빠르고 재현 가능하게 처리합니다.결측치/형 변환/그룹 집계까지 실무 흐름대로 예제를 제공합니다.왜 Pandas를 써야 할까요?반복 작업을 코드로 자동화 가능합니다.대용량 데이터 처리 속도 빠릅니다.버전관리·리뷰·재현성 확보 쉽습니다.설치 & 기본 세팅pip install pandas pyarrow # CSV/Parquet 다루기 권장import pandas as pdpd.__version__노트: pyarrow 설치하면 Parquet 입출력 속도와 호환성이 좋아집니다.샘플 데이터 가정CSV 예시(파일명: sales.csv) 가정하면:date,region,product,qty,price20.. 2025. 9. 9.
Python으로 PDF 데이터 추출하기 – 초보자도 가능한 업무 자동화 Python으로 PDF 데이터 추출하기 – 초보자도 가능한 업무 자동화보고서, 계약서, 청구서처럼 중요한 문서가 PDF로만 제공될 때, 데이터를 일일이 복사·붙여넣기 하는 대신 Python으로 자동 추출하면 업무 시간을 크게 줄일 수 있습니다.1. 필요한 라이브러리 설치PDF 처리에는 PyPDF2 또는 pdfplumber를 많이 사용합니다.pip install PyPDF2 pdfplumber2. 기본 – 텍스트 추출import PyPDF2with open("sample.pdf", "rb") as f: reader = PyPDF2.PdfReader(f) text = "" for page in reader.pages: text += page.extract_text() pri.. 2025. 8. 14.