반응형
Python 웹 스크래핑 기초 – 초보자도 가능한 데이터 수집 자동화
웹 페이지에서 필요한 정보를 자동으로 가져오는 기술을 웹 스크래핑(Web Scraping)이라고 합니다. 뉴스 기사, 쇼핑몰 가격, 날씨 정보 등 반복적으로 확인하는 데이터를 자동으로 수집하면 시간을 크게 절약할 수 있습니다.
1. 준비물
pip install requests beautifulsoup4
requests
는 웹 페이지에 접속하는 라이브러리이고, BeautifulSoup
은 HTML 문서를 분석하는 도구입니다.
2. HTML 구조 이해하기
웹 페이지는 기본적으로 HTML 태그로 구성됩니다. 예를 들어:
<h1>오늘의 날씨</h1>
<p class="temp">28도</p>
이 구조에서 h1
은 제목, p
태그는 온도 정보를 담고 있습니다.
3. 기본 예제
import requests
from bs4 import BeautifulSoup
url = "https://example.com"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
title = soup.find("h1").text
print("제목:", title)
4. 여러 개 데이터 추출하기
items = soup.find_all("p", class_="temp")
for item in items:
print(item.text)
5. 실무 활용 아이디어
- 뉴스 기사 제목 자동 수집
- 쇼핑몰 가격 추적 → 최저가 알림
- 날씨·주식·환율 정보 자동 수집
6. 주의사항
- 스크래핑 전에 해당 사이트의 robots.txt 규칙 확인 필요
- 과도한 요청은 서버에 부담을 줄 수 있음 → 요청 간격 두기
- 상업적 활용 시 반드시 저작권·이용약관 확인해야 함
- 과도한 요청은 서버에 부담을 줄 수 있음 → 요청 간격 두기
- 상업적 활용 시 반드시 저작권·이용약관 확인해야 함
마무리
웹 스크래핑은 Python을 활용한 데이터 자동화의 첫걸음입니다. 다음 글에서는 Pandas와 연계해 수집한 데이터를 정리·분석하는 방법을 소개하겠습니다.
관련 글
반응형
'Python 기본기' 카테고리의 다른 글
Pandas로 데이터 정리 - 빠른 업무 자동화 (0) | 2025.09.09 |
---|---|
Python으로 PDF 데이터 추출하기 – 초보자도 가능한 업무 자동화 (1) | 2025.08.14 |
Python으로 엑셀 업무 자동화하기 – 매크로 대신 파이썬 활용법(초보 가이드) (2) | 2025.08.12 |
[debugging] core dump error (0) | 2023.11.08 |
댓글