본문 바로가기
Python 기본기

Python 웹 스크래핑 기초 – 초보자도 가능한 데이터 수집 자동화

by 두뇌향상중 2025. 8. 19.
반응형

Python 웹 스크래핑 기초 – 초보자도 가능한 데이터 수집 자동화

웹 페이지에서 필요한 정보를 자동으로 가져오는 기술을 웹 스크래핑(Web Scraping)이라고 합니다. 뉴스 기사, 쇼핑몰 가격, 날씨 정보 등 반복적으로 확인하는 데이터를 자동으로 수집하면 시간을 크게 절약할 수 있습니다.

1. 준비물

pip install requests beautifulsoup4

requests는 웹 페이지에 접속하는 라이브러리이고, BeautifulSoup은 HTML 문서를 분석하는 도구입니다.

2. HTML 구조 이해하기

웹 페이지는 기본적으로 HTML 태그로 구성됩니다. 예를 들어:

<h1>오늘의 날씨</h1>
<p class="temp">28도</p>

이 구조에서 h1은 제목, p 태그는 온도 정보를 담고 있습니다.

3. 기본 예제

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")

title = soup.find("h1").text
print("제목:", title)

4. 여러 개 데이터 추출하기

items = soup.find_all("p", class_="temp")
for item in items:
    print(item.text)

5. 실무 활용 아이디어

  • 뉴스 기사 제목 자동 수집
  • 쇼핑몰 가격 추적 → 최저가 알림
  • 날씨·주식·환율 정보 자동 수집

6. 주의사항

- 스크래핑 전에 해당 사이트의 robots.txt 규칙 확인 필요
- 과도한 요청은 서버에 부담을 줄 수 있음 → 요청 간격 두기
- 상업적 활용 시 반드시 저작권·이용약관 확인해야 함

마무리

웹 스크래핑은 Python을 활용한 데이터 자동화의 첫걸음입니다. 다음 글에서는 Pandas와 연계해 수집한 데이터를 정리·분석하는 방법을 소개하겠습니다.

관련 글

반응형

댓글