HTML/CSS 이해를 바탕으로 크롤링하기

포비용 2021. 9. 7. 14:31

오늘은 저번 포스팅에서 뉴스기사를 뽑아왔는데 이번엔 제목뿐만 아니라 본문내용까지 뽑아올려고한다.

import requests
from bs4 import BeautifulSoup

res = requests.get("http://v.media.daum.net/v/20170615203441266")
soup = BeautifulSoup(res.content, "html.parser")
mydata = soup.find("h3", class_ = "tit_view") #필요한 데이터넣기
print(mydata.get_text())
print()
mydata2 = soup.find_all("span", "txt_info")
for item in mydata2:
    print(item)
    
#본문 내용 추출
mydata3 = soup.find("div", "layer_util layer_summary") #클래스 여러개 지정시 한칸 띄우면됨.
print(mydata3.get_text()) # get.string 해되되나 안될떄도 있어 둘다 혼용함

가끔씩 내가 원하지 않는 데이터도 딸려올수 있는데 이를 처리하는것을 후처리라고 한다.
ex)\n, 불피요한 데이터

는 화면에 표시되는 태그가 아니고 검색엔진이 검색이 더 잘되게 하게하거나 인코딩을 바꿀때 사용