데이터수집/파이썬 데이터수집

웹 구조와 html의 이해

포비용 2021. 9. 6.

앞선 포스팅에서는 주피터 노트북을 이용해 뉴스페이지의 제목을 가져오는 연습을 해보았다. 이번 포스팅에서는 좀 더 깊게 들어가 html을 이해하고 그 구조에 대해서 알아보자.

데이터를 불러올때 우리는 타이틀에 해당하는 부분이 <h3> 였다. 여기서 <h3>는 태그라고 불리는것이며 데이터를 추출할때 중요한 부분이므로 꼭 숙지해야 하는부분이다. 이를위해 간단히 sublime 에디터를 사용해 코드를 구현해보았다.

참고로 태그의 마지막 부분은 /로 닫아줘야한다. b는 bold의 약자

코드 실행후 모습

---------------------------------------------------

웹페이지는 HTML 기본 구조를 가지는데

<!DOCTYPE html> ---------- 1) 이 문서는 HTML 언어를 사용

<html> ----------- 2)여기서 부터 HTML 문서시작

</head> -------------- 4) 전체정보 닫음

<body> ------------- 5) 문서 실제내용 시작

</body> ------------------- 6)문서 실제내용 닫음

</html> ------------------- <html 닫음>

더 나아가 <head> 안에는 <title>이 들어갈수가 있다 실제로 코드를 구현하고 실행해 보자

tile안에 my_practice!를 넣은 모습 utf8은 문자깨짐 현상 발생시 넣으면 된다.

빨간색 네모박스를 보면 제목이 바뀐것을 알수있다(단 원본내용에는 변화x)

댓글