HTML 웹페이지

read_html()을 쓰게되면 해당 html파일의 <table>태그의 표 형식 데이터를 모두 찾아서 Data Frame으로 변환시켜준다. 여러 개가 나올 수 있기 때문에 반환 형식이 리스트이다.

위키에서 페이지를 아무거나 html로 저장해서 실습해보았다.

import pandas as pd

url = "02_Data_IO\\web\\german_cruiser.html"

tables = pd.read_html(url, encoding="utf-8")

print(len(tables))

print(tables[1])
				0            1            2            3          4          5          6
0    미국          순양함          구축함           전함       항공모함      프리미엄쉽       레전더리
1    일본          순양함          구축함           전함       항공모함      프리미엄쉽       레전더리
2    영국          순양함          구축함           전함       항공모함      프리미엄쉽       레전더리
3    독일          순양함          구축함           전함       항공모함      프리미엄쉽       레전더리
4   프랑스          순양함          구축함           전함       항공모함      프리미엄쉽       레전더리
5    소련          순양함          구축함           전함       항공모함      프리미엄쉽       레전더리
6  이탈리아          순양함          구축함           전함       항공모함      프리미엄쉽       레전더리
7    기타  기타 국가 프리미엄쉽  기타 국가 프리미엄쉽  기타 국가 프리미엄쉽  이벤트 프리미엄쉽  이벤트 프리미엄쉽  이벤트 프리미엄쉽
8    기타    기타 이벤트 함선    기타 이벤트 함선    기타 이벤트 함선      기타 함선      기타 함선      기타 함선

웹 스크래핑

웹스크래핑을 하기 위해서는 BeautifulSoup등의 웹 스크래핑 도구를 사용해야 한다.

아래는 BeautifulSoup에 대해 간단히 정리한 페이지이다.

BeautifulSoup