read_html()을 쓰게되면 해당 html파일의 <table>태그의 표 형식 데이터를 모두 찾아서 Data Frame으로 변환시켜준다. 여러 개가 나올 수 있기 때문에 반환 형식이 리스트이다.
위키에서 페이지를 아무거나 html로 저장해서 실습해보았다.
import pandas as pd
url = "02_Data_IO\\web\\german_cruiser.html"
tables = pd.read_html(url, encoding="utf-8")
print(len(tables))
print(tables[1])
0 1 2 3 4 5 6
0 미국 순양함 구축함 전함 항공모함 프리미엄쉽 레전더리
1 일본 순양함 구축함 전함 항공모함 프리미엄쉽 레전더리
2 영국 순양함 구축함 전함 항공모함 프리미엄쉽 레전더리
3 독일 순양함 구축함 전함 항공모함 프리미엄쉽 레전더리
4 프랑스 순양함 구축함 전함 항공모함 프리미엄쉽 레전더리
5 소련 순양함 구축함 전함 항공모함 프리미엄쉽 레전더리
6 이탈리아 순양함 구축함 전함 항공모함 프리미엄쉽 레전더리
7 기타 기타 국가 프리미엄쉽 기타 국가 프리미엄쉽 기타 국가 프리미엄쉽 이벤트 프리미엄쉽 이벤트 프리미엄쉽 이벤트 프리미엄쉽
8 기타 기타 이벤트 함선 기타 이벤트 함선 기타 이벤트 함선 기타 함선 기타 함선 기타 함선
웹스크래핑을 하기 위해서는 BeautifulSoup등의 웹 스크래핑 도구를 사용해야 한다.
아래는 BeautifulSoup에 대해 간단히 정리한 페이지이다.