외부파일을 읽어와 Data Frame로 변환할 수 있다. 아래와 같은 형태의 입출력함수를 써야한다.
CSV(comma-separated-values)는 데이터를 쉼표로 구분하는 텍스트 파일이다.
CSV파일은 read_csv함수로 불러온다.
주된 옵션은 두가지가 있다.
index_col = False이다. 따로 index를 설정하지 않으면 integer position이 된다.CSV파일의 샘플을 열어보자.
import pandas as pd
df = pd.read_csv("02_Data_IO\\external_File\\sample.csv",
header=[0, 1])
print("< sample.csv >")
print(df)
< sample.csv >
Last name "First name" ... "Final" "Grade"
Alfalfa "Aloysius" ... 49.0 "D-"
0 Alfred "University" ... 48.0 "D+"
1 Gerty "Gramma" ... 44.0 "C"
2 Android "Electric" ... 47.0 "B-"
3 Bumpkin "Fred" ... 45.0 "A-"
4 Rubble "Betty" ... 46.0 "C-"
5 Noshow "Cecil" ... 43.0 "F"
6 Buff "Bif" ... 50.0 "B+"
7 Airpump "Andrew" ... "A" NaN
8 Backus "Jim" ... 97.0 "A+"
9 Carnivore "Art" ... 40.0 "D+"
10 Dandy "Jim" ... 45.0 "C+"
11 Elephant "Ima" ... 77.0 "B-"
12 Franklin "Benny" ... 90.0 "B-"
13 George "Boy" ... 4.0 "B"
14 Heffalump "Harvey" ... 40.0 "C"
[15 rows x 9 columns]
확장자xlsx의 엑셀파일을 데이터프레임으로 가져올 수 있다.
header옵션으로 Column Label로 사용할 행을 결정할 수 있다. default는 0행이고 header = None으로 해주면 Integer Position으로 설정된다.
행과 열은 가장 처음부터 시작된다.
import pandas as pd
df = pd.read_excel("02_Data_IO\\external_File\\sample.xlsx")
print("< sample.xlsx >")
print(df)