[Python] K-Fold 로 데이터 분할하기
Reference
K-Fold Cross Validation
Cross Validation의 흐름

- Cross Validation(교차검증)으로 최적의 파라미터 얻기
- Cross Validation(교차검증)을 실시하여 머신러닝 기법 모델의 전반적인 성능을 비교한 후 하나의 기법을 선택
- 선택된 기법을 활용하여 데이터에 알맞은 최적의 파라미터 탐색
K-Fold Cross Validation 단계 순서

(K=5)인 경우
- 데이터의 상황에 따라 k개의 Group으로 알맞게 나눔
- k-1개 그룹의 데이터를 훈련 데이터로 사용하여 모델을 훈련
- 데이터의 나머지 부분에 대해 검증
- 정확도와 같은 성능 측정값을 계산하는데 테스트 세트로 사용된다.
- 검증 데이터 그룹을 달리하여 2, 3 과정을 바나복
- k번 검증된 결과의 평균을 측정
여기서 Data leakage가 없도록 훈련 데이터와 검증 데이터를 명확히 구분해야 한다.
Ensemble Learning