[Python] K-Fold 로 데이터 분할하기

Reference


K-Fold Cross Validation

Cross Validation의 흐름

Untitled

K-Fold Cross Validation 단계 순서

(K=5)인 경우

(K=5)인 경우

  1. 데이터의 상황에 따라 k개의 Group으로 알맞게 나눔
  2. k-1개 그룹의 데이터를 훈련 데이터로 사용하여 모델을 훈련
  3. 데이터의 나머지 부분에 대해 검증
  4. 검증 데이터 그룹을 달리하여 2, 3 과정을 바나복
  5. k번 검증된 결과의 평균을 측정

여기서 Data leakage가 없도록 훈련 데이터와 검증 데이터를 명확히 구분해야 한다.

Ensemble Learning