Data의 질이 좋아야 좋은 결과가 나온다. 따라서 Data Preprocessing이 중요하다.

최근에는 네트워크의 성능이 좋아져서 Zero Centered, Nomalization정도만 해줘도 충분하다.

Data Preprocessing

Stability during training

아래와 같은 Training Data가 있다고 해보자.

$$ X\in R^{N\times D} $$

$N$ : # of samples
$D$ : dimensionality

예를 들어 Color, Taste라는 Feature로 나눌 떄 Raw Data가 다음과 같다고 하자.

Untitled

세로 축이 Taste, 가로 축이 Color일때 이 Data는 Taste에 Overfitting된다. Training에서 Taste의 영향력이 더 커진다는 뜻이다. Dynamic Range가 다르기 때문이다. 이를 Normalize해보자.

Mean subtraction

Zero-centered를 위해서 평균을 빼준다.

Normalization

각각의 Dimension에 대해서

Standard Deviation(표준편차)로 나눈 후
최소 최대의 범위과 -1, 1이 되도록 해준다.

PCA (Principal Component Analysis)