Data의 질이 좋아야 좋은 결과가 나온다. 따라서 Data Preprocessing이 중요하다.
최근에는 네트워크의 성능이 좋아져서 Zero Centered, Nomalization정도만 해줘도 충분하다.
아래와 같은 Training Data가 있다고 해보자.
$$ X\in R^{N\times D} $$
예를 들어 Color, Taste라는 Feature로 나눌 떄 Raw Data가 다음과 같다고 하자.

세로 축이 Taste, 가로 축이 Color일때 이 Data는 Taste에 Overfitting된다. Training에서 Taste의 영향력이 더 커진다는 뜻이다. Dynamic Range가 다르기 때문이다. 이를 Normalize해보자.
Zero-centered를 위해서 평균을 빼준다.
각각의 Dimension에 대해서