예를 들어 이미지가 어떤 이미지 인지 구분하고자 한다. 그런데 이미지는 컴퓨터가 Matrix로 인식한다. Color Image라면 0~255픽셀값을 갖는 3채널 Matrix이다.
Classification에서 두가지 중요한 요소가 있다.
즉 여기서 최적화라는 것은 Score Function의 각각의 parameter에 대하여 Loss를 최소화하는 과정이다.
만약 $N = 50000$개의 샘플과 $D = 32\times32\times 3 = 3072$ 차원(pixel), $K = 10$개의 Class가 있을 때 Score Function은 $D$차원에서 $K$차원으로 가는 함수이다.
$$ \text{Score Function}\quad f : R^D\rightarrow R^K $$
이때 Linear Classifier는 아래와 같이 나타낼 수 있다.
$$ f(x_i, W, b) = Wx_i+b $$
여기서 $x_i$는 샘플 이미지 하나이다. 즉, $D\times1$크기의 벡터이다. 이는 어떠한 이미지를 $D$차원의 공간의 하나의 점(벡터)라고 생각하는 것과 같다. 따라서 어떤 Linear Classifier를 통해 Decision Boundary가 결정될 경우 아래와 같은 모습을 상상할 수 있다.

$W$는 $K\times D$크기의 행렬이된다. 위의 식을 풀어보면 Score Function은 $K$개의 행에 각각의 클래스에 대한 Score가 저장되게 된다. 즉, $W$의 하나의 Row마다 어떤 Class에 대한 Classifier가 된다.
Score를 산출하는 방식을 Template Matching으로 해석 가능하다.