Cross Entropy는 '예측과 달라서 생기는 정보량(불확실성)'라고 할 수 있다.
Binary case는 출력이 0 또는 1의 두 가지 경우만 있을 수 있다.
만약 예측값이 $\hat y$, Target이 $y$라고 한다면 Binary Cross Entropy는 아래와 같다.
$$ -y\log(\hat y) - (1-y)\log(1-\hat y) $$
여러 출력 case를 갖는 경우 Cross Entropy는 아래와 같이 쓴다.
$$ \large\textcolor{gold}{ \text{CE} = \sum_{x\in X}(-P(x)\log(Q(x)))
} $$
따라서 Cross Entropy의 의미는 $Q$라는 모델의 결과에 대해 $P$라는 이상적인 값을 기대했을 때 우리가 얻게 되는 '놀라움'에 대한 정보량이다.
정상적인 주사위는 1~6의 값이 나올 확률이 동등하게 $1/6$이다.
하지만 주사위의 확률을 이상하게 예측했다고 가정해보자. 1이 나올 확률을 $1/2$, 나머지 값이 나올 확률이 모두 $1/10$인 이상한 주사위다.
여기서 Cross Entropy를 구해보자.