베이즈 정리는 머신 러닝 중 분류(classification) 문제를 해결하는데 사용될 수 있다. 분류 문제는 입력 자료로 부터 카테고리 값인 출력 자표를 예측(prediction)하는 문제이다. 다음과 같은 문제는 분류 문제의 한 예이다.
이 문제의 답은 누구나 직관적으로 알 수 있다. 오렌지가 더 많은 상자가 붉은 상자이기 때문에 꺼낸 과일이 오렌지라면 상자는 붉은 상자일 가능성이 높을 것이다. 그 가능성 즉, 확률을 수치화해보자.
이 문제를 확률론의 용어로 다시 정리한다.
우리가 원하는 확률은 오렌지를 꺼냈을 경우에 선택할 상자가 붉은 상자일 확률이므로 다음과 같은 조건부 확률이다.
$$ P(Y=R|X=O) $$이 값을 계산하면 다음과 같다.
$$ \begin{eqnarray} P(Y=R|X=O) &=& \dfrac{P(X=O|Y=R)P(Y=R)}{P(X=O)} \\ &=& \dfrac{P(X=O|Y=R)P(Y=R)}{P(X=O|Y=R)P(Y=R) + P(X=O|Y=B)P(Y=B)} \\ &=& \dfrac{6/8 \cdot 1/2}{6/8 \cdot 1/2 + 1/4 \cdot 1/2 } \\ &=& \dfrac{6/8}{6/8 + 1/4} = 3/4\\ \end{eqnarray} $$상자는 두 개 뿐이므로 선택할 상자가 푸른 상자인 확률은 $ 1 - P(Y=R|X=O) $이다.
$$ P(Y=B|X=O) = 1 - P(Y=R|X=O) = 1/4 $$
이 방식으로 분류 문제를 풀기 위해서는 각각의 $Y$ 값에 대한 $X$값의 확률 분포, 즉 우도(likelihood)를 알고 있어야 한다. 이렇게 베이즈 정리와 우도(likelihood)를 이용하여 분류 문제를 푸른 방법을 생성론적 방법(generattive method)라고 한다.