확률론
패턴 인식 분야에서 중요한 콘셉 중 하나는 바로 불확실성이다. 불확실성은 측정할 때의 노이즈를 통해서도 발생하고 데이터 집합 수가 제한되어 있다는 한계점 때문에 발생한다.
확률론은 불확실성을 계량화하고 조작하기 위한 이론적인 토대를 마련해 주며, 패턴 인식 분야의 중요한 기반이기도 하다.
의사 결정 이론과 확률론을 함께 활용하면, 주어진 정보가 불확실하거나 완전하지 않은 제약 조건하에서 최적의 예측을 시행할 수 있게 된다.
확률의 두 가지 기본 법칙은 바로 합의 법칙과 곱의 법칙이다.
p(X,Y) 는 결합 확률로 X 와 Y 의 확률이다. 조건부 확률 p(Y|X) 는 X 가 주어졌을 경우 Y 의 확률이라고 읽을 수 있다.
p(X) 는 주변 확률이며, X 의 확률이라고 읽으면 된다.
곱의 법칙과 대칭성 p(X,Y) = p(Y,X) 로부터 조건부 확률 간의 관계인 다음 식을 도출해낼 수 있다.
위 식이 머신 러닝과 패턴 인식 전반에 걸쳐 아주 중요한 베이즈 정리다.
합의 법칙을 사용하여 베이지안 정리의 분모를 분자에 있는 항들로 표현할 수 있다.
베이지안 정리의 분모는 정규화 상수로 볼 수 있다. 1.1 의 왼쪽 항을 모든 Y 값에 대하여 합했을 때 1이 되도록 하는 역할인 것이다.
베이지안 정리를 다음과 같이 해석할 수 있다. 만약 어떤 과일이 선택되었는지를 알기 전에 어떤 박스를 선택했냐고 묻는다면 그 확률은 p(B) 일 것이다. 이를 사전 확률 prior probability 라고 부른다.
선택된 과일이 오렌지라는 것을 알게 된다면 베이지안 정리를 활용하여 p(B|F) 를 구할 수 있다. 이는 사후 롹률 posterior probability 라고 부를 수 있다. 사건 F 를 관측한 후의 확률이라 그렇다.
P(X, Y) = p(X)p(Y) 인 경우를 고려, 이처럼 각각의 주변 확률을 곱한 것이 결합 확률과 같은 경우 두 확률 변수를 독립적 independent 라고 한다.