추론과 결정(생성 모델)
분류 문제를 두 단계로 나우어 보았음
1. 추론 단계 inference stage 로 훈련 집단을 활용하여 p(C_k | x) 에 대한 모델을 학습
2. 결정 단계 decision stage 로 학습된 사후 확률들을 이용해서 최적의 클래스 할당을 시행하는 것
두 문제를 한 번에 풀어내는 방식으로 x 가 주어졌을 때 결정값을 돌려주는 함수를 직접 학습시키는 것, 이를 판별 함수 discriminant function 이라고 한다.
결정 문제를 푸는 데에는 3가지 방법이 존재,
a : 각각의 클래스 C_k 에 대해 조건부 확률 밀도 p(x|C_k) 를 알아내는 추론 문제를 풀어낸다. 클래스 별 사전 확률 p(C_k) 도 따로 구한다. 그 후 베이지안 정리를 통해 클래스 별 사후 확률 p(C_k|x) 를 구한다.
베이지안 정리의 분모는 정규화 계수로 분모를 이루는 식의 각 클래스 합으로 구할 수 있다.
동일하게 결합 분포를 직접적으로 모델링 후 정규화하여 사후 확률들을 구할 수 있다. 이후 결정 이론을 통해 새 입력 변수 x 에 대한 클래스를 구한다.
직간접적으로 입력값과 출력값의 분포를 모델링하는 이러한 방식을 생성 모델 generative model 이라고 한다. 이렇게 만들어진 분포로부터 표본을 추출함으로써 입력 공간에 합성 데이터 포인튿르을 생성해 넣는 것이기 때문
위 방식은 입력과 클래스에 대해서 결합 분포를 찾아야 하기 때문에 가장 손이 많이 간다. 고차원 x 일수록 일정 수준 이상의 조건부 밀도를 구하기 위해서는 큰 훈련 데이터 집합이 필요,
대다수의 경우 클래스별 사전 확률은 훈련 집합의 클래스 븨율을 통해 계산할 수 있다.
위 방법을 통해 데이터 p(x) 주변의 밀도도 구할 수 있다는 장점이 있다. 이 경우 새로운 데이터 포인트들의 발생 확률을 예측할 수 있으며 이상치 탐치 등의 사용할 수 있다.
단순 분류의 경우 위와 같은 알고리즘을 사용하는 것은 손해,