클래스 조건 확률을 구하기 위해 자주 사용되는 전략은 먼저 모종의 정해진 확률 분포 형식이 있다고 가정한 후 훈련 샘플에 기반해 확률 분포의 파라미터를 추정하는 전략,
구체적으로 클래스 c 에 관련된 클래스 조건 확률을 P(x|c) 로 기록하고, P(x|c) 가정해진 형식이 있고 파라미터 벡터에 의해서만 결정된다고 가정, 목적은 훈련 세트 D 를 이용하여 파라미터를 추정하는 것
사실상 확률 모델의 훈련 과정은 파라미터 추정 과정으로 볼 수 있다.
파라미터 추정에 대해 통계학계의 두 학파 사이에 서로 다른 해결 방안을 제시하고 있다.
빈도주의 학파는 파라미터는 미지의 수지만, 객관적으로 존재하는 고정값이라고 생각한다. 따라서 우도 함수의 최적화 등의 방법으로 파라미터값을 정할 수 있다고 생각한다.
베이지안 학파는 파라미터는 관측되지 않은 확률 변수라 여기고 본질적으로 어떤 분포를 가지고 있다고 생각한다. 따라서 파라미터가 하나의 사전분포를 따른다고 가정할 수 있고, 관측된 데이터에 기반해 파라미터의 사후분포를 추정할 수 있다고 생각한다.
데이터 샘플링에 기반해 확률 분포 파라미터를 추정하는 빈도주의 학파의 최대 우도 추정
D_c 로 훈련 세트 D 에서 c 클래스 샘플로 구성된 집합을 나타내고, 이런 샘플들이 독립항등분포라고 가정한다면, 데이터 세트 D_c 에 대한 파라미터의 우도는 다음 식이 된다.

theta 에 대해 최대 우도를 추정하는 것은 바로 우도를 최대화하는 파라미터 값을 찾는 것으로 볼 수 있다.
직관적으로 본다면 최대 우도 추정은 theta 의 모든 가능한 값 중에서 데이터 출현의 가능성을 최대화하는 값을 찾는 것이다.
최대 우도 추정법을 통해 얻은 정규 분포값은 샘플의 평균값, 이는 직관에 부합하는 결과
이러한 파라미터화 방법은 클래스 조건 확률 추정을 상대적으로 간단하게 만들긴 하지만, 추정 결과의 정확성은 가정하는 확률 분포 형식이 잠재적인 실제 데이터 분포와 얼마나 일치하는지에 의존하게 된다.
실제 응용환경에서 비교적 괜찮은 데이터 분포 가설을 세우려면 도메인 지식이 필요하다. 그러힞 않고 확률 분포 형식에 대해 마음대로 예측하고 가정한다면 잘못된 결과를 얻을 가능성이 크다.
'책 > 단단한 머신러닝' 카테고리의 다른 글
5.5.2 ART 신경망 (0) | 2023.01.13 |
---|---|
5.5.1 RBF 신경망 (1) | 2023.01.13 |
7. 베이지안 분류기 (0) | 2023.01.10 |
신경망 ( 오차 역전파 알고리즘 ) (0) | 2022.10.11 |
가설 공간 (0) | 2022.10.11 |