본문 바로가기

패턴인식과 머신러닝

2. 확률 분포

패턴 인식 문제를 해결하는 데 있어서 확률론이 얼마나 중심적인 위치를 차지하고 있는지, 강조, 확률 분포의 예시와 그 성질에 대해 관찰

 

분포의 역할들 중 하나는 한정된 수의 관찰 집합 x_1, ..., x_N 이 주어졌을 때 확률 변수 x 의 확률 분포 p(x) 를 모델링하는 것 

이를 밀도 추정 density estimation 문제라고 한다. 

데이터 포인트들은 독립적이며, 동일하게 분포되어 있다고 가정. 

사실 밀도 추정 문제는 근본적으로 타당하지 않다. 제한된 수의 관찰된 데이터 집합으로부터 가능한 모 확률 분포의 가짓수는 무한대이기 때문, 각각의 데이터 포인트들에 대하여 0이 아닌 값을 가지는 어떤 분포 p(x) 도 모 분포의 후보가 될 수 있다.

이들 중 적절한 분포를 선택하는 것은 모델 선택의 문제와 연관되어 있다.

 

매개변수적 분포라고 불리는 이유는, 조절 가능한 매개변수에 의해 결정되기 때문, 예시로 가우시안 분포의 평균과 분산이 있다. 

이러한 모델을 밀도 추정 문제에 적용하기 위해서는 관찰된 데이터 집합을 바탕으로 적절한 매개변숫값을 구하는 과정이 필요하다. 

 

빈도적 관점에서는 어떤 특성 기준을 최적화하는 방식으로 매개변수를 찾게 된다. 

베이지안 관점에서는 매개변수에 대한 사전 분포를 바탕으로 관측된 데이터 집합이 주어졌을 때의 해당 사후 분포를 계산한다.

 

 

매개변수적인 접근법의 한계점 한 가지는 분포가 특정한 함수의 형태를 띠고 있다고 가정한다는 것이다. 

비매개변수적 밀도 추정 방식에서는 분포의 형태가 데이터 집합의 크기에 대해 종속적이다. 이 분포의 매개변수들은 분포 형태가 아닌 모델의 복잡도에 영향을 미친다. 

'패턴인식과 머신러닝' 카테고리의 다른 글

3. 선형 회귀 모델 - 복잡한 모델들의 토대  (0) 2023.06.24
2.1 이산 확률 변수  (0) 2023.06.24
1.6 정보 이론  (0) 2023.06.24
1.5.5 회귀에서의 손실 함수  (0) 2023.06.23
1.5.4 추론과 결정  (0) 2023.06.23