본문 바로가기

패턴인식과 머신러닝

2. 확률 분포

확률 분포들은 그 자체뿐만 아니라 더 복잡한 모델을 만드는 데 있어서도 중요한 역할을 차지한다. 

분포의 역할들 중 하나는 한정된 수의 관칠 집합이 주어졌을 때 확률 변수 x 의 확률 분포 p(x) 를 모델링하는 것이다.

이를 밀도 추정 density estimation 문제라고 한다. 데이터 포인트들은 독립적이며, 동일하게 분포되어 있다고 가정한다. 

이항 분포, 다항 분포, 가우시안 분포들은 매개변수적 parametric 분포의 예이다. 이는 적은 수의 조절 가능한 매개뱐수에 의해 결정되기 때문이다.

이런 예시로 가우시안 분포의 평균과 분산이 있다.

 

이러한 모델을 밀도 추정 문제에 적용하기 위해서는 관찰된 데이터 집합을 바탕으로 적절한 매개변수 값을 구하는 과정이 필요하다. 빈도적 관점에서는 어떤 특정 기준을 최적화 하는 방식으로 매개변수를 찾게 되낟.

최적화 기준의 예로 가능도 함수가 있다.

 

켤레 conjugate 사전 확률은 사후 확률이 사전 확률과 같은 함수적 형태를 띄도록 만들어준다. 

 

매개변수적인 접근법의 한계점은 분포가 특정한 함수의 형태를 띠고 있다고 가정한다느 ㄴ것이다.

 

반면 비매개변수적 밀도 추정 방식은 분포의 형태가 데이터 집합의 크기에 종속적이다. 이 모델의 매개변수들은 분포 형태가 아닌 모델의 복잡도에 영향을 준다.

 

'패턴인식과 머신러닝' 카테고리의 다른 글

2.2 다항 변수  (0) 2024.02.29
2.1 이산 확률 변수  (2) 2024.02.28
1.5 결정 이론 Decision theory  (0) 2024.02.22
3. 문제 표현 디자인 패턴  (0) 2023.06.30
4.1.3 분류를 위한 최소 제곱법  (0) 2023.06.26