본문 바로가기

패턴인식과 머신러닝

2.1 이산 확률 변수

하나의 이진 확률 변수 x ∈ {0, 1} 을 고려, 만약 두 변수의 확률이 동일하지 않다면,

p(x = 1 | mu) = mu, p(x = 0 | mu) = 1 - mu

가 된다. 

따라서 x 에 대한 확률 분포를 다음의 형태로 적을 수 있다.

Bern(x | mu) = mu^x (1 - mu)^(1 - x)

이를 베르누이 분포라고 한다. 베르누이 분포는 정규화되어 있으며, 그 평균과 분산이 다음과 같이 주어진다.

E[x] = mu, var[x] = mu(1 - mu)

 

x 의 관측값 데이터 집합 D 가 주어졌다고 하자. 관측값들이 p(x|mu) 에서 독립적으로 추출되었다는 가정하에 mu 의 함수로써 가능도 함수를 구성할 수 있다.

 

p(D | mu) = PI p(x_n | mu) = PI mu^x_n(1 - mu)^(1 - x_n)

 

빈도적 관점에서는 가능도 함수를 최대화하는 mu 를 찾아서 mu 의 값을 추정할 수 있다. 

 

로그 가능도 함수는 오직 관측값들의 합을 통해서만 N 개의 관측값 x_n 과 연관된다는 점에 주목할 필요가 있다. 이 합은 충분 통계량의 예시 중 하나다. 

 

최대 가능도 체계하에서 동전의 앞면이 나올 확률은 데이터 집합에서 앞면이 나온 비율로 주어지게 되는 것

 

크기 N 의 데이터가 주어졌을 때 x = 1\인 관측값의 수 m 에 대해서도 분포를 생각해 볼 수 있다. 이르 ㄹ이항 분포라 한다. 

 

이항 분포의 평균과 분산, 독립적인 사건들의 합의 평균값은 평균값들의 합과 같으며, 사건들의 합의 분산은 분산의 합과 같다.

 

2.1.1 베타 분포

최대 가능도 방법 하에서는 데이터 수가 적을 때 심각한 과적합이 일어나기 쉽다는 단점이 있다. 이 문제에 대해 베이지안적으로 접근하기 위해서는 매개변수 mu 에 대한 사전 분포 p(mu) 를 도입하는 것이 필요하다. 

가능도 함수가 인자들의 곱의 형태를 띠고 있다는 것에 주목, 

켤레성 conjugacy : mu 와 1 - mu 의 거듭제곱에 비례하는 형태를 사전 분포로 선택한다면, 사전 확률과 가능도 함수의 곡ㅂ에 비례하는 사후 분포 역시 사전 분포와 같은 함수적 형태를 가지게 될 것 이러한 성질

 

 

'패턴인식과 머신러닝' 카테고리의 다른 글

3. 선형 회귀 모델  (0) 2024.02.29
2.2 다항 변수  (0) 2024.02.29
2. 확률 분포  (0) 2024.02.28
1.5 결정 이론 Decision theory  (0) 2024.02.22
3. 문제 표현 디자인 패턴  (0) 2023.06.30