2024 ML 다시

확률 분포

명징직조지훈 2024. 7. 8. 19:25

분포의 역할은??? 한정된 수의 관찰 집합이 주어졌을 때 확률 변수 x 의 확률 분포  p(x) 를 모델링하는 것이다.

위를 밀도 추정 density estimation 문제라고 한다. 해당 목표를 위한 첫번째 가정은 데이터 포인트들은 독립적이며 동일하게 분포되어 있다는 것,

이러한 가정은 실제론 타당하지 않음, 제한된 수의 데이터 집합으로부터 가능한 모 확률 분포의 가짓수는 무한대이기 때문, 

어떤 분포도 모분포의 후보가 될 수 있기 때문에 적절한 분포를 선택하는 문제가 있다. 패턴 인식 문제의 중요 쟁점

 

이항, 다항, 가우시안 분포의 경우 매개변수적 분포의 예로 해당 분포들이 조절 가능한 작은 수의 매배변수로  인해 결정되기 때문,  

이러한 분포를 밀도 추정 문제에 적용하기 위해서는 관찰된 데이터 집합을 바탕으로 적절한 매개변숫값을 구하는 과정이 필요하다. 

 

 

빈도적 관점

빈도적 관점에서는 어떤 특정 기준을 최적화 하는 방식으로 매개변수를 찾게 된다. 최저화 기준의 예로 가능도 함수가 존재,  

 

베이지안 관점

매개변수에 대한 사전 분포를 바탕으로 관측된 데이터 집합이 주어졌을 때의 해당 사후 분포를 계산한다. 베이지안 정리의 사용

 

위와 같은 매개변수적 접근법의 한계는 분포가 특정한 함수의 형태를 띄고 있다고 가정한다는 것이다. 이러한 가정이 적절하지 않은 경우 비매개변수적 밀도 추정 방식이 대안으로 사용될 수 있다. 

 

비매개변수적 밀도 추정 방식은 분포의 형태가 데이터 집합의 크기에 종속적이다. 매개변수들이 분포 형태가 아닌, 모델의 복잡도에 영향을 미친다.  

 

 

이산 확률 변수

이진 확률 변수 x ∈ {0,1} 의 고려, 두 확률이 동일하지 않다고 가정할 때, x = 1 일 확률은 매개변수 mu 를 통해 다음과 같이 표현할 수 있다.

x 에 대한 확률 분포를 다음의 형태로 적을 수 있다.

이를 베르누이 분포라고 부른다. 

 

베르누이 분포는 정규화, 평균과 분산이 다음과 같이 주어진다. ( 직접 계산하여 확인 )

 

평균의 경우 

X 의 기댓값은 p 로 표현되어 있다. 각 상태, 즉 이진 상태에 대한 확률은 이진 값으로

가질 수 있는 값들의 기댓값 ( 가중 확률과의 연산) 의 계산

E(X) = 0 * p(x=0) + 1 * p(x=1)

        = 0(1-p) + 1 p

        = p

 

분산의 증명

분산은 실제 값과 기댓값 차의 제곱, 이를 전개하면 데이터 제곱의 기댓값과 기댓값 제곱의 차로 분산을 계산할 수 있다.

Var(X) = E(X^2) - E(X)^2

            = 0^2 * (1-p) + 1 * p - p^2 = p(1-p)

 

x 의 관측값 데이터 집합이 주어졌다고 하자. 관측값들이 p(x|mu) 에서 독립적으로 추출되었다는 가정하에 mu 의 함수로써 가능도 함수를 구성할 수 있다.

빈도적 관점에서는 가능도 함수를 최대화하는 mu 를 찾아 mu 의 값을 추정한다.

 

로그 가능도 함수를 취해 합 연산으로 변환

주목할 점으로 

관측값들의 합을 통해서만 N 개의 관측값과 연관된다 이 합은 충분 통계량의 예시,

 

위 가능도 함수를 mu 에 대해 미분하고 이를 0과 같다고 놓고 최대 가능도 추정값의 계산

위 식은 표본 평균 sample mean, 데이터에서 x = 1 인 관찰값의 수를 m 이라고 하면 ( 이진 확률 분포 이므로 ) 다음의 형태로 다시 적을 수 있다.

즉, 최대 가능도 체계하에서 동전의 앞면이 나올 확률은 데이터 집합에서 앞면이 나올 비율로 주어지게 되는 것

때문에 최대 가능도, 빈도론적 측면에서는 극단적인 결과가 나올 수 있다.

 

 

크기 N 의 데이터가 주어졌을 때 x = 1 인 관측값의 수 m에 대해서도 분포를 생각해 볼 수 있다. 이를 이항 분포 Binomial Distribution 라 한다. 

 

이항 분포는 가능도 함수에 비례한다는 것을 알 수 있다. 

 

정규화 계수를 구하기 위해 동전 던지기를 N 번 했을 때 앞면이 m 번 나올 수 있는 가능한 모든 가짓수를 구해야 한다. 따라서 이항 분포를 아래와 같이 적을 수 있다.

위 식은 N 개의 물체들 중 m 개의 물체를 선별하는 가짓수를 구한 것이다. 

 

이항 분포의 평균과 분산을 구하는 데에는 사건들이 서로 독립일 경우에 사건들의 합의 평균값은 평균값들의 합과 같여므, 사건들의 합의 분산은 분산의 합과 같다는 것을 증명했다.

 

베타 분포

최대 가능도 방법 하에서의 베르누이 분포의 매개변수 mu, 이항 분포에서는 mu 의 최대 가능도 추정값이 데이터에 있는 x - 1인 관측값들의 비율로써 계산된다는 것도 확인

이러한 방법은 데이터의 수가 적을 때 과적합이 일어나기 쉽다. 

 

베이지안적으로 접근하기 위해서는 매개변수 mu 에 대한 사전 분포 p(mu) 를 도입하는 것이 필요하다. 

 

해석이 쉽고 분석 측면에서도 유용한 형태의 사전 분포를 도입, 

 

가능도 함수를 이루고 있는 인자들의 곱의 형태에 주목

만약 mu 와 1-mu 의 거듭제곱에 비례하는 형태를 사전 분포로 선택한다면, 사전 확률과 가능도 함수의 곱에 비례하는 사후 분포 역시 사전 분포와 같은 함수적 형태를 가지게 될 것이다. 

 

이러한 성질을 켤레성 conjugacy 라고 한다. 

 

 

위의 논의를 바탕으로 사전 분포로 베타 분포 beta distribution 을 사용, 베타 분포의 형태

위 식의 계수들은 베타 분포가 정규화되도록 한다.

감마 함수는 사전 정의된 함수

 

매개변수 a, b 는 이들이 매개변수 mu 의 분포를 조절, 

 

베타 사전 분포와 이항 가능도 함수를 곱한 후 정규화를 통해 mu 의 사후 분포를 구할 수 있다.