본문 바로가기

2024 ML 다시

연속 확률 분포

확률분포를 설명하는 가장 좋은 방법은 균등분포와 정규분포에 대한 두 가지 예를 살펴보는 것이다.

균등분포

나이가 17.0 과 20.0 사이에 균등하게 분포되어 있다고 가정, 나이는 같은 확률로 관찰되지만 하나의 정확한 나이가 관찰된 가능성은 없다. 

균등분포를 가정하면 임의의 신입생이 x 보다 어릴 확률 F(x) 를 구할 수 있다.

x = 17 보다 어릴 확률은 F(17) = 0 이다. 

x = 20 일 경우 F(20) = 1 이다.

x 보다 어릴 확률은 F(x) = 1/3(x-17) 이다.

 

17과 20 사이에서, 누적분포 F(x) 의 그래프는 이 균등모델에 대해 선형적으로 증가한다. 

 

p(x) 의 평균과 분산

확률분포의 평균 m 과 분산 sigma^2 은 무엇일까? 

앞에서 평균(기댓값)을 얻기 위해 p_i x_i 를 더했다.

역속 분포에서는 xp(x) 를 적분한다.

 

평균 m 보다 작은 구간에서 항상 확률은 F(m) = 1/2 이다.

 

분산은 평균에서의 거리의 제곱의 평균이다. N 개의 사건에 대해 sigma^2 은 p(x-m)^2 값들의 합이다.

연속확률변수 x 에서 합은 적분으로 바뀐다.

 

sigma^2 = E[(x-m)^2] = ∫p(x)(x-m)^2dx

 

균등 분포일 경우 평행이동할 수 있다.

 

 

종 모양 곡선을 가지는 정규분포

정규분포는 가우스 분포라고도 불린다. 이는 모든 확률밀도함수 p(x) 중 가장 중요하다.

각 실험은 고유의 분포를 따르지만 그 평균은 정규분포에 가까워진다.

 

중심 극한 정리 : 임의의 확률분포에서 N 개 표본의 평균은 N →  INF 이면 정규분포에 가까워진다.

 

표준정규분포로부터 시작, 이는 x = 0 을 중심으로 대칭이므로 평균은 m = 0 이다. 이 분포는 표준 분산 sigma^2 = 1 이 되도록 선택되었다.

N(0, 1)

 

N번 동전 던지기와 N → INF

x 가 확률이 p_1 = p_-1 = 1/2 러ㅗ 같은 1,-1 이라고 가정

평균 m = 0, 분산 sigma^2 = 1

중요한 질문은 평ㅇ균이다. 독립변수 x_i = +-1 이 값들의 합은 N 으로 나눈다. A_N 의 기대평균은 여전히 0이다. 큰 수의 법칙은 이 표본평균이 0으로 수렴할 확률이 1이라고 한다. 얼마나 빨리 수렴하는지, 분산 sigma_N^2 은 얼마인지

 

결과를 1, -1 이 아닌 1, 0으로 변경 새로운 평균 m = 1/2, 분산,  sigma^2 = 1/4 

 

동전 던지는 횟수를 늘리면 중심 극한 정리에 의해 정규분포가 된다. 어떻게 이항분포가 정규분포가 되는지 알아본다.

 

이항 확률 p_N 은 N 번 동전 던지기에서 앞면이 나오는 횟수로 계산한다.

 

공정한 동전은 앞면이  나올 확률이 1/2, N = 3 번을 던질 때 세 번 모두 앞면이 나올확률은 1/8 이다. 앞면이  두 번 나오고 뒷면이 한 번 나오는 경우는 3/8 이 둘은 전체의 부분이다. 앞면이 나오는 평균 횟수는 1.5

 

N 번의 동전 던지기에서 앞면이 나오는 횟수의 평균은 m = x_i p_i = 1/2N 으로 계산한다. 

 

분산 sigma^2 은 평균 N/2 으로부터의 거리 제곱에 기초한다. 

 

sigma^2 = (3 - 1.5)^2 * 1/8 + ... + (0 - 1.5)^2 * 1/8 = 3/4

 

임의의 N 에 대하여 이항분포의 분산은 N/4 이다. 

동전 던지기가 어떻게 정규분포에 가까워지는지, 평균 m 이 중심에 위치, 표준 정규 분포를 얻기 위해 그래프를 평행 이동하고 크기를 조절한다. 

sigma 로 나누는 것을 정규화 또는 표준화

 

 

몬테카를로 추정법

데이터에서 과학적 계산은 오차가 발생, 

 

이런 데이터들의 분산을 어떻게 추정할 수 있을지, 대부분의 경우 확률 분산 p(x) 는 알려져 있지 않다. 서로 다른 입력 b 를 시도하고 결과 x 를 계산하며 평균을 구하기 위해서는 무엇을 할 수 있을까?

몬테카를로 추정법은 그  중 가장 단순한 형태,  

몬테 카를로는 표본 평균을 이용하여 기댓값을 추정한다.

임의로 데이터 b_k 를 선택하고 결과 x_k 를 계산한 뒤 x 들의 평균을 구한다. 

 

 

 

 

 

 

 

 

 

'2024 ML 다시' 카테고리의 다른 글

머신러닝 통계학  (0) 2024.06.24
확률 분포  (0) 2024.06.24
대칭인 양의 정부호 행렬  (0) 2024.06.24
고윳값과 고유벡터  (0) 2024.06.24
소거법과 A = LU  (0) 2024.06.23