확률분포를 설명하는 가장 좋은 방법은 균등분포와 정규분포에 대한 두 가지 예를 살펴보는 것이다.
균등분포
나이가 17.0 과 20.0 사이에 균등하게 분포되어 있다고 가정, 나이는 같은 확률로 관찰되지만 하나의 정확한 나이가 관찰된 가능성은 없다.
균등분포를 가정하면 임의의 신입생이 x 보다 어릴 확률 F(x) 를 구할 수 있다.
x = 17 보다 어릴 확률은 F(17) = 0 이다.
x = 20 일 경우 F(20) = 1 이다.
x 보다 어릴 확률은 F(x) = 1/3(x-17) 이다.
17과 20 사이에서, 누적분포 F(x) 의 그래프는 이 균등모델에 대해 선형적으로 증가한다.
p(x) 의 평균과 분산
확률분포의 평균 m 과 분산 sigma^2 은 무엇일까?
앞에서 평균(기댓값)을 얻기 위해 p_i x_i 를 더했다.
역속 분포에서는 xp(x) 를 적분한다.
평균 m 보다 작은 구간에서 항상 확률은 F(m) = 1/2 이다.
분산은 평균에서의 거리의 제곱의 평균이다. N 개의 사건에 대해 sigma^2 은 p(x-m)^2 값들의 합이다.
연속확률변수 x 에서 합은 적분으로 바뀐다.
sigma^2 = E[(x-m)^2] = ∫p(x)(x-m)^2dx
균등 분포일 경우 평행이동할 수 있다.
종 모양 곡선을 가지는 정규분포
정규분포는 가우스 분포라고도 불린다. 이는 모든 확률밀도함수 p(x) 중 가장 중요하다.
각 실험은 고유의 분포를 따르지만 그 평균은 정규분포에 가까워진다.
중심 극한 정리 : 임의의 확률분포에서 N 개 표본의 평균은 N → INF 이면 정규분포에 가까워진다.
표준정규분포로부터 시작, 이는 x = 0 을 중심으로 대칭이므로 평균은 m = 0 이다. 이 분포는 표준 분산 sigma^2 = 1 이 되도록 선택되었다.
N(0, 1)
N번 동전 던지기와 N → INF
x 가 확률이 p_1 = p_-1 = 1/2 러ㅗ 같은 1,-1 이라고 가정
평균 m = 0, 분산 sigma^2 = 1
중요한 질문은 평ㅇ균이다. 독립변수 x_i = +-1 이 값들의 합은 N 으로 나눈다. A_N 의 기대평균은 여전히 0이다. 큰 수의 법칙은 이 표본평균이 0으로 수렴할 확률이 1이라고 한다. 얼마나 빨리 수렴하는지, 분산 sigma_N^2 은 얼마인지
결과를 1, -1 이 아닌 1, 0으로 변경 새로운 평균 m = 1/2, 분산, sigma^2 = 1/4
동전 던지는 횟수를 늘리면 중심 극한 정리에 의해 정규분포가 된다. 어떻게 이항분포가 정규분포가 되는지 알아본다.
이항 확률 p_N 은 N 번 동전 던지기에서 앞면이 나오는 횟수로 계산한다.
공정한 동전은 앞면이 나올 확률이 1/2, N = 3 번을 던질 때 세 번 모두 앞면이 나올확률은 1/8 이다. 앞면이 두 번 나오고 뒷면이 한 번 나오는 경우는 3/8 이 둘은 전체의 부분이다. 앞면이 나오는 평균 횟수는 1.5
N 번의 동전 던지기에서 앞면이 나오는 횟수의 평균은 m = x_i p_i = 1/2N 으로 계산한다.
분산 sigma^2 은 평균 N/2 으로부터의 거리 제곱에 기초한다.
sigma^2 = (3 - 1.5)^2 * 1/8 + ... + (0 - 1.5)^2 * 1/8 = 3/4
임의의 N 에 대하여 이항분포의 분산은 N/4 이다.
동전 던지기가 어떻게 정규분포에 가까워지는지, 평균 m 이 중심에 위치, 표준 정규 분포를 얻기 위해 그래프를 평행 이동하고 크기를 조절한다.
sigma 로 나누는 것을 정규화 또는 표준화
몬테카를로 추정법
데이터에서 과학적 계산은 오차가 발생,
이런 데이터들의 분산을 어떻게 추정할 수 있을지, 대부분의 경우 확률 분산 p(x) 는 알려져 있지 않다. 서로 다른 입력 b 를 시도하고 결과 x 를 계산하며 평균을 구하기 위해서는 무엇을 할 수 있을까?
몬테카를로 추정법은 그 중 가장 단순한 형태,
몬테 카를로는 표본 평균을 이용하여 기댓값을 추정한다.
임의로 데이터 b_k 를 선택하고 결과 x_k 를 계산한 뒤 x 들의 평균을 구한다.
'2024 ML 다시' 카테고리의 다른 글
머신러닝 통계학 (0) | 2024.06.24 |
---|---|
확률 분포 (0) | 2024.06.24 |
대칭인 양의 정부호 행렬 (0) | 2024.06.24 |
고윳값과 고유벡터 (0) | 2024.06.24 |
소거법과 A = LU (0) | 2024.06.23 |