가장 중요한 연속 확률 분포 중 하나, 정규 분포 normal distribution, 가우시안 분포 Gaussian distribution,
구성 요소 설명
- 정규화 상수
- 확률 밀도 함수의 총 면적이 1이 되도록 조정하는 상수입니다.
- 분산 σ2가 클수록 분포는 넓게 퍼지며, 상수 값은 작아집니다.
- 지수 항
- 평균 μ를 중심으로 (x−μ)2의 크기에 따라 확률 밀도가 감소합니다.
- σ2는 분포의 폭을 조정하며, 값이 크면 완만한 분포, 값이 작으면 급격한 분포를 형성합니다.
가우시안 분포에서 관측값들을 독립적으로 추출한다고 가정, 데이터 집합으로부터 매개변수들을 결정하는 것이 목표, iid 조건
mu, sigma^2 이 주어졌을 때 조건부 확률
관측 데이터를 바탕으로 확률 분포의 매개변수를 결정하는 표준적인 방법 중 하나는 가능도 함수를 최대화하는 매개변수를 찾는 것
가능도 함수는 각 데이터의 확률 밀도의 곱으로 표현
확률 밀도 함수로 대체
로그 가능도 함수의 사용
최대 가능도 방법이 구조적으로 분포의 분산을 과소평가
편향, bias 현상의 예시
최대 가능도 추정은 평균은 올바르게 구할 수 있지만, 분산은 (N-1)/N 만큼 과소평가
편향을 수정하는 분산 추정치
과소평가 문제를 해결하기 위해 불편 분산(Unbiased Variance) 추정치를 사용합니다. 이는 분산 계산 시 nnn 대신 n−1n-1n−1로 나누는 방식으로 구현됩니다:
'ml_interview' 카테고리의 다른 글
베이지안 확률 (0) | 2024.11.25 |
---|---|
build 과정에서의 가중치 생성 방법, 일단 self.input_shape 의 사용 (0) | 2024.08.28 |
라그랑주 승수법 (0) | 2024.08.27 |
Early Stopping - 모형의 유효 수용력 model capacity, 가중치 감쇄와 조기 종료의 동치성, 상호 보완, (0) | 2024.08.22 |
semi-supervised learning (0) | 2024.08.22 |