본문 바로가기

ml_interview

가우시안 분포

가장 중요한 연속 확률 분포 중 하나, 정규 분포 normal distribution, 가우시안 분포 Gaussian distribution,

구성 요소 설명

  • 정규화 상수
    • 확률 밀도 함수의 총 면적이 1이 되도록 조정하는 상수입니다.
    • 분산 σ2가 클수록 분포는 넓게 퍼지며, 상수 값은 작아집니다.
  • 지수 항
    • 평균 μ를 중심으로 (x−μ)2의 크기에 따라 확률 밀도가 감소합니다.
    • σ2는 분포의 폭을 조정하며, 값이 크면 완만한 분포, 값이 작으면 급격한 분포를 형성합니다.

가우시안 분포에서 관측값들을 독립적으로 추출한다고 가정, 데이터 집합으로부터 매개변수들을 결정하는 것이 목표, iid 조건

mu, sigma^2 이 주어졌을 때 조건부 확률

관측 데이터를 바탕으로 확률 분포의 매개변수를 결정하는 표준적인 방법 중 하나는 가능도 함수를 최대화하는 매개변수를 찾는 것

가능도 함수는 각 데이터의 확률 밀도의 곱으로 표현

확률 밀도 함수로 대체

로그 가능도 함수의 사용

최대 가능도 방법이 구조적으로 분포의 분산을 과소평가

편향, bias 현상의 예시

최대 가능도 추정은 평균은 올바르게 구할 수 있지만, 분산은 (N-1)/N 만큼 과소평가

편향을 수정하는 분산 추정치

과소평가 문제를 해결하기 위해 불편 분산(Unbiased Variance) 추정치를 사용합니다. 이는 분산 계산 시 nnn 대신 n−1n-1n−1로 나누는 방식으로 구현됩니다: