본문 바로가기

pattern regonition

discrete 특징을 가진 입력 변수에 대해 클래스 조건부 확률을 모델링할 때 발생하는 지수적 복잡도 문제 - 나이브 베이즈 가정의 필요성

✅ 상황 정리: 이산 입력 변수의 조건부 분포

입력 벡터:

  • , 각 x_i 는 이산 변수 (예: 0 또는 1)

클래스 조건부 확률 분포:

p(x∣y=C_k)

이걸 완전한 일반 분포로 표현하려면,
가능한 모든 x 조합에 대해 확률 값을 저장해야 합니다.

 

⚠️ 문제: 조합 폭발 (Combinatorial explosion)

각 입력 특징이 이진(binary)인 경우:

  • 가능한 입력 벡터의 경우의 수는 : 2^D
  • 각 클래스 C_k에 대해 2^D 개의 확률 값을 저장해야 함
  • 확률 합이 1이 되어야 하므로 자유도는 : 2^D - 1 (독립 파라미터 수)

➡ 클래스가 여러 개일 경우, 전체 모델이 감당해야 할 파라미터 수는 매우 빠르게 커집니다.

 

✅ 해결책: 나이브 베이즈 가정 (Naive Bayes Assumption)

기본 아이디어:

  • 조건부 독립성 가정:

각 특징 x_i 는 클래스 C_k 가 주어졌을 때 서로 독립이라고 가정한다.

 

핵심은 다음과 같습니다:

조건부 독립 가정을 적용하면, 전체 조합 하나하나에 대한 확률을 저장하지 않아도 되기 때문입니다.
→ 각 특징을 개별적으로 모델링하면, 파라미터 수가 지수적으로 줄어듭니다.

 

항목 일반 분포 나이브 베이즈

파라미터 수 2^D - 1 D×(특징별 가능한 값 수−1)×K
학습 데이터 요구량 많음 훨씬 적음
해석 복잡한 상호작용 고려 가능 단순하고 빠름
계산 복잡도 지수적 선형적