✅ 상황 정리: 이산 입력 변수의 조건부 분포
입력 벡터:
- , 각 x_i 는 이산 변수 (예: 0 또는 1)
클래스 조건부 확률 분포:
p(x∣y=C_k)
이걸 완전한 일반 분포로 표현하려면,
가능한 모든 x 조합에 대해 확률 값을 저장해야 합니다.
⚠️ 문제: 조합 폭발 (Combinatorial explosion)
각 입력 특징이 이진(binary)인 경우:
- 가능한 입력 벡터의 경우의 수는 : 2^D
- 각 클래스 C_k에 대해 2^D 개의 확률 값을 저장해야 함
- 확률 합이 1이 되어야 하므로 자유도는 : 2^D - 1 (독립 파라미터 수)
➡ 클래스가 여러 개일 경우, 전체 모델이 감당해야 할 파라미터 수는 매우 빠르게 커집니다.
✅ 해결책: 나이브 베이즈 가정 (Naive Bayes Assumption)
기본 아이디어:
- 조건부 독립성 가정:
각 특징 x_i 는 클래스 C_k 가 주어졌을 때 서로 독립이라고 가정한다.
핵심은 다음과 같습니다:
조건부 독립 가정을 적용하면, 전체 조합 하나하나에 대한 확률을 저장하지 않아도 되기 때문입니다.
→ 각 특징을 개별적으로 모델링하면, 파라미터 수가 지수적으로 줄어듭니다.
항목 일반 분포 나이브 베이즈
파라미터 수 | 2^D - 1 | D×(특징별 가능한 값 수−1)×K |
학습 데이터 요구량 | 많음 | 훨씬 적음 |
해석 | 복잡한 상호작용 고려 가능 | 단순하고 빠름 |
계산 복잡도 | 지수적 | 선형적 |
'pattern regonition' 카테고리의 다른 글
Feed Forward Network Function ( 고정된 기저 함수에서의 가중치 학습과 기저 함수와 그 가중치 학습 ) (0) | 2025.06.07 |
---|---|
neural network ( Support Vector Machine 과의 비교, 더 작은 모델을 구현하는 것이 더 좋음! ) (1) | 2025.06.07 |
확률적 생성 모델에서의 로지스틱 시그모이드 와 소프트 맥스- 이진 분류 모델에서 시작, 다중 분류로 확장 (0) | 2025.05.24 |
당연히 적은 데이터는 생성형 모델, 많은 데이터는 판별 모델이 뛰어난 성능을 보임 " 일반적으론 " (0) | 2025.05.23 |
생성 모델 VS 판별 모델 - 내가 오해하고 있었음... ㄷㄷ 반복 학습과 단일 계산의 차이가 존재하네 (0) | 2025.05.23 |