일반화된 선형 모델에 대한 첫 논의로, 두 클래스 분류 문제에 대해 관찰,
생성적 방식에선 클래스 C_1 에 대한 사후 확률을 특징 벡터의 선형 함수에 대한 로지스틱 시그모이드 함수로 적을 수 있었다.
p(C_2|phi) = 1 - p(C_1|phi) 이다.
sigma() 는 로지스틱 시그모이드 함수 logistic sigmoid, 로지스틱 회귀라고도 불리지만, 분류를 위한 모델이다.
M 차원 특징 공간 phi 에 대해서 이 모델은 M 개의 조절 가능한 매개변수를 가지고 있다.
대조적으로 만약 최대 가능도 방법을 이용하여 가우시안 클래스 조건부 밀도를 근사한다면, 평균값에 대해서는 2M, 공분산 행렬에 대해서는 M(M+1) / 2 개의 매개변수를 가지게 되었을 것,
클래스 사전 확률 p(C_1) 까지 포함하게 된다면 매개변수의 총 숫자는 M(M+5) / 2+1 개다. 즉 M 이 증가하는 것에 대해 매개변수의 숫자가 이차로 증가하게 된다.
반면 로지스틱 회귀의 경우 M 에 대해 선형적으로 매개변수가 증가한다.
M 의 숫자가 클 경우 로지스틱 회귀 모델으르 다루는 것이 더 유리할 수 있다.
최대 가능도 방법을 이용해 로지스틱 회귀 모델의 매개변수를 계산, 이를 위해 로지스틱 시그모이드 함수의 미분값 사용,
sigma(1 - sigma)
n = 1,...,N 에 대해 t_n ∈ {0,1} 이고 phi_n = phi(x_n) 인 데이터 집합 {phi_n, t_n} 에 대하여 가능도 함수의 작성
가능도 함수의 음의 로그값을 취하여 오류 함수를 정의할 수 있다. 이 함수는 교차 엔트로피 cross entropy 오류 함수
로지스틱 시그모이드의 미분값에 해당하는 인자가 사라졌다. 따라서 로그 가능도 함수의 기울기가 더 간단한 형태로 표현,
데이터 포인트 n으로부터 기인하는 기울기에 대한 기여도가 y - t 에 기저 함수 벡터 phi_n 을 곱한 것으로 표현되었다.
선형 회귀 모델의 제곱합 오류 함수의 기울기와 정확하게 같은 형태
선형적으로 분리 가능한 데이터 집합에 대해 최대 가능도 방법을 사용하면 과적합 문제가 발생 가능. 이는 sigma = 0.5 에 해당하는 초공간이 두 클래스를 나누는 경우, 이 때 w^T phi = 0 에 해당하며, w 의 값은 무한대가 된다.
이 경우 특징 공간상에서의 로지스틱 회귀 함수는 무한대로 가팔라진다.
즉, 각각의 클래스 k 에서 온 모든 훈련 포인트들이 사후ㅎ 확률 p(C_k|x) = 1 을 가지게 되는 것이다.
최대 가능도 방법으론 하나의 해를 다른 해보다 더 선호하도록 만들 수는 없다.
또한 최대 가능도 방법 사용 시 어떠한 해를 찾게 되는가는 매개변수 초기화와 최적화 알고리즘에 따라 달려있다.
이러한 문제는 사전 확률을 포함시키고, w 에 대해 MAP 해를 찾는 방식으로 해결하거나 오류 함수에 정규화항을 추가하는 것으로 해결 가능
'ml_interview' 카테고리의 다른 글
뉴럴 네트워크 - 기저 함수의 학습, 데이터를 바탕으로 (0) | 2024.07.16 |
---|---|
Iterative reweighted least squares, 반복 재가중 최소 제곱법 (1) | 2024.07.15 |
고정된 기저 함수 - 기저 함수 자체를 데이터에 학습 시켜야 한다.! (0) | 2024.07.15 |
확률적 판별 모델 (0) | 2024.07.15 |
뉴럴 네트워크에서의 정규화 - 조기 종료 (0) | 2024.07.12 |