본문 바로가기

ml_interview

로지스틱 회귀 - 가우시안 클래스 조건부 밀도 기반 최대 가능도는 M 에 대해 이차로 매개변수의 증가, 로지스틱의 경우 M 에 대해 선형적 증가, 선형적 분리 가능한 데이터에 대해 최대 가능도 방법 사용시 과적합 문제 발생 가능

일반화된 선형 모델에 대한 첫 논의로, 두 클래스 분류 문제에 대해 관찰, 

 

생성적 방식에선 클래스 C_1 에 대한 사후 확률을 특징 벡터의 선형 함수에 대한 로지스틱 시그모이드 함수로 적을 수 있었다.

p(C_2|phi) = 1 - p(C_1|phi) 이다.

sigma() 는 로지스틱 시그모이드 함수 logistic sigmoid, 로지스틱 회귀라고도 불리지만, 분류를 위한 모델이다.

 

M 차원 특징 공간 phi 에 대해서 이 모델은 M 개의 조절 가능한 매개변수를 가지고 있다. 

대조적으로 만약 최대 가능도 방법을 이용하여 가우시안 클래스 조건부 밀도를 근사한다면, 평균값에 대해서는 2M, 공분산 행렬에 대해서는 M(M+1) / 2 개의 매개변수를 가지게 되었을 것,

 

클래스 사전 확률 p(C_1) 까지 포함하게 된다면 매개변수의 총 숫자는 M(M+5) / 2+1 개다. 즉 M 이 증가하는 것에 대해 매개변수의 숫자가 이차로 증가하게  된다.

 

반면 로지스틱 회귀의 경우 M 에 대해 선형적으로 매개변수가 증가한다. 

 

M 의 숫자가 클 경우 로지스틱 회귀 모델으르 다루는 것이 더 유리할 수 있다.

 

 

최대 가능도 방법을 이용해 로지스틱 회귀 모델의 매개변수를 계산, 이를 위해 로지스틱 시그모이드 함수의 미분값 사용, 

sigma(1 - sigma)

n = 1,...,N 에 대해 t_n ∈ {0,1} 이고 phi_n = phi(x_n) 인 데이터 집합 {phi_n, t_n} 에 대하여 가능도 함수의 작성

가능도 함수의 음의 로그값을 취하여 오류 함수를 정의할 수 있다. 이 함수는 교차 엔트로피 cross entropy 오류 함수

로지스틱 시그모이드의 미분값에 해당하는 인자가 사라졌다. 따라서 로그 가능도 함수의 기울기가 더 간단한 형태로 표현, 

데이터 포인트 n으로부터 기인하는 기울기에 대한 기여도가 y - t 에 기저 함수 벡터 phi_n 을 곱한 것으로 표현되었다. 

선형 회귀 모델의 제곱합 오류 함수의 기울기와 정확하게 같은 형태

 

선형적으로 분리 가능한 데이터 집합에 대해 최대 가능도 방법을 사용하면 과적합 문제가 발생 가능. 이는 sigma = 0.5 에 해당하는 초공간이 두  클래스를 나누는 경우, 이 때 w^T phi = 0 에 해당하며, w 의 값은 무한대가 된다. 

 

이 경우 특징 공간상에서의 로지스틱 회귀 함수는 무한대로 가팔라진다. 

즉, 각각의 클래스 k 에서 온 모든 훈련 포인트들이 사후ㅎ 확률 p(C_k|x) = 1 을 가지게 되는 것이다. 

 

최대 가능도 방법으론 하나의 해를 다른 해보다 더 선호하도록 만들 수는 없다. 

또한 최대 가능도 방법 사용 시 어떠한 해를 찾게 되는가는 매개변수 초기화와 최적화 알고리즘에 따라 달려있다. 

 

이러한 문제는 사전 확률을 포함시키고,  w 에 대해 MAP 해를 찾는 방식으로 해결하거나 오류 함수에 정규화항을 추가하는 것으로 해결 가능