본문 바로가기

ml_interview

분류를 위한 최소 제곱법 - 의 출력을 확률로써 해석하기 어려움

제곱합 오류 함수를 최소화하는 문제는 닫힌 형태의 단순한 매개변수 해를 가지고 있다.

분류 문제에도 같은 방식의 적용, 

K 개의 클래스의 분류 문제, 원-핫 인코딩의 사용, 

이러한 상황에서 최소 제곱법을 사용하는 것이 타당한 이유는 

최소 제곱법이 입력 벡터가 주어졌을 때 표적 벡터의 조건부 기댓값 E[t|x] 의 근삿값을 구하는 방법이기 때문

 

이진 부호화의 경우 이 조건부 기댓값은 사후 클래스 확률의 벡터로 주어지게 된다. 하지만 상대적으로 성능이 좋지 못하게 근사된다. (0,1) 범위 밖의 값을 가질 수 있다.

 

 

다중 타깃 변수인 경우에서의 최소 제곱법의 흥미로운 성질은 모든 훈련 집합의 표적 벡터들이 전부 선형 제약 조건을 a,b 값에 대해 만족한다면, 어떤 x 값이던지 같은 제약 조건을 만족하게 된다.

따라서 원 핫 인코딩을 K 개의 클래스의 경우에 대해 사용하 모델을 통해 만들어진 예측값들은 어떤 x 의 경우에든 y(x) 의 원소들을 전부 합하면 1이 된다는 성질을 가진다??

하지만 이를 확률로써 해석하기 어려운 이유는,

1. 선형 회귀 모델의 특성

최소제곱법은 원래 회귀 분석을 위해 설계된 방법으로, 연속형 값을 예측합니다. 분류 문제에서 최소제곱법을 사용하면, 모델의 출력은 특정 클래스에 속할 가능성을 나타내는 확률이 아닌 실수 값입니다. 이 실수 값은 클래스 라벨과 직접적인 관계를 갖지 않습니다.

2. 출력 값의 범위 제한 없음

최소제곱법을 사용한 모델의 출력 값은 실수 범위에서 제한 없이 확장될 수 있습니다. 그러나 확률 값은 0에서 1 사이의 값을 가져야 합니다. 따라서, 최소제곱법의 출력 값을 확률로 해석하기 위해서는 추가적인 변환이 필요하지만, 이러한 변환은 일반적으로 최소제곱법의 출력에 잘 맞지 않습니다.

3. 이진 분류 문제에서의 불확실성

이진 분류 문제에서 로지스틱 회귀와 같은 모델은 로지스틱 함수(logistic function)를 사용하여 출력을 0과 1 사이의 확률 값으로 변환합니다. 반면, 최소제곱법은 단순히 선형 결합을 통해 예측 값을 계산하므로, 모델의 예측 값이 클래스 확률을 직접적으로 반영하지 않습니다.

4. 다중 클래스 분류 문제에서의 문제점

다중 클래스 분류 문제에서는 소프트맥스 회귀(softmax regression)와 같은 방법이 각 클래스에 대한 확률 분포를 제공합니다. 최소제곱법은 이러한 확률 분포를 제공하지 않으며, 단지 각 클래스에 대한 선형 판별 값을 제공합니다. 이 값들은 확률 값이 아니므로, 이를 확률로 해석하는 것은 어렵습니다.

 

너무 옳은 값에 대해서 벌칙을 가해지게 되므로... (오히려 정상치 제거??)