선형 판별 모델의 예시로 퍼셉트론 알고리즘의 존재,
입력 벡터 x 를 고정된 비선형 변환을 통해 특징 벡터 phi(x) 로 변호나시킨다. 그 후 변환된 특징 벡터를 사용해서 일반화된 선형 모델을 만든다.
비선형 활성화 함수는 계단 함수의 형태
벡터 phi(x) 는 보통 편향 성분 phi_0(x) = 1 을 포함하고 있다.
클래스가 2 개인 경우 분류 문제에선 표적값이 0, 1 에 포함되는 표현 방식의 사용, 확률적 모델 측면에서 적합했기 때문, 하지만 퍼셉트론의 경우 활성화 함수에 맞춰서 +1, -1 로 표현하는 것이 편리하다.
퍼셉트론에서 매개변수 w 를 구하기 위한 방법으로 오분류된 패턴의 개수를 사용하지 않는 이유는, 오류 함수가 w 에 대해 조각별 상수 함수이기 때문이다. 즉, w 에 대한 변화가 결정 경계를 데이터 포인트들 중 하나를 건너 이동하게 하는 곳에서는 모두 불연속성이 발생하기 때문, 오류 함수의 기울기를 이용하여 w 를 변경시킬 경우 기울기가 거의 모든 곳에서 0이 될 것이다.
따라서 퍼셉트론 기준이라는 오류 함수를 사용한다. 클래스 C_1 에 속한 x_n 패턴들에 대해서는 w phi(x_n) > 0 가 되고, C_2 에 대해서는 < 0 이 되도록 하는 가중치 벡터 w 를 찾고자 한다.
따라서 -1, 1 인 표적 부호화를 바탕으로 하면 모든 패턴들에 대해서
을 만족하는 w 를 찾고자 한다. (잘못 분류된 경우 -1이 곱해지기 때문)
퍼셉트론 기준은 올바르게 분류된 패턴들에 대해서는 0 의 오륫값을 배정하며, 오분류된 패턴 x_n 에 대해서는 위 값을 최소화하고자 한다.
따라서 퍼셉트론 기준 오류 함수는 다음과 같다.
phi_n = phi(x_n) 과 M 은 오분류된 패턴들의 전체 집합을 의미한다.
오분류된 특정 패턴 하나의 오류 함수에 대한 기여도는 패턴이 오분류된 w 공간상의 영역에 대해서는 w 의 선형 함수이며, 올바르게 분류된 영역에서는 0이다.
따라서 조각별 선형 형태를 가진다.
퍼셉트론 함수에 대한 상수배는 변하지 않는다. ( 오분류의 기준이 특정 확률이 아니고 양, 음수에 대한 값 판별이므로)
따라서 학습률에 영향이 없음
훈련 중에 가중 벡터가 변할 때 오분류가 되는 패턴들의 집합 또한 변하게 된다.
퍼셉트론의 단순한 해석
해당 패턴이 틀리게 분류되었다면, C_1 의 경우 벡터를 현재의 가중 벡터 w의 예측치에 더하고, C_2 의 경우 빼준다.
단일 업데이트 효과에 대해서는 오분류된 패턴의 오류 함수에 대한 기여도는 점점 감소한다. 가중 벡터의 더하는 과정 때문에 초기 첫 번째보다 변화량이 줄어들기 때문
선형적으로 분리 가능한 문제에 대해서는 반드시 수렴할 수 있지만, 그렇지 않은 문제에 대해서는 영원히 수렴하지 않는다.
퍼셉트론 알고리즘은 학습 알고리즘 자체의 어려움 외에도 확률적인 출력값을 내지 않고, 3개 이상의 클래스 문제에 대해 일반화가 되지 않는 등의 문제를 가지고 있다.
가장 큰 한계점은 고정된 기저 함수들의 선형 결합으로 이루어져있다는 데에 기인한다.
'ml_interview' 카테고리의 다른 글
확률적 생성 모델(시그모이드 함수의 등장??!?) (0) | 2024.07.09 |
---|---|
추론과 결정(생성 모델) (0) | 2024.07.09 |
수치 계산 (0) | 2024.07.02 |
확률론과 정보 이론 (0) | 2024.07.02 |
선형대수 (1) | 2024.07.02 |