테스트 샘플이 주어지면 거리 척도에 기반해 훈련 세트에 인접한 k 개의 훈련 샘플을 찾아. 이 k 개의 이웃의 정보를 바타응로 예측을 진행한다.
분류 문제 중에는 k 개 샘플 중 출현 빈도가 가장 높은 클래스를 선택하는 투표법을 사용한다. 회귀의 경우 평균법의 사용, 거리를 바탕으로 가중 평균이나 가중 투표를 사용하기도 한다. 짧을수록 그 가중친는 커진다.
이 학습법은 명확한 학습 과정이 존재하지 않는 것처럼 보인다. 이는 lazy learning 의 대표 주자, 훈련 단계에서 샘플을 보존하기만 한다. 훈련 시간이 0이고, 테스트 샘플이 올 때까지 기다렸다 받은 후 처리한다.
eager learning 의 경우 샘플을 훈련 단계에서 학습하는 방법
가장 중요한 파라미터는 k 와 거리 계산법이다.
테스트 샘플 x 에 대해 만약 해당 샘플에 최근접한 이웃 샘플이 z 라고 가정한다면, 최근접 이웃 분류기가 오분류할 확률은 x 와 z 의 클래스가 다를 확률이다.

만약 샘플이 독립항등분포 independent identically distributed 이고 임의의 x 와 정수 a 에 대해 x 인근의 a 거리 범위 내에서 언제나 훈련 샘플을 찾을 수 있다고 가정, 다른 말로, 임의의 테스트 샘플에서 임의의 거리 범위 내에서 언제나 위 식의 훈련 샘플 z 를 찾을 수 있다는 가정이다.
놀라운 결과로 최근접 이웃 분류기는 매우 단순하지만, 일반 오차율을 베이즈 최적 분류기 오차율의 2배를 넘지 않는다는 것이다.
'개념 정리' 카테고리의 다른 글
정보 엔트로피 Information Entropy (0) | 2023.08.23 |
---|---|
차원 축소와 척도 학습 - 임베딩 (0) | 2023.04.01 |
계층 클러스터링 (0) | 2023.03.31 |
밀도 클러스터링 (0) | 2023.03.31 |
프로토타입 클러스터링 (0) | 2023.03.31 |