지도 학습 알고리즘은 간단히 말해서 특정 입력을 특정 출력에 연관시키는 방법을 입력 견본 모음 x 와 출력 모음 y 로 이뤄진 하나의 훈련 집합으로부터 배우는 알고리즘이다.
y 의 출력 사례들을 자동으로 수집하기 어려워 supervisor 가 출력들을 제공하는 경우가 많다.
5.7.1 확률적 지도 학습
대부분의 지도 학습 알고리즘은 확률분포 p(y|x) 의 추정에 기초한다. 그러한 확률분포를 간단하게 추정하는 방법은, 그냥 분포 p(y|x;a) 들의 한 매개변수적인 모임에 대해 최상의 매개변수 벡터 a 를 최대가능도 추정을 이용해서 구하는 것이다.
선형회귀가 다음과 같은 매개변수적 확률분포 모임에 대응된다는 점은 이미 앞에서 보았다.

그런데 이와는 다른 매개변수적 분포족을 정의하면 선형회귀를 분류 문제로 일반화할 수 있다.
이제까지 선형회귀 예제들에 사용한 실숫값 수치들에 관한 정규분포는 평균으로 매개변수화된다. 이 경우 그 평균은 어떤 값이라도 가능하다.
이진 변수에 관한 분포는 이보다 복잡, 그런 분포의 평균은 항상 0과 1 사이여야 하기 때문,
이 문제를 해결하는 방법은 로그 S 자형 함수를 이용해서 일차함수의 출력을 구간 0,1 로 압축하고 그 구간의 값을 확률로 사용하는 것,

이런 접근 방식을 로지스틱 회귀라고 부른다.
선형 회귀에선느 정규방정식을 풀어서 최적의 가중치들을 구할 수 있었다. 로지스틱에선느 그보다 좀 더 어렵다. 닫힌 형식의 해가 없기 때문에, 경사 하강법을 이용해서 음의 로그가능도를 최소화해서 최적의 가중치들을 구해야 한다.
5.7.2 지지 벡터 기계
지도 학습에 대한 가장 영향력 있는 접근 방식 중 하나는 지지 벡터 기계 SVM
이 모형은 일차 함수 wx+b 가 학습을 주도한다는 점에서 로지스틱 회귀와 비슷하다.
그러나 로지스틱 회귀와는 달리 지지 벡터 기계는 확률들을 제공하지 않는다. 그냥 주어진 입력이 속한 부류만 알려줄 뿐이다.
양수 음수의 결과에 따라 예측 결과 제시
SVM 의 혁신적인 특징 하나는 kernel trick 을 사용한다는 것이다.
여러 가지 기계 학습 알고리즘을 전적으로 겨놉들의 내적으로만 표현할 수 있다는 통찰에 기초한다.
예를 들어 SVM 이 사용하는 일차함수를 다음과 같이 표현할 수 있다.

x^(i) 는 하나의 훈련 견보이고 a 는 계수들의 벡터이다. 학습 알고리즘을 이런식으로 표현한 후에는, x 를 주어진 특징 함수 phi(x) 의 출력으로 대체하고 내적을 함수 k(x, x^(i)) = phi(x) phi(x^(i)) 와 비슷한 내적 연산을 나타낸다.
특징 공간에 따라서는 벡터 내적 연산을 그대로 적용할 수 없을 때가 있다.
내적을 대체한 후에는 다음과 같은 함수를 이용해서 예측을 수행할 수 있다.

이 함수는 x 에 대해 비선형이지만, phi(x) 와 f(x) 의 관계는 선형이다.
또한 a 와 f(x) 의 관계도 선형이다.
이러한 커널 기반 함수는 먼저 모든 입력에 phi(x) 를 적용해서 자료 공간을 변환한 후 그 공간에서 선형 모형을 학습하는 것과 동등하다.
이러한 커널 기법은 두 가지 이유에서 강력
첫째로 kernel 요령을 적용하면 x 의 비선형 함수에 해당하는 모형을, 효율적인 수렴이 보장되는 볼록함수 최적화 기법을을 이용해서 학습할 수 있다. 이것이 가능한 이유는, 그런 경우 phi 가 고정되었다고 가정하고 a 만 최적화하기 때문이다. 즉, 최적화 알고리즘을 원래의 문제와는 다른 공간에서 일차함수인 하나의 결정 함수로 볼 수 있는 것이다.
둘째로 kernel 함수 k 를 좀 더 효율적으로 계산할 수 있다. 그냥 두 phi(x) 벡터들을 만들어서 그 내적을 취하는 방식보다 더 효율적으로 계산할 수 있는 형태로 kernel 함수를 구현할 수 있을 때가 많다.
'심층 학습' 카테고리의 다른 글
5.9 확률적 경사 하강법 (0) | 2023.06.05 |
---|---|
5.8 비지도 학습 알고리즘 (1) | 2023.06.05 |
5.6 베이즈 통계학 (0) | 2023.06.04 |
5.5 최대 가능도 추정 (1) | 2023.06.04 |
5.4 추정량, 편향, 분산 (0) | 2023.06.04 |