5.2 수용력, 과대적합, 과소적합
기계 학습의 주된 어려움은, 모형을 훈련하는 데 사용한 입력뿐만 아니라 새로운, 이전에 본 적 업슨ㄴ 입력에 대해서도 알고리즘이 잘 작동하게 만드는 것이다.
이전에 관측한 적 없는 입력들에 대해 잘 작동하는 능력을 일반화라고 부른다.
모형이 예측한 값과 훈련 집합에 있는 참값 사이의 오차를 측정할 수 있다. 그런 오차를 훈련 오차라고 부른다. 그러한 훈련 오차는 작을수록 좋다.
지금까지 설명한 것은 학습 문제가 아닌 최적화 문제,
기계 학습이 최적화와 다른 점 하나는 훈련 오차 뿐만 아니라 일반화 오차도 줄여야 한다는 것이다. 시험 오차라고도 부른 ㄴ일반화 오차는 새 입력에 대한 오차의 기댓값이다.
일반화 오차를 추정할 때 흔히 쓰이는 방법은 훈련 집합과는 개별적으로 수집한 견본들로 이뤄진 시험 집합에 대한 학습 모형의 성과를 측정해서 평균을 내느 것,
test set 에 대한 오차를 최소화한다.
훈련 자료와 시험 자료는 자료 집합들에 관한 확률분포에 기초해서 생성된다. 그러한 확률분포를 자료 생성 과정이라고 한다. 이러한 자료 생성에는 흔히 독립동일분포 가정 independent identically distributed assumptions 가정을 둔다.
기계 학습 알고리즘의 성과는 알고리즘의 두 가지 능력으로 결정된다.
1. 훈련 오차를 작게 만드는 능력
2. 훈련 오차와 시험 오차의 차이를 작게 만드는 능력
주어진 학습 모형의 과대적합 과소적합 가능성은 모형의 수용력을 바꿔서 제어할 수 있다. 수용력이 예외적으로 높은 아주 극단적인 경우에 도달하기 위해, 비매개변수 모형이라고 하는 개념을 도입한다.
매개변수 모형은 매개변수 벡터로 서술되는 함수를 학습하는데, 그 벡터의 크기는 유한하며, 모형이 훈련 자룔르 관측하기 전에 미리 고정된다.
그러나 비매개변수 모형에는 그런 제한이 없다.
훈련 집합의 크기가 달라지면 훈련 오차와 일반화 오차도 달라진다. 훈련 견본의 수가 증가할 때 기대 일반화 오차가 증가하는 일은 절대 발생하지 않는다. 비매개변수 모형에서는 자료가 많을수록 일반화가 개선된다.
5.2.1 공짜 점심 없음 정리
기계 학습은 순수하게 논리적인 추론에 쓰인느 완전히 확실한 규칙이 아니라 확률적인 법칙만 제공함으로써 이러한 모순을 피해간다.
즉, 기계 학습은 대상 집합의 거의 대부분의 구성원에 대해 정확할 가능성이 ㅇㅆ는 규칙들을 찾고자 한다.
no free lunch theorem 에 따르면 모든 가능한 자료 생성 분포에 대해 평균을 구한다고 할 때, 이전에 관측한 적 없는 자료점들을 분류하는 과제에서 모든 분류 알고리즘의 오차율은 서로 같다.
5.2.2 정칙화
nfl 이론은 우리가 설계해야 하 ㄹ것이 구체적인 과제에 대해 잘 작동하는 기계 학습 알고리즘임을 말해 준다.
지금까지의 학습 알고리즘 수정 방법은 해들의 가설공간에 함수를 추가하거나 제거해서 모형의 표현 수용력을 증가, 감소하는 것 뿐,
알고리즘의 행동 방식은 가설 공간의 함수 집합의 크기뿐만 아니라 그런 함수들의 구체적인 종류에도 영향을 받는다. 선형회귀의 가설 공간은 입력의 일차함수들의 집합으로 구성된다. 그러한 일차함수들은 입력과 출력으 ㅣ관계가 선형에 가까울 때 유용하다. 그러나 비선형의 경우 유용하지 않다.
정리하자면, 학습 알고리즘이 선택할 수 있는 함수들의 개수뿐만 아니라. 그런 함수들의 종류를 통해서도 알고리즘의 성과를 제어할 수 있다.
또한, 알고리즘에 특정한 선호도를 부여함으로써 가설 공간에서 특정 함수를 다른 함수보다 먼저 선택하게 만들 수도 있다.
공자 점심 없음은 최고의 기계 학습 알고리즘 같은 것은 없음을 명확하게 말해준다. 특히, 최고의 정칙화는 없다. 해야할 일은 과제에 잘 맞는 형태의 정칙화를 선택하는 것,