패턴인식과 머신러닝

3.2 편향 분산 분해

명징직조지훈 2023. 6. 25. 20:11

회귀 선형 모델에 대한 논의에서 기저 함수들의 형태와 종류가 고정되어 있다고 가정했다. 

제한된 숫자의 데이터 집합을 이용하여 복잡한 모델을 근사할 경우에 최대 가능도 방법을 사용하면 심각한 과적합 문제가 발생할 수 있다. 반면, 과적합 문제를 피하기 위해서 기저 함수의 수를 제한하게 되면 모델의 유연성에 제약을 가하게 된다는 부작용이 생길 수 있다.

정규화항을 사용하면 과적합 문제를 조절 가능, 하지만 이 경우 경규화 계수의 값을 정해야 한다는 문제를 해결해야 한다. 

가중치 벡터와 정규화 계수 둘 모두에 대해서 정규화된 오류 함수를 최소화할 경우 정규화되지 않은 해와 정규화 계수 0을 이라는 값을 가지게 될 것,

 

과적합 문제는 최대 가능도 방법을 사용할 경우에 발생하는 성질

베이지안 방법론을 바탕으로 각각의 매개변수들을 주변화할 경우 발생하지 않는다.

 

빈도주의 관점의 모델 복잡도에 대해 관찰, 이를 일컬어 편향 분산 트레이드 오프라 한다. 

 

선형 기저 함수 모델을 바탕으로 관찰, 

회귀 문제의 결정 이론에 대해 논의할 때 조건부 분포 p(t|x) 가 주어졌을 경우 해당 최적 예측값에 도달하도록 하는 다양한 오류 함수들에 대해 살펴보았다. 

제곱 오류 함수의 경우 최적의 예측치 h(x) 는 조건부 기댓값으로 주어지게 된다.

결정 이론에서의 제곱 오류 함수와 모델 매개변수의 최대 가느옫 추정치에 해당하는 제곱합 오류 함수는 다르다. 

조건부 분포를 구하는 데있어 다양한 방법을 사용할 수 있다.

 

기대 제곱 오류를 다음의 형태로 적을 수 있음을 증명

y(x) 와는 독립적인 두 번째 항은 데이터의 내재적인 노이즈로부터 생겨난 것이며 기대 오륫값이 도달할 수 있는 가장 최소의 값에 해당한다.

첫 번째 항의 값은 함수 y(x) 로 어떤 것을 선택하느냐에 따라 결정된다. 우리의 목표는 첫 번째 항의 값을 최소화하는 y(x) 를 찾아내느 것이다. 이 항은 음수가 될 수 없기 때문에 달성 가능한 최솟값은 0 이다. 

무한한 수의 데이터와 제한 없이 많은 계산 자원이 있다면 회귀 함수 h(x) 를 어떠한 정확도로든지 찾아낼 수 있을 것이며, 이것이 최적의 y(x) 선택지가 될 것이다. 

 

만약 매개변수 w 에 의해 결정되는 매개변수적 함수 y(x, w) 를 이용하여 h(x) 를 모델링한다면

베이지안 관점에서 이 모델의 불확실성은 w 에 대한 사후 분포를 통해 표현될 것이다. 

빈도주의적 관점에서는 데이터 집합 D 를 바탕으로 w 에 대한 점 추정을 할 것이다. 

분포 p(t, x) 로붜 독립적으로 추출한 데이터 집합들이 있곡, 각 집합의 크기가 N 이라고 하자. 주어진 어떤 데이터 집합 D 에 대해서든 우리는 학습 알고리즘을 실행해서 예측 함수 y(x; D) 를 구할 수 있다. 서로 다른 데이터 집합은 서로 다른 함수를 결괏값으로 내놓을 것이고, 그에 따라 서로 다른 제곱 오륫값을 가지게 될 것이다. 

 

편향은 전체 데이터 집합들에 대한 평균 예측이 회귀 함수와 얼마나 차이가 나는지를 표현한 것이다.

분산은 각가의 데이터 집합에서의 해가 전체 평균에서 얼마나 차이가 나는지를 표현한 것,