네트워크 복잡도를 조절하기 위해 사용되는 또 다른 정규화 방법은 조기 종료법이다.
비선형 네트워크 모델을 훈련하는 과정은 훈련 데이터 집합에 대해 정의된 오류 함수의 값을 반복적으로 감소시키는 과정을 포함하고 있다.
네트워크 훈련에 사용되는 켤레 경사도등의 많은 최적화 알고리즘의 경우, 오류는 반복수에 대해서 증가하지 않는 함수의 형태를 띄고 있다.
하지만 개별적인 데이터에 대해서 측정한 경우에는 오륫값이 감소하다가 네트워크가 과적함되면서 점차 증가한다.
따라서 검증 데이터 집합에 대해서 가장 작은 오류를 보이는 지점에 훈련을 종료함으로써 좋은 일반화 성능을 얻을 수 있다.
이 경우 네트워크 습성은 네트워크의 유효 자유도를 바탕으로 설명할 수 있다. 유효 자유도는 처음에는 작은 숫자로 시작하였다가. 훈련 과정 동안 점점 커진다. 이는 모델의 유효 복잡도가 점차 증가하는 것에 해당한다. 이 전에 종료하여 유효 복잡도를 제한하는 것이 가능,
제곱 오류 함수의 예시를 이용하여 이 직관에 대해 확인할 수 있다.
조기 종료법은 단순한 가중치 감쇠항을 사용한 정규화와 비슷한 습성을 보인다.

타원은 상수 오류의 윤곽선을 나타내며, W_ML 은 오류 함수의 최솟값을 지칭한다. 가중치 벡터가 원점에서 시작하여 지역적 기울기의 음의 방향으로 움직일 경우, 그림의 곡선을 따라서 움직이게 된다.
훈련을 일찍 종료하게 되면, 단순한 가중치 감쇠 정규화항을 포함한 오류 함수를 최소화하는 방식으로 찾아낸 값과 질적으로 비슷한 가중치 벡터를 찾아낼 수 있다.
여기서 가중치 공간상의 축들은 헤시안 행렬의 고유 벡터와 평행하도록 회전되었다.
만약 훈련 과정 동안 가중치 벡터가 원점에서 시작하여 지역적인 음의 기울기 벡터의 방향으로 진행해 나간다면, 가중치 벡터는 처음에는 w_2 축에 평행한 방향으로 이동을 시작하여, 오휴 함수의 최솟값인 W_ML 방향으로 이동할 것이다.
이는 오류 표면의 모양과 서로 크게 다른 값을 가지는 헤시안 행렬의 고윳값들로부터 기인한다.
따라서 w~ 근처의 점에서 훈련을 멈추는 것은 가중치 감쇠와 비슷한 효과를 낸다.
조기 종료와 가중치 감쇠의 관계를 정량적으로 나타낼 수도 있다. .
'ml_interview' 카테고리의 다른 글
고정된 기저 함수 - 기저 함수 자체를 데이터에 학습 시켜야 한다.! (0) | 2024.07.15 |
---|---|
확률적 판별 모델 (0) | 2024.07.15 |
뉴럴 네트워크에서의 정규화 (0) | 2024.07.12 |
역전파의 효율성, 야코비안, 헤시안 행렬 (0) | 2024.07.12 |
심층 학습의 등장 배경 - manifold hypothesis (0) | 2024.07.12 |