regularization 이 없으면 기계 학습 문제가 제대로 정의되지 않을 수 있다. 기계 학습의 여러 선형 모형은 X^T X 의 역행렬에 의존한다.
특이행렬일 경우 역행렬을 구할 수 없다. 이 행렬은 자료 생성 분포가 특정 방향에서 정말로 분산이 전혀 없거나, 특징의 개수가 데이터 수 보다 많아 특정 방향에서 분산이 관측되지 않을 때 특이행렬이 된다.
이에 대한 해결 방법으로 이 행렬 대신 정칙화된 행렬 X^T X + lambda I 의 역행렬을 구하는 것,
regularization 된 행렬의 역행렬이 반드시 존재함을 보장하는 기법들이 많다.
이런 선형 문제들의 관련 행렬이 가역이면, 그 문제에 대한 닫힌 형식의 해가 존재한다.
그러나 닫힌 형식의 해가 존재하지 않는 underdetermined 문제를 풀어야 할 때도 있다.
예를 들어, 선형으로 분리할 수 있는 부류들의 분류 문제에 로지스틱 회귀를 적용할 때 그런 상황이 발생한다.
가중치 벡터 w 로 견본들을 완벽하게 분류할 수 있다면, 2w 로는 더 높은 가능도로 견본들을 완벽하게 분류할 수 있다.
확률적 경사 하강법 같은 반복 최적화의 절차는 w 의 크기를 계속해서 증가하며, 이론적으로 그러한 증가 과정은 영원히 끝나지 않는다.
대부분의 형태의 regularization 에서 underdetermined 문제에 적용된 반복적 절차는 반드시 수렴한다.
가중치 감쇄의 경사 하강법 적용의 경우, 가능도의 기울기가 가중치 감쇄 계수와 같아지면 가중치의 크기가 더 증가하지 않는다.
underdetermined 연립방정식은 pseudoinverse 을 이용해서 풀었고, 유사 역행렬의 정의 중 하나로 제시되는 다음 식
은 가중치 감쇄를 이용해서 선형회귀를 수행하는 공식으로도 볼 수 있다.
regularization 계수가 0으로 접근할 때의 식의 극한,
따라서 유사역행렬을, underdetermined 문제를 regularization 을 이용해서 안정화하는 것이라고 해석할 수 있다.
'ml_interview' 카테고리의 다른 글
잡음에 대한 강인성 - 가중치 잡음 추가 ( 정규화와 동일한 역할 ), target 가중치 추가 ( softmax function ) (0) | 2024.08.22 |
---|---|
데이터 증강 augmentataion 과 모델 훈련, (0) | 2024.08.22 |
L1, L2 - regularization, norm panalty - 이차 근사를 통해 각 regularization 에 대한 이해를 할 수 있었음. (0) | 2024.08.21 |
흔히 쓰이는 확률분포 - 주어진 분산을 가지는 모든 가능한 연속 확률 분포 중에서 가장 많은 불확실성을 부호화하는 것이 정규 분포라는 사실은 매우 중요한 통계적 성질 (0) | 2024.08.20 |
확률론과 정보 이론 (0) | 2024.08.20 |