심층 학습

7.5 잡음에 대한 강인성

명징직조지훈 2023. 6. 9. 00:27

일부 모형에서는, 무한소 분산 infinitesimal variance 를 가진 잡음을 모형의 입력에 추가하는 것이 가중치 노름에 대해 벌점을 부과하는 것과 동등하다.

일반적인 경우에는 잡음 주입이 그냥 매개변수들의 크기를 줄이는 것보다 훨씬 강력할 수 있음을 기억해야 한다. 특히, 잡음을 은닉 단위들에 추가하면 그 효과가 더욱 강력하다. 

또 다른 방법은 잡음을 입력이 아니라 가중치들에 더하는 것이다. 기본적으로 이 기법은 순환 신경망의 맥락에서 쓰였다.

이 기법을 가중치들에 대한 베이즈 추론의 확률적 구현으로 생각할 수 있다. 모형 가중치들을 불확실한 것으로 간주해서, 그러하나 불확실성을 반영하는 하나의 확률분포를 통해서 가중치들을 표현한다. 

가중치들에 잡음을 추가하는 것은 그러한 불확실성은 확률적으로 반영하는 실용적인 방법이다.

 

가중치들에 잡음을 적용하는 것을 학습할 함수의 안정성을 유도하는 좀 더 전통적인  형태의 정칙화와 동등한 것으로 볼 수도 있다.

 

특징 집합 x 를 하나의 스칼라로 사상하는 함수 y(x) 를 모형 예측값 y(x) 와 참값 y 사이의 최소제곱 비용함수를 이용해서 학습하는 문제를 생각,

그리고 훈련 집합은 m 개의 견본

이러한 입력의 각 표현에 신경망 가중치들의 무작위 섭동을 추가한다고 하자, 그리고 신경망이 l 층 MLP 라고 가정,

 

잡음을 주입했지만, 목표는 여전히 신경망 출경의 제곱오차를 최소화하는 것, 

 

작은 n 에 대해, 가중치 잡음이 추가된 J 를 최소화하는 것은 정칙화항 이 추가된 J 를 최소화하는 것과 동등하다. 이런 형태의 정칙화는 매개변수들을 매개변수 공간 중 가중치의 작은 섭동이 출력에 비교적 작게 영향을 미치는 영역들로 이끈다. 

 

이러한 정칙화에 의해 모형은 가중치의 변동들에 대해 모형이 둔감하게 반응하는 영ㅇ역으로 이동하게 된다. 

 

7.5.1 출력 목표들에 잡음 주입

대부분의 자료 집합에는 목표가 잘못 부여된 견본들이 존재,

정확한 타겟이 아닐 때, 모형이 log p(y|x) 를 최대화하면 성과가 나빠진다. 이를 방지하는 한 가지 방법은 타겟들에 명시적으로 잡음을 반영하는 것,

e 가 어떤 작은 상수라고 할 때 훈련 집합의 타겟 y 가 정확할 확률이 1-e 라고 하자. 그리고 y 가 정확한 타겟이 아닐 때는 가능한 타겟 중 어떤 것이라도 정확한 타겟일 수 있다고 가정, 

이러한 가정을 비용함수에 도입하려면, 해석적인 방식을 이용, lbel smoothing 는 출력이 k 가지인 소프트맥스 단위에 기초한 모형을, 엄밀한 0과 1 분류 목표를 각각 e/k-1 과 1-e로 대체함으로써 정칙화한다. 

정확이 0이거나 1인 값을 예측하는 일은 없으므로 모형은 점점 더 큰 가중치들을 학습하며, 결과적으로 예측값이 계속해서 커진다.

그런 사태는 가중치 감쇄같은 다른 전략들을 이용해서 방지할 수 있다.