신경망과 심층학습

4. 일반화 능력을 위한 심층 학습 모형의 훈련

명징직조지훈 2023. 7. 4. 22:25

신경망이 강력한 모형인 만큼 과대 적합일 때가 많다. 

훈련 자료에서 신경망이 훈련 자료의 무작위한 결함들을 기억하기 때문에 발생한다. 

과대적합을 암기 memorization 라고 부르기도 한다. 

미지의 데이터에 대해 유용한 예측을 제공하는 능력을 일반화 generalization 

과대적합의 정도는 모형의 복잡도와 가용 자료의 양 모두에 의존한다. 

많은 매개변수가 높은 자유도, 잘 일반화되지 않는 이유가 된다. 

x^d 의 d 개 입력, d 가 클수록 모형은 비선형성을 더 잘 포착한다. 

가용 자료가 무한하 ㄹ때 d 가 클수록 자료에 더 잘 적합하지만, 작교 유한한 가용 자료에 대해서는 이 가정이 참이 아니다. 

다항식 모형은 훈련 집합에 따라 아주 다른 예측값을 산출한다. 비슷한 예측값을 기대하는 관점에선 바람직하지 않음,

 

같은 시험 견본에 대한 예측값들의 차이는 모형의 분산 variance 으로 나타난다.

분산이 큰 모형은 무자구이한 결함을 암기함으로써 일관적이지 못하고 부정확한 예측값을 산출하느 ㄴ경향이 있다. 

 

과대적합을 피하는데 쓰이는 주요 방법

  • 벌점 기반 정칙화
    • 이 정칙화 기법의 핵심은 신경망 학습 알고리즘이 더 간단한 모형을 선택하게 만드는 어떠한 벌점 또는 제약을 매개변수들에 가하는 것이다.
    • 다항 회귀의 경우 k 개가 0 이 아니어야 한다는 제약을 가함으로써 단순
    • 위 제약을 명시적으로 가하는 것은 어렵다. 그보다는 각 매개변수에 곱셈적 감쇄 계수를 곱하는 것이 더 간단, 
    • 은닉 단위의 활성화 값에 벌점을 가하는 것이 가능, 표현이 희소해지는 효과가 난다. 
  • 일반 및 앙상블 방법
    • 신경망에 특화된 앙상블 방법, 여러 신경망 모형의 예측값들의 평균을 최종 예측값으로 사용하는 것, 또다른 앙상블 기법으로는 드롭아웃, 
  • 조기 종료
  • 사전 훈련
    • 탐욕적 알고리즘을 이용해서 좋은 초기점을 찾는 형태의 학습, 간접적 형태의 정칙화
  • 연속법과 커리큘럼 학습
    • 간단한 모형을 훈련하고 개선해나간다. 
  • 문제 영역 고유의 통찰에 기초한 매개변수 공유

 

다양한 정칙화 방법들이 입력 자료나 은닉 변수들에 잡음을 추가하는 것과 동등하다

확률적 경사 하강법을 사용하는 것이 일종의 잡음을 추가한느 것으로 간주할 수 있다.

 

작은 신경망을 구성하는 것보다 복잡한 신경망에 여러 정칙화 방법을 적용하는 것이 더 낫다. 

 

큰 신경망이 잠재력을 가지고 있기 때문, 

정칙화는 불충분한 가용 자료들의 무작위한 결함들을 평활화하는 효과를 낸다. 

 

지도 학습은 비지도 학습보다 과대적합을 더 잘 일으키는 경향이 있다. 

비지도 학습은 하나의 훈련 견본이 제공하는 정보의 비트수가 많기 때문,