개념 정리
경사 하강법
명징직조지훈
2022. 11. 11. 13:19
피드포워드 신경망의 학습은 훈련 데이터로부터 계산되는 오차함수 E(w) 를 신경망의 파라미터 w에 대하여 최소화하는 과정이다.
회귀 문제에서는 오차함수가 다음과 같으며,
목표 출력 dn 은 임의의 실숫값을 성분으로 갖는 벡터였다. 다클래스 분류 문제에서는 다음과 같고,
목표 출력 dn 은 클래스 수와 같은 수의 성분을 가진 벡터다. 그리고 정답 클래스에 대응하는 성분 하나만 1이고 나머지 성분은 0을 값으로 취하였다.
학습의 목표는 E(w) 에 대하여 최솟값을 주는 w 를 구하는 것이다. 이렇게 구한 극소점이 전역 극소점일 가능성은 높지 않다.
국소 극소점 하나는 어떤 초기 점을 출발점으로 하고 w를 되풀이하여 갱신하는 반복 계산을 통해 구할 수 있다.
이러한 방법에는 경사 하강법 gradient descent 이다. gradient 란 다음에 해당하는 벡터다.
경사 하강법은 현재의 w를 음의 기울기 방향으로 조금씩 움직이는 것을 여러 번 반복한다.
여기서 엡실론은 w의 갱신량의 크기를 결정하는 값으로 학습률이라고 부른다.
이렇게 계산되는 wt 는 엡실론이 충분히 작다면 t의 증가에 따라 E(wt) 를 반드시 감소시킨다. 따라서 t를 충분히 크게 하면 언젠가는 극소점에 도달할 수 있게 된다.
비선형함수의 최소화 방법 중에서 경사 학아법은 가장 단순한 방법이다. 문제의 크기가 큰 경우 사용