카테고리 없음
gradient_descent(Nesterov_Accelerated_gradient)
명징직조지훈
2023. 5. 4. 13:52
모멘텀을 기반으로 하는 방법,
모멘텀에서는 a_t 가 r v_(t-1) 만큼 이동,
이를 구하면 대략적인 다음 시점의 파라미터 위치를 추정할 수 있다.
이를 이용한 방법이 네스테로프 가속 경사
목적 함수에 쓰이는 파라미터 값이 다음 시점의 파라미터 값이다.
가중치에 임의의 연산을 수행해야 한다.
해당 방법을 수행하기 위해서는 최적화 알고리즘 수행 시 해당 함수 내에서 학습과 역전파를 수행하고 저장해야 한다.
이전 레이어를 쌓는 과정에서 compile 에서 최적화 알고리즘이 선택되고,
fit 함수를 통해 학습 데이터를 받아 학습을 수행, 역전파 과정에서 파라미터 업데이트가 수행된다.
이 과정에서 최적화 알고리즘에 따른 파라미터 업데이트가 이뤄지는 방식으로 구현하면 될 듯,