고속 옵티마이저
모멘텀 최적화 종단속도에 도달할 때까지 빠르게 가속, 이전 그레이디언트가 얼마였지는지에 대해 중점, 현재 그레이디언트를 모멘텀 벡터에 더하고 이 값을 빼는 방식으로 가중치 갱신 그레이디언트를 속도가 아닌 가속도로 사용, 모멘텀 하아피퍼라미터를 통해 모멘텀이 너무 커지는 것을 방지, 네스테로프 가속 경사 모멘텀 최적화의 변종, 모멘텀의 방향으로 조금 앞선 곳에서 비용 함수의 그레이디언트를 계산하는 것 AdaGrad 가장 가파른 차원을 따라 이동, 학습률 감소 너무 일찍 머춘다는 단점 RMSProp AdaGrad 의 문제에서 최근 반복에서 비롯된 그레이디언트만 누적함으로써 이 문제를 해결, Adam 적응적 모멘트 추정, 모멘텀과 RMSProp 의 아이디어를 합친 것, 적응적 학습률 알고리즘,