본문 바로가기

ml_interview

기울기 정보의 사용 - 역전파의 기울기 정보가 오류 함수의 최솟값의 위치를 찾는 속도를 증가시키는 이유

오류 함수의 이차 근사의 경우, 오류 표면은 b 와 H 값을 바탕으로 결정된다. 

이차 근사의 최소값의 위치는 O(W^2) 매개변수들에 종속적이며, 

이는 O(W^2) 개의 독립적인 정보를 모으기 전까지는 최솟값을 구할 수가 없다는 의미다.

 

기울기 정보를 사용하지 않을 경우 각각이 O(W) 단계만큼을 필요로 하는 함수 계산을 O(W^2) 번 해야 하는 것이다. 이러한 방법을 통해서 최솟값을 찾을 경우에 필요한 계산은 O(W^3) 에 해당한다.

 

기울기 정보를 활용하는 알고리즘의 경우 매번 d E 를 계산할 때마다 W 개의 정보를 구할 수 있기 때문에 O(W) 번의 기울기 계산 후에 최솟값을 찾을 수 있을 것이라는 희망을 가질 수 있다.

역전파를 사용하면 각각의 계산들이 O(W) 번의 단계만에 계산되므로 최솟값을 O(W^2) 만에 찾는 것이 가능하다.

 

때문에 기울기 정보는 실제적인 뉴럴 네트워크 훈련 알고리즘의 기반이 된다.