오류 함수의 이차 근사의 경우, 오류 표면은 b 와 H 값을 바탕으로 결정된다.
이차 근사의 최소값의 위치는 O(W^2) 매개변수들에 종속적이며,
이는 O(W^2) 개의 독립적인 정보를 모으기 전까지는 최솟값을 구할 수가 없다는 의미다.
기울기 정보를 사용하지 않을 경우 각각이 O(W) 단계만큼을 필요로 하는 함수 계산을 O(W^2) 번 해야 하는 것이다. 이러한 방법을 통해서 최솟값을 찾을 경우에 필요한 계산은 O(W^3) 에 해당한다.
기울기 정보를 활용하는 알고리즘의 경우 매번 d E 를 계산할 때마다 W 개의 정보를 구할 수 있기 때문에 O(W) 번의 기울기 계산 후에 최솟값을 찾을 수 있을 것이라는 희망을 가질 수 있다.
역전파를 사용하면 각각의 계산들이 O(W) 번의 단계만에 계산되므로 최솟값을 O(W^2) 만에 찾는 것이 가능하다.
때문에 기울기 정보는 실제적인 뉴럴 네트워크 훈련 알고리즘의 기반이 된다.
'ml_interview' 카테고리의 다른 글
역전파의 효율성 - 수치 미분 : 유한 차분법과의 비교(실제 구현의 비교에 사용) (0) | 2024.07.16 |
---|---|
경사 하강 최적화 - 기울기 정보를 이용한 오류 함수의 변화량 최소화 ( 온라인 학습의 이점 : 데이터상 중복의 효율적 처리) (0) | 2024.07.16 |
지역적 이차 근사 - 헤시안 행렬이 양의 정부호, 이것에 대한 의미 생각 (1) | 2024.07.16 |
매개변수 최적화 - 오류 함수의 비선형적 종속성 문제, 최소점 탐색 방법 (0) | 2024.07.16 |
네트워크 훈련 - 회귀, 분류(이진, 다중 클래스) 별, 출력, 오류 함수의 선택 (1) | 2024.07.16 |