본문 바로가기

operator 의 연산 의미 분석

AdamStep Semantic Specification

Adam 은 시간축 Residual 구조

 단순 gradient 가 아니라

기록된 관성과 신뢰도에 의해 정제된 교정값이다.

Temporal Residual Semantics ( 시간축에서의 ResidualAdd )

 

1 차 모멘트 m : 방향성 기억 (Directional Memory)

  • 과거 gradient 의 방향성 누적
  • 노이즈 평균화
  • 운동량 기반 관성

m 은 업데이트 방향을 결정하는 핵심 상태

 

2차 모멘트 v : 신뢰도 가중치 ( Confidence Weight )

단순 분산 추정이 아닌

의미론적으로

정보의 빈도와 안정성을 측정하는 신뢰도 추정기

 

Inverse Frequency Interpretation

  • v_t 가 작다 - 해당 파라미터는 드물게 업데이트
  • Adam 은 이런 파라미터에 더 큰 step 을 부여

희귀한 정보는 더 크게 반영된다.

Adam 은 일종의 Inverse Frequency Weighting 을 수행한다.

 

기하학적 해석

Preconditioned Geometry

공간의 metric 재정의

곡률과 스케일을 반영한 적응적 기하학 이동

 

Epsilon 의미론

단순 divide-by-zero 방지가 아닌

최대 학습률의 천장 설정이다.

  • 작은 v 에서 과도한 step 억제
  • 동역학 안정성 확보

 

수치적 유효성과  학습 궤적

Trajectory-Based Tolerance

Adam 의 의미적 동일성은 개별 원소 정확도가 아니라

중요한 것은

  • 전체 업데이트 벡터의 방향 유지
  • 노름 범위 유지

어느 수준의 수치 오차보다, 전체 학습 궤적 유지가 중요