Adam 은 시간축 Residual 구조
단순 gradient 가 아니라
기록된 관성과 신뢰도에 의해 정제된 교정값이다.
Temporal Residual Semantics ( 시간축에서의 ResidualAdd )
1 차 모멘트 m : 방향성 기억 (Directional Memory)
- 과거 gradient 의 방향성 누적
- 노이즈 평균화
- 운동량 기반 관성
m 은 업데이트 방향을 결정하는 핵심 상태
2차 모멘트 v : 신뢰도 가중치 ( Confidence Weight )
단순 분산 추정이 아닌
의미론적으로
정보의 빈도와 안정성을 측정하는 신뢰도 추정기
Inverse Frequency Interpretation
- v_t 가 작다 - 해당 파라미터는 드물게 업데이트
- Adam 은 이런 파라미터에 더 큰 step 을 부여
희귀한 정보는 더 크게 반영된다.
Adam 은 일종의 Inverse Frequency Weighting 을 수행한다.
기하학적 해석
Preconditioned Geometry
공간의 metric 재정의
곡률과 스케일을 반영한 적응적 기하학 이동
Epsilon 의미론
단순 divide-by-zero 방지가 아닌
최대 학습률의 천장 설정이다.
- 작은 v 에서 과도한 step 억제
- 동역학 안정성 확보
수치적 유효성과 학습 궤적
Trajectory-Based Tolerance
Adam 의 의미적 동일성은 개별 원소 정확도가 아니라
중요한 것은
- 전체 업데이트 벡터의 방향 유지
- 노름 범위 유지
어느 수준의 수치 오차보다, 전체 학습 궤적 유지가 중요
'operator 의 연산 의미 분석' 카테고리의 다른 글
| ReLU Semantic Specification (0) | 2026.02.13 |
|---|---|
| BatchNorm Semantic Specification (0) | 2026.02.13 |
| Softmax Semantic Specification (0) | 2026.02.13 |
| LayerNorm Semantic Specification (0) | 2026.02.13 |
| BiasAdd / ResidualAdd Semantic Specification (0) | 2026.02.13 |