본문 바로가기

operator 의 연산 의미 분석

LayerNorm Semantic Specification

값이 아니라 분포를 정렬한다.

개별 값의 크기를 조정하는 연산이 아닌

샘플 내부 분포의 기준 ( 평균 / 분산 ) 을 제거하고 재설정하는 연산

  • 절대 스케일 제거
  • 절대 위치 제거
  • 상대적 패턴만 남김

 

표현의 상대적 정보량 보존

평균과 분산을 제거하면 절대적 에너지는 소거된다.

보존되는 핵심 정보는 성분 간 상대적 비율 ( Relative Ratio ) 이다.

의미적 핵심 : 값의 절대 크기가 아니라, 성분 간의 구조적 비율

 

Ratio Dominance Condition

특정 row 에서

  • 소수의 성분이 분산을 지배
  • 나머지는 극도로 작은 값

이러면 분포는 Sparse Dominance 상태

이 경우

모든 성분을 동일 정밀도로 처리하는 것은 의미적 과잉 계산일 수 있다.

 

기하학적 해석

좌표계의 원점과 단위를 강제한다

  • 원점 이동
  • 단위 정규화

샘플마다 다른 좌표계를 공통 규격으로 정렬

 

Residual 과의 관계

ResidualAdd 이후 LN 은

  • 표현 공간 충돌 완화
  • 스케일 불균형 흡수
  • 안정적 gradient 흐름 유도

Merge - Normalize 는 의미적 Anchor 구조

 

의미적 동일성

Distribution Contract ( Quantified )

LayerNorm 의 의미적 동일성은 수치 일치가 아니라 분포 계약이다.

 

Downstream Preservation Constraint

  • Attention score
  • Top-K 선택
  • Rank ordering

이 통계적으로 유의미하게 변하지 않아야 한다.

이것이 LayerNorm 의 핵심 의미 보존 조건

 

Epsilon 의 의미론적 재해석

epsilon 은 단순 수치 안정성 상수가 아닌, 신호 증폭의 하한선 

 

Noise Amplification Risk

sigma^2 << epsilon

  • 작은 노이즈 과도 증폭 위험
  • 표현 왜곡 가능성