LayerNorm Semantic Specification

1) 한 줄 정의

LayerNorm 은 샘플 내부에서 평균 / 분산을 계산해 절대 스케일을 제거하고, 남은 상대적 비율만을 보존해 학습을 안정화하는 표현 안정화 연산자다.

2) BatchNorm 과의 결정적 차이 (의미론 축이 다름)

BatchNorm : 집단 계약 - 배치가 계약의 근거, 채널이 계약 단위, 분산학습에서 Sync / 통신이 계약의 일부가 됨
LayerNorm : 개인 계약 - 샘플이 계약 단위, feature 가 정규화 대상

Transformer 에서 LN 이, 배치가 작아도 의미가 유지됨에

3) Canonical Form 의 의미론적 분해

(A) 샘플 기준 좌표계 생성 (Per-sample reference frame)

mu, sigma 는 각 샘플 행마다 계산되는 통계량
shapes 에서 mu, sigma : Mx1 로 명시됨

의미 : 샘플마다 자기만의 기준점과 스케일을 만든다.

(B) 에너지 제거 (Energy removal)

절대적인 크기를 제거한다는 말은 실제로
- feature 벡터의 평균 오프셋 제거
- feature 벡터의 전체 스케일(분산) 정규화
결과적으로 남는 건 feature 들 간 상대적인 비율 / 패턴

의미 : 모델이 스케일 변화에 흔들리지 않고, 패턴만 학습하게 만든다.

(C) 표현력 복원 (Affine restore)

정규화는 표현력을 뭉개므로, gamma, beat 로 표현 스케일을 되살림
단, 여기서도 중요한 의미론이 있음
- LN 은 정규화로 스케일 자유도를 뺏고,
- gamma 로 학습 가능한 스케일 자유도만 다시 준다.

의미 : 스케일은 그냥 두지 않고, 학습 가능한 스케일만 허용한다.

4) Axes(축) 의미론

M (Samples) - 계약의 단위

각 샘플이 독립적인 통계를 가진다.
LN 은 샘플마다 QA 검사 같은 느낌

N (Features) - 정규화의 대상

LN 은 feature 방향으로 reduction 이 필요하다.
즉 연산의 본질 병목은
- N 축 리덕션 ( 평균 / 분산 )
- 그리고 다시 N 축으로 elementwise transform

의미적으로 LN 은 reduce + map 의 조합이며, 구현은 이 reduce 를 얼마나 싸게 하느냐

5) Invariants (LN 의 의미론적 불변성)

INV_DISTRIBUTION_STABILITY - 통계 안정성

metric : KL divergence, threshold : 분포 오차 < 1e-5
이 invariant 는 출력 분포가 원하는 정규화 성질을 유지해야 한다느 ㄴ의미

중요한 부분

rsqrt 근사를 쓰면서, 단순이 속도가 아닌, 수치 오차가 분포 안정성을 깨지 않는 범위에서만 허용하는 최적화

INV_AFFINE_INTEGRITY - 선형 관계 보존

correlation coefficient >= threshold
이건 LN 이 학습 신호를 망치면 안 된다는 조건

해석

LN 은 스케일을 바꾸지만, feature 간 상대 구조는 최대한 보존해야 한다
상관이 유지되는 범위 내에서만 최적화 허용

'operator 의 연산 의미 분석' 카테고리의 다른 글

AdamStep Emitter 변경 문서 (0)	2026.02.27
ReLU Semantic Specification - 비선형 게이팅 / 반공간 정류 (0)	2026.02.19
BathNorm Semantic Spectification (0)	2026.02.19
AdamStep Semantic Specification - 상태 진화 기반 확률적 최적화 연산자 (0)	2026.02.19
ReLU Semantic Specification (0)	2026.02.13

뜻 지, 가르칠 훈

LayerNorm Semantic Specification

1) 한 줄 정의

2) BatchNorm 과의 결정적 차이 (의미론 축이 다름)

3) Canonical Form 의 의미론적 분해

(A) 샘플 기준 좌표계 생성 (Per-sample reference frame)

(B) 에너지 제거 (Energy removal)

(C) 표현력 복원 (Affine restore)

4) Axes(축) 의미론

M (Samples) - 계약의 단위

N (Features) - 정규화의 대상

5) Invariants (LN 의 의미론적 불변성)

INV_DISTRIBUTION_STABILITY - 통계 안정성

INV_AFFINE_INTEGRITY - 선형 관계 보존

'operator 의 연산 의미 분석' 카테고리의 다른 글

티스토리툴바

LayerNorm Semantic Specification

1) 한 줄 정의

2) BatchNorm 과의 결정적 차이 (의미론 축이 다름)

3) Canonical Form 의 의미론적 분해

(A) 샘플 기준 좌표계 생성 (Per-sample reference frame)

(B) 에너지 제거 (Energy removal)

(C) 표현력 복원 (Affine restore)

4) Axes(축) 의미론

M (Samples) - 계약의 단위

N (Features) - 정규화의 대상

5) Invariants (LN 의 의미론적 불변성)

INV_DISTRIBUTION_STABILITY - 통계 안정성

INV_AFFINE_INTEGRITY - 선형 관계 보존

'operator 의 연산 의미 분석' 카테고리의 다른 글

'operator 의 연산 의미 분석' Related Articles

티스토리툴바