“정규화 제약이 없는 모델”이라는 건, 결국 데이터 분포의 불균형과 내부 스케일 불안정성을 그대로 노출한 상태에서 학습하는 시스템이야.
즉, 내부 표현이 “평형을 이루지 못한 열린계(open system)”로 작동하게 된다.
그런 모델은 크게 세 가지 특성을 보여.
🔹 1. 스케일 발산(Scale Explosion)
정규화가 없다면 각 레이어의 출력을 제한하는 장치가 없어서,
한 레이어의 작은 bias가 다음 레이어를 거치며 지수적으로 증폭된다.
xl+1=Wlxl+blx_{l+1} = W_l x_l + b_l
에서 xlx_l 의 분산이 레이어마다 달라지면,
Var[xl+1]=Var[Wlxl]\mathrm{Var}[x_{l+1}] = \mathrm{Var}[W_l x_l] 항이 층을 지날수록 폭발하거나 소멸한다.
→ 결과적으로 forward는 폭발(exploding activations),
backward는 gradient vanishing/explosion이 동반돼 학습이 멈춘다.
즉, 모델은 안정된 “통계적 온도”를 잃어버리고,
고에너지(폭주)나 저에너지(정지) 상태로 급격히 치우친다.
🔹 2. Representation Drift (표현 표류)
정규화가 없는 네트워크는 입력의 스케일이나 분포가 조금만 바뀌어도
내부 피처 공간이 완전히 달라져 버린다.
- BatchNorm이 있을 때는 xlx_l 의 평균/분산이 항상 0/1 근처로 유지되어
parameter update가 일정한 scale에서 이루어지지만, - 정규화가 없으면 같은 learning rate에서도 gradient의 “유효 크기”가 계속 달라진다.
→ 결과적으로 weight가 “제각각의 좌표계”에서 학습되므로,
네트워크 전체가 공통의 표현 공간을 잃어버린다.
🔹 3. 비정상(Non-stationary) 학습 동역학
정규화가 없는 모델은 학습 중에 분포 자체가 움직인다.
즉, 네트워크는 고정된 목표 함수를 최소화하는 게 아니라,
계속 자기 자신이 바꾸는 분포를 추적해야 하는 셈이다.
이건 물리학적으로 보면 비평형(non-equilibrium) 시스템이야 —
에너지가 일정하지 않으니 수렴 대신 진동, 발산, 카오스적 attractor로 들어가.
그래서 이런 모델은 보통:
- 초기에 급격히 발산하다가
- weight가 어느 순간 “유효 정적 영역(dead regime)”에 갇히고
- 이후엔 loss가 거의 변하지 않는 plateau로 들어가 버려.
🔹 4. 거시적 관점 — 질서 없는 자기조직화
정규화 제약이 없는 상태에서도
일부 네트워크는 자발적 질서(self-organization) 를 만들어내기도 해.
대표적으로 초기 RNN이나 Hopfield network가 그래.
이들은
- 내부 상태가 끊임없이 진동하고,
- 특정 attractor(패턴 기억 상태)에 수렴하며,
- 전체적으로 “에너지 함수” 없이도 동적 평형을 흉내낸다.
하지만 이런 평형은 학습 과정이 아닌, 구조적으로 생긴 한정된 패턴 안정성이야 —
일반화나 깊은 계층적 표현으로 확장되긴 어렵다.
🔹 5. 요약 – 정규화 없는 모델의 형태
| 스케일 제약 없음 | Activation / Gradient 폭발·소멸 | 에너지 보존 안 되는 열린계 |
| 평균·분산 이동 | Feature drift, 학습 불안정 | 비평형 진동 시스템 |
| 피처 공간 붕괴 | 표현 중복·퇴화 | 자기상관 증가, 차원 축소 |
| 자발적 안정 시도 | 제한적 attractor 형성 | 혼돈계의 국소 평형 |
요약하면,
정규화가 없는 모델은 자체 평형을 잃은 물리계와 같고,
학습 중에 스스로 온도·에너지를 제어하지 못해
결국 “발산하거나, 얼어붙거나, 혼돈 속에서 진동하는” 형태를 띤다.
스케일 발산은 물리계의 폭주 반응 : 제어되지 않은 양의 패드백, positive feedback loop, ( 핵분열 폭주, 기상 대류 폭발, 거품 붕괴 ) 피드백으로 자기 자신을 증폭, 무한정 커지거나 증폭함ㅁ
representation drift 은 비평형 화학, 상태계
시간에 따라 내부 상태의 변화, 한 종의 증식이 다른 종의 자원 고갈,
gradient saturation 은 신경 생물학의 피로, 감각 순응
gradient 가 0으로 포화되는 건, 신경 세포가 자극에 반응하지 않는 sensory adaptation,
normalization 은 결국 자연의 에너지 보존/ 온도 제어와 같은 역할
'명징직조' 카테고리의 다른 글
| 열린계라고 느낀 것 조차 일종의 닫힌계? - 차원 인지 관점에서 확장 (단순 질문 대답 복사 ) (0) | 2025.11.12 |
|---|---|
| 고전 물리학의 시작과, 현대 AI 의 평행선? - 열린계, 닫힌계의 관점으로 ( 우리는 닫힌계의 수식으로 모델을 구성, 그 결과가 열린계의 형식처럼 보임) (0) | 2025.11.12 |
| MODEL 의 많은 부분에서 균등한 분포의 전제 - 현실 세계를 modeling 한 것이기에 당연한 것? (0) | 2025.11.12 |
| MODEL 을 거시적 관점에서 해석을 할 순 없을까... 각 단계별 해석만 하고 있는 상태 (0) | 2025.11.12 |
| 양자화에 대한 오해? 단순한 성능 - 정확도 간의 trade-off 라고 보는게 맞아 (0) | 2025.11.12 |