정규화 제약이 없는 모델이 보이는 형태 - 실제 세계의 비평형, 비선형 시스템과의 매칭

“정규화 제약이 없는 모델”이라는 건, 결국 데이터 분포의 불균형과 내부 스케일 불안정성을 그대로 노출한 상태에서 학습하는 시스템이야.
즉, 내부 표현이 “평형을 이루지 못한 열린계(open system)”로 작동하게 된다.

그런 모델은 크게 세 가지 특성을 보여.

🔹 1. 스케일 발산(Scale Explosion)

정규화가 없다면 각 레이어의 출력을 제한하는 장치가 없어서,
한 레이어의 작은 bias가 다음 레이어를 거치며 지수적으로 증폭된다.

xl+1=Wlxl+blx_{l+1} = W_l x_l + b_l

에서 xlx_l 의 분산이 레이어마다 달라지면,
Var[xl+1]=Var[Wlxl]\mathrm{Var}[x_{l+1}] = \mathrm{Var}[W_l x_l] 항이 층을 지날수록 폭발하거나 소멸한다.

→ 결과적으로 forward는 폭발(exploding activations),
backward는 gradient vanishing/explosion이 동반돼 학습이 멈춘다.

즉, 모델은 안정된 “통계적 온도”를 잃어버리고,
고에너지(폭주)나 저에너지(정지) 상태로 급격히 치우친다.

🔹 2. Representation Drift (표현 표류)

정규화가 없는 네트워크는 입력의 스케일이나 분포가 조금만 바뀌어도
내부 피처 공간이 완전히 달라져 버린다.

BatchNorm이 있을 때는 xlx_l 의 평균/분산이 항상 0/1 근처로 유지되어
parameter update가 일정한 scale에서 이루어지지만,
정규화가 없으면 같은 learning rate에서도 gradient의 “유효 크기”가 계속 달라진다.

→ 결과적으로 weight가 “제각각의 좌표계”에서 학습되므로,
네트워크 전체가 공통의 표현 공간을 잃어버린다.

🔹 3. 비정상(Non-stationary) 학습 동역학

정규화가 없는 모델은 학습 중에 분포 자체가 움직인다.
즉, 네트워크는 고정된 목표 함수를 최소화하는 게 아니라,
계속 자기 자신이 바꾸는 분포를 추적해야 하는 셈이다.

이건 물리학적으로 보면 비평형(non-equilibrium) 시스템이야 —
에너지가 일정하지 않으니 수렴 대신 진동, 발산, 카오스적 attractor로 들어가.

그래서 이런 모델은 보통:

초기에 급격히 발산하다가
weight가 어느 순간 “유효 정적 영역(dead regime)”에 갇히고
이후엔 loss가 거의 변하지 않는 plateau로 들어가 버려.

🔹 4. 거시적 관점 — 질서 없는 자기조직화

정규화 제약이 없는 상태에서도
일부 네트워크는 자발적 질서(self-organization) 를 만들어내기도 해.
대표적으로 초기 RNN이나 Hopfield network가 그래.
이들은

내부 상태가 끊임없이 진동하고,
특정 attractor(패턴 기억 상태)에 수렴하며,
전체적으로 “에너지 함수” 없이도 동적 평형을 흉내낸다.

하지만 이런 평형은 학습 과정이 아닌, 구조적으로 생긴 한정된 패턴 안정성이야 —
일반화나 깊은 계층적 표현으로 확장되긴 어렵다.

🔹 5. 요약 – 정규화 없는 모델의 형태

구분결과적 현상시스템 비유

스케일 제약 없음	Activation / Gradient 폭발·소멸	에너지 보존 안 되는 열린계
평균·분산 이동	Feature drift, 학습 불안정	비평형 진동 시스템
피처 공간 붕괴	표현 중복·퇴화	자기상관 증가, 차원 축소
자발적 안정 시도	제한적 attractor 형성	혼돈계의 국소 평형

요약하면,

정규화가 없는 모델은 자체 평형을 잃은 물리계와 같고,
학습 중에 스스로 온도·에너지를 제어하지 못해
결국 “발산하거나, 얼어붙거나, 혼돈 속에서 진동하는” 형태를 띤다.

스케일 발산은 물리계의 폭주 반응 : 제어되지 않은 양의 패드백, positive feedback loop, ( 핵분열 폭주, 기상 대류 폭발, 거품 붕괴 ) 피드백으로 자기 자신을 증폭, 무한정 커지거나 증폭함ㅁ

representation drift 은 비평형 화학, 상태계

시간에 따라 내부 상태의 변화, 한 종의 증식이 다른 종의 자원 고갈,

gradient saturation 은 신경 생물학의 피로, 감각 순응

gradient 가 0으로 포화되는 건, 신경 세포가 자극에 반응하지 않는 sensory adaptation,

normalization 은 결국 자연의 에너지 보존/ 온도 제어와 같은 역할

'명징직조' 카테고리의 다른 글

열린계라고 느낀 것 조차 일종의 닫힌계? - 차원 인지 관점에서 확장 (단순 질문 대답 복사 ) (0)	2025.11.12
고전 물리학의 시작과, 현대 AI 의 평행선? - 열린계, 닫힌계의 관점으로 ( 우리는 닫힌계의 수식으로 모델을 구성, 그 결과가 열린계의 형식처럼 보임) (0)	2025.11.12
MODEL 의 많은 부분에서 균등한 분포의 전제 - 현실 세계를 modeling 한 것이기에 당연한 것? (0)	2025.11.12
MODEL 을 거시적 관점에서 해석을 할 순 없을까... 각 단계별 해석만 하고 있는 상태 (0)	2025.11.12
양자화에 대한 오해? 단순한 성능 - 정확도 간의 trade-off 라고 보는게 맞아 (0)	2025.11.12

뜻 지, 가르칠 훈

정규화 제약이 없는 모델이 보이는 형태 - 실제 세계의 비평형, 비선형 시스템과의 매칭

🔹 1. 스케일 발산(Scale Explosion)

🔹 2. Representation Drift (표현 표류)

🔹 3. 비정상(Non-stationary) 학습 동역학

🔹 4. 거시적 관점 — 질서 없는 자기조직화

🔹 5. 요약 – 정규화 없는 모델의 형태

'명징직조' 카테고리의 다른 글

티스토리툴바

정규화 제약이 없는 모델이 보이는 형태 - 실제 세계의 비평형, 비선형 시스템과의 매칭

🔹 1. 스케일 발산(Scale Explosion)

🔹 2. Representation Drift (표현 표류)

🔹 3. 비정상(Non-stationary) 학습 동역학

🔹 4. 거시적 관점 — 질서 없는 자기조직화

🔹 5. 요약 – 정규화 없는 모델의 형태

'명징직조' 카테고리의 다른 글

'명징직조' Related Articles

티스토리툴바