머신러닝 디자인 패터

4.2 디자인 패턴 11: 유용한 과대적합

명징직조지훈 2023. 6. 30. 23:54

의도적으로 학습 데이터셋이 과대적합되기를 원하기 때문에, 일반화 메커니즘을 사용하지 않는 디자인 패턴

 

4.2.1 문제

모델이 학습 데이터에 과대적합되는 경우 일반화 능력이 저하되고 예측도 저하

 

그러나 기후 과학, 계산 생물학, 계산 금융의 물리적 또는 동적 시스템을 시뮬레이션 하는 상황을 생각, 이러한 시스템에 있는 관측지의 시간 종속성은 수학적 함수 또는 편미분방정식 세트로 설명할 수 있다.

이러한 많은 시스템을 제어하는 방정식을 공식적으로 표현할 수느 ㄴ있지만. 닫힌 형태 해가 없다. 대신 해를 근사하기 위해 고전적인 수치해석법이 개발되었지만 실용화하기에는 너무 느리다.

 

물리적 환경에서 수집된 관측치는 반복적인 수치 계산을 통해 시스템의 정확한 상태를 계산하는 물리 기반 모델의 입력으로 쓰인다. 모든 관측치에 유한한 가능성이 있다고 가정,

그러면 머신러닝 시스템을 위해 전체 입력 공간으로구성된 학습 데이터셋을 만들 수 있으며, 실제 모델을 사용하여 라벨을 계산할 수 있게 된다.

ML 모델은 정확하게 계산된, 중첩되지 않는 입출력 간의 테이블을 학습해야 한다. 이러한 데이터셋을 학습, 평가 데이터셋으로 분할하는 것은 비생산적, 

 

4.2.2 솔루션

가능한 모든 입력이 테이블로 작성되었기 때문에 일반화해야 하는 데이터가 없다. 이러하 ㄴ물리 모델 또는 동적 시스템을 학습하기 위한 머신러닝 모델을 구축하 ㄹ대는 과대적합이 발생할 수 없다. 

 

4.2.3 작동 원리

가능한 모든 입력을 표로 만들 수 있고 가능한 모든 입력 포인트를 학습시켰다면 과대적합된 모델은 진짜 모델과 동일하 ㄴ예측을 한다.