여러 머신러닝 모델을 결합하고 그 결과를 집계해서 예측하는 머신러닝 기술
3.3.1 문제
학습 데이터 셋의 오류가 0에 가까운 모델을 학습했다고 가정, 그런데 평가 데이터셋에서 성능을 평가했을 때 모델의 예측이 모두 잘못되었다면 무엇이 문제?
먼저 머신러닝의 오류의 종류를 세 가지로 분류
줄일 수 없는 오류 irreducible error 는 데이터셋의 노이즈나 문제의 프레임 같은 모델의 내재적 오류, 측정 오류나 혼재 요인과 같은 잘못된 학습 예제로 인해 발생한다.
편향과 분산은 줄일 수 있는 오류 reducible error 라고 하며, 여기에서 모델의 성능 개선 가능,
편향은 모델이 특징과 라벨 간의 관계에 대해 충분히 학습할 수 없게 만드는 요소고,
분산은 보이지 않는 새로운 예에 대해 일반화할 수 없게 만드는 요소다.
편향이 높은 모델은 관계를 과도하게 단순화했기에 과속 적합
분산이 높은 모델은 학습 데이터에 대해 많은 학습으로 과대 적합\
3.3.2 솔루션
앙상블 방법은 편향과 분산을 줄이고 모델 성능을 개선하기 위한 기술
배깅
배깅, 부트스랩 은 일종의 병렬 앙상블 방법 분산을 해결하는 데 사용된다. k 개의 데이터셋은 원래 학습 데이터셋을 무작위로 샘플링하는 방법으로 만들어진다.
즉, k 개의 데이터셋 각가에는 일부 학습 예제가 누락되어 있을 가능성과 같은 데이터셋에 같은 학습 예제가 중복될 가능성
회귀의 경우 모델들의 평균을, 분류의 경우 투표 방법
배깅에서의 모델 평균화는 모델 분산을 줄이기 위해 신뢰할 수 있는 방법,
부스팅
부스팅도 앙상블 기술의 일종, 개별 구성원 모델보다 더 많은 용량을 가진 앙상블 모델을 구성한다.
그래서 부스팅은 분산보다 편향을 줄이는 데 효과적이다.
이전의 모델이 잘못 학습한 데이터를 후속 모델이 제대로 학습할 수 있도록 일련의 모델 앙상블을 반복적으로 구축하는 것
부스팅은 강한 학습기를 만들기 위해 가중 평균을 사용하는 일련의 약한 학습기를 반복적으로 개선한다.
스태킹
예측을 위해 여러 모델의 출력을 결합하는 앙상블 방법
일반적으로 모델 유형이 다른 초기 모델은 전체 학습 데이터셋을 학습한다. 그런 다음 초기 모델의 출력을 특징으로 사용하여 2차 메타 모델을 학습시킨다.
3.3.3 작동 원리
배깅과 같은 모델 평균화 방법은 개별 모델이 모두 서로 다른 오류를 가지기 때무네 작동한다.
부스팅은 각 반복 단계에서 잔차에 따라 모델에 패널티를 가하는 방식으로 작동,
3.3.4 트레이드오프와 대안
늘어난 학습 시간과 설계 시간
드롭아웃을 ㅗㅌㅇ한 배깅
모델 해석 가능성의 감소
'머신러닝 디자인 패터' 카테고리의 다른 글
4.2 디자인 패턴 11: 유용한 과대적합 (0) | 2023.06.30 |
---|---|
4. 모델 학습 디자인 패턴 (0) | 2023.06.30 |
3.2 디자인 패턴 6 : 멀티 라벨 (0) | 2023.06.30 |
3.1 디자인 패턴 5 : 리프레이밍 (0) | 2023.06.30 |
2.3 디자인 패턴 2: 임베딩 (0) | 2023.06.30 |