개념 정리/순차 데이터, 마르코프 모델

순차 데이터, 마르코프 모델

명징직조지훈 2022. 12. 4. 14:05

데이터들을 독립적이고 동일하게 분포 independent and identically distributed 된 것으로 가정했었음. 이 덕분에 가능도 함수를 각 데이터 포인트에서 계산된 확률 분포들을 곱한 것으로 표현할 수 있었다.

하지만 많은 실제 사례의 경우 iid 가정을 올바르지 않다. 특히 이 가정이 올바르지 않은 데이터 집합들 중 순차 데이터가 있다.이러한 데이터 집합은 시계열 데이터를 측정할 때 종종 발생한다. 

순차 데이터는 시계열 데이터의 맥락 외에서도 발생할 수 있다. 

정류적 순차 분포와 비정류적 순차 분포를 구별할 수 있다.

  • 정류적인 경우 데이터가 시간이 지남에 변화하지만, 그 데이터가 생성되는 원 분포는 동일하게 유지된다.
  • 비정류적인 경우 생성 분포 자체가 시간이 지남에 따라서 변화한다. 

정류적인 경우에 대해서만 다뤄본다.

많은 적용 사례에서 이전의 관측값들이 주어진 상황하에서 시계열의 다음 값을 예측하고자 한다. 직관적으로 미랫값을 예측하는 데 있어서 더 최근의 관측값이 더 예전의 관측값에 비해 더 많은 정보를 포함하고 있을 것이라고 추측할 수 있다. 또한, 모든 이전 관측값에 대한 미래 관측값들의 종속성을 고려하는 것은 비현실적일 것이다. 왜냐하면 관측값의 숫자가 증가함에 따라서 이러한 모델의 복잡도는 제한 없이 증가하게 될 것이기 때문이다.

이러한 직관을 바탕으로 마르코프 모델 Markov model 을 고려할 수 있다. 마르코프 모델에서는 미래에 대한 예측값들이 가장 최근의 관측값을 제외한 나머지 관측값들에 대해서는 독립적이라고 가정한다.

이러한 모델을 다루기 쉽기는 하지만, 심각한 한계점을 가지고 있다. 잠재 변수를 도입함으로써 이 모델을 다루기 쉬운 점을 유지하면서도 더 일반적인 모델을 얻을 수 있다. 이것이 바로 상태 공간 모델 state space model 이다.

더 단순한 성분들로부터 복잡한 모델을 구성할 수 있으며, 확률적 그래프 모델을 이용해서 그 성질을 확인할 수 있다. 상태 공간 모델의 가장 중요한 두 예시에 집중, 

  • 잠재 변수들이 이산인 은닉 마르코프 모델 hidden Markov model 
  • 잠재 변수들이 가우시안인 선형 동적 시스템 linear dynamical system, LDS 

두 모델 다 트리 구조의 방향성 그래프로 표현 가능하며, 합/곱 알고리즘을 이용해서 추론을 효과적으로 시행할 수 있다.