본문 바로가기

패턴인식과 머신러닝

1.6 정보 이론

이산 확률 변수 x를 고려, 이 변수가 특정 값을 가지고 있는 것을 확인했을 때 전해지는 정보량을 얼마일까? 

x 값을 학습하는 데 있어서 정보의 양은 놀라움의 정도라고 생각할 수 있다.

일어날 가능성이 낮은 사건이 발생했을 때 더 많은 정보를 전달받게 되는 것,

따라서 사용하게 될 정보량의 측정 단위는 확률 분포 p(x) 에 종속적이게 된다. 

p(x) 에 대해 단조 함수인 정보량을 표현하는 함수 h(x) 에 대해 관찰,

(수학에서 단조 함수(單調函數, 영어: monotonic function)는 주어진 순서를 보존하는 함수이다. 기하학적으로, 실수 단조 함수의 그래프는 왼쪽에서 오른쪽으로 줄곧 상승하거나 줄곧 하강한다. 대수학적으로, 단조 함수는 두 순서 집합 사이의 준동형이다.)

 

서로 연관되어 있지 않은 두 사건 x, y 를 고려, 두 사건이 함께 일어났을 때 얻는 정보량을 따로 일어났을 때 얻는 정보량의 합이 될 것, h(x,y) = h(x) + h(y) 가 된다. 

두 개의 연간되어 있지 않은 사건들은 통곚거으로 독립적이며, 따라서 p(x,y) = p(x)p(y) 다. 

이 관계로부터 h(x) 는 p(x) 의 로그에 해당한다.

사건 x 의 확률이 낮을수록 그로부터 얻을 수 있는 정보량은 크다. 

 

송신자가 어떤 확률 변수의 값을 수신자에게 전송하고자 하는 상황을 가정, 전송에 필요한 정보량의 평균치는 기댓값을 구함으로써 계산,

이 값이 바로 확률 변수 x 의 엔트로피다. 

 

비균일 분포의 엔트로피가 균일 분포의 엔트로피보다 낮다. 이는 엔트로피를 무질서의 척도로서 해석하는 것과 연관되어 있다. 

 

엔트로피를 확률 변수의 상태를 결정짓는 데 필요한 정보량의 평균으로 정의, 

N 개의 동일한 물체가 몇 개의 통 안에 담겨 있다고 가정, i 번째 통안에 n_i 개의 물체가 담긴다. 물체를 통 안에 담는 방법의 가짓수에 대해 고려, 

첫 번째 물체를 선택하는 데는 N 가지의 방법, 두 번째 물체는 N-1 가지 방법,...

N 개의 물체를 통에 나누어 담는 데는 총 N! 개의 방법이 있다. 이에 따라 N 개의 물체를 통에 넣는 가짓수는 다음과 같다.

위 식을 다중도라 한다. 엔트로피는 다중도의 로그를 취해서 적절한 상수로 나눈 것

 

비율 n_i / N 을 그대로 유지시킨 상태에서 N → INF 를 취해본다. 그리고 다음 식의 스털링 근사식을 적용,

다음을 얻게 된다.

 p_i 는 물체가 i 번째 통에 속하게 될 확률, 

통 안의 물체들의 순서를 미시 사애라 하며, 통 각각이 가지고 있는 물체의 숫자 비율을 거시 상태라고 한다. 

다중도 W 를 거시 상태의 가중치라 일컫기도 한다. 

 

각각의 통을 확률 변수 X 의 상태 x_i 라고 해석할 수 있다. 

여기서 p(X = x_i) = p_i 다. 이 경우 확률 변수 X 의 엔트로피는 다음과 같다.

 

분포 p(x_i) 가 몇몇 값에 집중되어 있느 ㄴ경우에는 낮은 엔트로피를 가지는 반면, 퍼져있는 경우 높은 엔트로피를 가지게 된다. 

'패턴인식과 머신러닝' 카테고리의 다른 글

2.1 이산 확률 변수  (0) 2023.06.24
2. 확률 분포  (0) 2023.06.24
1.5.5 회귀에서의 손실 함수  (0) 2023.06.23
1.5.4 추론과 결정  (0) 2023.06.23
1.5.3 거부 옵션  (0) 2023.06.23