본문 바로가기

개념 정리

정보 이론

정보량의 측정 단위는 확률 분포 p(x) 에 종속적이다. p(x) 에 대해 단조 함수인 정보량을 표현하는 함수 h(x) 에 대해 알아본다.

서로 독립인 사건 x, y 에 대해 x,y 가 함께 일어났을 때 얻는 정보량은 각자의 사건이 따로 일어났을 때 얻는 정보량의 합이 될 것이다. 따라서 h(x,y) = h(x) + h(y) 가 된다. 두 개의 독립인 사건들은 p(x,y) = p(x)p(y) 다. 이 관계로부터 h(x) 는 p(x) 의 로그에 해당한다는 것을 보일 수 있다.

음의 부호는 정보량의 음의 값을 가지지 않도록 하기 위해 붙여진다. 사건 x 의 확률이 낮을수록 그로부터 얻을 수 있는 정보량은 크다는 것을 확인할 수 있다.

로그의 밑은 임의로 정할 수 있다. 2를 사용할 경우 h(x) 의 단위는 비트가 된다.

어떤 확률 변수의 값을 수신자에게 전송하고자 하는 상황을 가정, 전송에 필요한 정보량의 평균치는 p(x) 에 대해 기댓값을 구함으로써 알아낼 수 있다.

이 값이 바로 확률 변수 x 의 엔트로피다. 

비균일 분포의 엔트로피가 균일 분포의 엔트로피보다 낮다. 

정보 전달에 있어서 확률이 높은 사건에 대해서는 짧은 코드를, 낮은 사건에 대해서는 긴 코드를 사용함으로써 평균적으로는 코드 길이가 짧아지는 것을 기대할 수 있다. 

이는 해당 확률 변수의 엔트로피와 같다. 엔트로피와 가장 짧은 코드 길이 사이의 관계는 일반적이다. 엔트로피는 확률 변수의 상태를 전송하기 위해 필요한 비트 숫자의 하한선이다.

통계 역학의 무질서를 측정하는 단위로써 엔트로피는 다음과 같이 이해할 수 있다. 

N 개의 동일한 물체가 몇 개의 통 안에 담겨 있다고 가정, 이때 i 번째 통 안에 n_i 개의 물체가 담기도록 할 것이다. 물체를 통 안에 담는 방법의 가짓수에 대해 고려, 첫 번째 물체에는 N 가지의 방법이, 두 번째 물체를 선택하는 데는 N-1 가지의 방법이 있을 것이다. 

N 개의 물체를 통에 나누어 담는 데는 총 N! 개의 방법이 있다는 것을 알 수 있다. i 번째 통에는 물체를 정렬하기 위한 n_i! 가지 방법이 있을 것이고, 이에 따라 N 개의 물체를 통에 넣는 가짓수는 다음과 같이 될 것이다.

위 식을 다중도 multiplicity 라 한다. 엔트로피는 다중도의 로그를 취해서 적절한 상수로 나눈것이다.

비율 n_i/N 를 그대로 유지시킨 상태에서 N → INF 를 취하여 본다. 다음 식의 스털린 근사식을 적용해본다.

그러면 다음을 얻게 된다.

물체가 i 번째 통에 속하게 될 확률이다. 물리학 용어로 통 안의 물체들의 순서를 미시 상태 microstate 라 하며, n_i/N 으로 표현되는 통 각각이 가지고 있는 물체의 숫자 비율을 일컬어 거시 상태 macrostate 라 한다. 

다중도 W 를 거시 상태의 가중치라 일컫기도 한다.

각각의 통을 확률 변수 X 의 상태 x_i 라고 해석할 수 있다. 여기서 p(X=x_i)=p_i 다. 이 경우 확률 변수 X 의 엔트로피는 다음과 같다.

그림에서 볼 수 있는 것처럼 분포 p(x_i) 가 몇몇 값에 뾰족하게 집중되어 있는 경우에는 상대적으로 낮은 엔트로피를 가지는 반면, 더 많은 값들 사이에 퍼져 있을 때는 높은 엔트로피를 가지게 된다.

0 <= p_i <= 1 이기 때문에 엔트로피는 0이거나 양수다. 엔트로피가 0인 경우는 p_i 중 하나가 1이고 나머지 p_j!=p_i = 0 일 때다. 

엔트로피가 최대가 되는 경우는 라그랑주 승수법을 활용하여 H 의 최댓값을 찾아냄으로써 알아낼 수 있다. H 에 확률의 정규화 제약 조건을 포함시키면 다음 식이 된다.

위 식이 최대화되는 경우는 모든 p(x_i) 값이 같은 경우라는 것을 알 수 있다. x_i 의 상태의 가짓수가 M 이라면 이 경우 p(x_i) = 1/M 이 된다. 따라서 해당 엔트로피 값은 H = ln M 이다. 

이 결과는 옌센의 부등식으로부터도 유도가 가능하다. 엔트로피의 이차 미분을 통해 이 임계점이 실제로도 최대치라는 것을 확인할 수 있다.

여기서 I_ij 는 항등 행렬의 원소다.

다음으로는 엔트로피의 정의에 연속 변수 x 에 대한 분포 p(x) 를 포함시키는 과정을 살펴보도록 한다. 

먼저, 첫 번째로 x 를 너비 △ 의 여러 구간으로 나눈다. p(x) 가 연속적이라고 가정할 경우, 평균값의 정리에 따라 각각의 구간에는 다음을 만족시키는 x_i 값이 존재해야 한다.

이제 모든 x 값에 대해서 해당 값이 i 번째 칸에 속할 경우 값 x_i 를 할당해본다. 이 과정을 통해 연속적인 변수 x 를 정량화할 수 있다. 이 경우 x_i 를 관측하게 될 확률은 p(x_i)△ 가 된다. 이를 종합해서 이산 분포를 만들 수 있다. 이 경우 해당 엔트로피는 다음 형태를 띤다.

위의 식의 오른쪽 변 두 번째 항을 제외하고 △→0 을 고려해본다. 이 경우 오른쪽 변의 첫 번재 항은 p(x) ln p(x) 의 적분값에 가까워질 것이다.

위 식의 오른쪽 변을 미분 엔트로피라 한다. 이산 엔트로피와 미분 엔트로피는 ln △ 만큼 차이가 난다는 것을 볼 수 있다. △→0 을 취할 경우 ln △ 값은 발산하게 된다. 이에 따라 연속 변수의 엔트로피를 정확하게 지정하기 위해서는 아주 많은 수의 비트가 필요함을 알 수 있다. 

여러 연속 변수들에 대해 정의된 밀도의 경우 미분 엔트로피는 다음과 같이 주어진다.

이산 분포의 경우에는 확률 분포가 변수의 가능한 상태에 대해 고르게 분포되어 있을 때 엔트로피 값이 최대가 된다는 것을 확인하였다. 

연속 변수의 경우에는 어떤지 알아본다. 최댓값을 잘 정의하게 위해서 p(x) 의 1차, 2차 모멘트 정규화 상수에 제약 조건을 두는 것이 필요하다. 

따라서 우리는 다음의 세 제약 조건하에 엔트로피의 최댓값을 구할 것이다.

라그랑주 승수법을 활용하여 제약 조건하에서 최댓값을 구할 수 있다. 다음 범함수의 최댓값을 p(x) 에 대해서 구해야 한다. 

변분법을 사용해서 범함수를 미분하고, 그 값이 0과 같다고 하면 다음을 구할 수 있다.

라그랑주 승수는 이 결과를 세 개의 제약 조건식에 다시 대입함으로써 구할 수 있다. 이에 따라 최종 결과는 다음과 같다.

결과적으로 미분 엔트로피의 값을 최대화하는 분포는 가우시안 분포라는 것을 볼 수 있다. 엔트로피의 최댓값을 구할 때 분포가 음숫값이 아니어야 한다는 제약 조건을 두지 않았었다.

하지만 결국 결과로 얻게 된 분포가 실제로 음숫값이 아니므로 그런 제약 조건은 필요치 않았다는 것을 확인할 수 있다.

가우시안 분포에 대해 엔트로피를 구하면 다음과 같다.

분포가 더 넓게 퍼져 있을수록 엔트로피가 증가한다는 것을 확인할 수 있다. 또한, 이 결과는 미분 엔트로피는 이산 엔트로피와는 다릴 음의 값도 가질 수 있다는 것을 시사한다. 

x 값과 y 값을 함께 뽑는 결합 분포 p(x,y) 에 대해 고려해본다. 만약 x 의 값이 이미 알려져 있다면, 그에 해당하는 y 값을 알기 위해 필요한 정보는 -ln p(y|x) 로 주어진다. 따라서 y 를 특정하기 위해 추가로 필요한 정보의 평균값은 다음과 같다.

이를 x 에 대한 y 의 조건부 엔트로피 conditional entropy 라 한다. 확률의 곱 법칙을 적용하면 다음을 쉽게 도출해 낼 수 있다.

여기서 H[x,y] 는 p(x,y) 에 대한 미분 엔트로피이며, H[x] 는 주변 분포 p(x) 에 대한 미분 엔트로피다. 따라서 x 와 y 를 특정짓기 위해 필요한 정보의 양은 x 만 따로 특정짓기 위해 필요한 정보의 양과, x 가 주어졌을 때 y 를 특정짓기 위해 필요한 정보의 양을 합한 것과 같다.