정보 엔트로피 Information Entropy

샘플 집합의 순도를 측정하는 데 가장 자주 사용되는 지표,

샘플 집합 D 의 k 번째 클래스 샘플이 차지하는 비율이 p_k 라고 한다면 D 의 정보 엔트로피는 다음과 같이 정의한다.

Ent(D) 의 값이 작을수록 D 의 순도는 높아진다.

이산 속성을 가진 속성 a 가 취할 수 있는 값이 V 개 있다고 가정,

a 를 사용하여 샘플 집합 D 에 대해 분할을 진행한다면 V 개의 분기 노드를 가지게 될 것이고, v 번째 분기 노드는 D 의 속성 a 에서 a^v 값을 가지는 샘플 모두를 포함하고 D^v 로 표기한다.

위 식을 통해 D^v 의 정보 엔트로피를 계산해 낼 수 있다. 그리고 서로 다른 분기 노드가 포함하는 샘플 수를 고려하여 가중치 |D^v| / |D| 를 더해준다.

즉, 샘플 수가 많은 분기 노드의 영향력이 더 커지고, 따라서 샘플 집합 D에 대해 속성 a 가 분할을 통해 얻은 정보 이득을 계산해 낼 수 있다.

일반적으로 정보 이득이 크면 속성 a 를 사용하여 분할할 때 얻을 수 있는 순도 상승도가 높아지는 것을 의미한다.

따라서 정보 이득을 기반으로 의사결정 트리의 분할 속성을 선택할 수 있다.

뜻 지, 가르칠 훈