본문 바로가기

개념 정리

정보 엔트로피 Information Entropy

샘플 집합의 순도를 측정하는 데 가장 자주 사용되는 지표, 

샘플 집합 D 의 k 번째 클래스 샘플이 차지하는 비율이 p_k 라고 한다면 D 의 정보 엔트로피는 다음과 같이 정의한다.

Ent(D) 의 값이 작을수록 D 의 순도는 높아진다.

 

이산 속성을 가진 속성 a 가 취할 수 있는 값이 V 개 있다고 가정, 

a 를 사용하여 샘플 집합 D 에 대해 분할을 진행한다면 V 개의 분기 노드를 가지게 될 것이고, v 번째 분기 노드는 D 의 속성 a 에서 a^v 값을 가지는 샘플 모두를 포함하고 D^v 로 표기한다. 

 

위 식을 통해 D^v 의 정보 엔트로피를 계산해 낼 수 있다. 그리고 서로 다른 분기 노드가 포함하는 샘플 수를 고려하여 가중치 |D^v| / |D| 를 더해준다. 

즉, 샘플 수가 많은 분기 노드의 영향력이 더 커지고, 따라서 샘플 집합 D에 대해 속성 a 가 분할을 통해 얻은 정보 이득을 계산해 낼 수 있다.

일반적으로 정보 이득이 크면 속성 a 를 사용하여 분할할 때 얻을 수 있는 순도 상승도가 높아지는 것을 의미한다. 

따라서 정보 이득을 기반으로 의사결정 트리의 분할 속성을 선택할 수 있다. 

'개념 정리' 카테고리의 다른 글

차원 축소와 척도 학습 - 임베딩  (0) 2023.04.01
차원 축소와 척도 학습 - k-최근접 이웃 기법  (0) 2023.04.01
계층 클러스터링  (0) 2023.03.31
밀도 클러스터링  (0) 2023.03.31
프로토타입 클러스터링  (0) 2023.03.31