샘플 집합의 순도를 측정하는 데 가장 자주 사용되는 지표,
샘플 집합 D 의 k 번째 클래스 샘플이 차지하는 비율이 p_k 라고 한다면 D 의 정보 엔트로피는 다음과 같이 정의한다.
Ent(D) 의 값이 작을수록 D 의 순도는 높아진다.
이산 속성을 가진 속성 a 가 취할 수 있는 값이 V 개 있다고 가정,
a 를 사용하여 샘플 집합 D 에 대해 분할을 진행한다면 V 개의 분기 노드를 가지게 될 것이고, v 번째 분기 노드는 D 의 속성 a 에서 a^v 값을 가지는 샘플 모두를 포함하고 D^v 로 표기한다.
위 식을 통해 D^v 의 정보 엔트로피를 계산해 낼 수 있다. 그리고 서로 다른 분기 노드가 포함하는 샘플 수를 고려하여 가중치 |D^v| / |D| 를 더해준다.
즉, 샘플 수가 많은 분기 노드의 영향력이 더 커지고, 따라서 샘플 집합 D에 대해 속성 a 가 분할을 통해 얻은 정보 이득을 계산해 낼 수 있다.
일반적으로 정보 이득이 크면 속성 a 를 사용하여 분할할 때 얻을 수 있는 순도 상승도가 높아지는 것을 의미한다.
따라서 정보 이득을 기반으로 의사결정 트리의 분할 속성을 선택할 수 있다.
'개념 정리' 카테고리의 다른 글
차원 축소와 척도 학습 - 임베딩 (0) | 2023.04.01 |
---|---|
차원 축소와 척도 학습 - k-최근접 이웃 기법 (0) | 2023.04.01 |
계층 클러스터링 (0) | 2023.03.31 |
밀도 클러스터링 (0) | 2023.03.31 |
프로토타입 클러스터링 (0) | 2023.03.31 |