본문 바로가기

개념 정리

계층 클러스터링

계층 클러스털이 hierarchical clustering 은 단계별로 데이터를 분할하여 트리 형태의 클러스터링 구조를 혀성한다. 데이터 세트의 분할은 상향식, 하양식의 분해 전략을 사용할 수 있다.

AGNES 는 상향식 클러스터링 전략을 이용하는 계층 클러스터링 알고리즘의 하나, 

데이터 세트의 각 샘플을 하나의 초기 클러스터라고 가정, 단계마다 거리가 가장 가까운 두 개의 클러스터를 병합한다. 사전에 정해둔 클러스터 개우에 달할 때까지 계속해서 반복된다. 관건은 어떻게 클러스터 간의 거리를 계산하느냐에 달렸다. 

각 클러스터는 하나의 샘플 집합이므로 집합과 관련된 어떠한 거리를 사용하면 된다. 

최소 거리 

최대 거리

평균 거리

최소 거리는 두 클러스터의 가장 가까운 샘플, 최대 거리를 가장 거리가 먼 샘플, 평균 거리는 두 클러스터의 모든 샘플에 의해 결정된다.