계층 클러스털이 hierarchical clustering 은 단계별로 데이터를 분할하여 트리 형태의 클러스터링 구조를 혀성한다. 데이터 세트의 분할은 상향식, 하양식의 분해 전략을 사용할 수 있다.
AGNES 는 상향식 클러스터링 전략을 이용하는 계층 클러스터링 알고리즘의 하나,
데이터 세트의 각 샘플을 하나의 초기 클러스터라고 가정, 단계마다 거리가 가장 가까운 두 개의 클러스터를 병합한다. 사전에 정해둔 클러스터 개우에 달할 때까지 계속해서 반복된다. 관건은 어떻게 클러스터 간의 거리를 계산하느냐에 달렸다.
각 클러스터는 하나의 샘플 집합이므로 집합과 관련된 어떠한 거리를 사용하면 된다.
최소 거리
최대 거리
평균 거리
최소 거리는 두 클러스터의 가장 가까운 샘플, 최대 거리를 가장 거리가 먼 샘플, 평균 거리는 두 클러스터의 모든 샘플에 의해 결정된다.
'개념 정리' 카테고리의 다른 글
차원 축소와 척도 학습 - 임베딩 (0) | 2023.04.01 |
---|---|
차원 축소와 척도 학습 - k-최근접 이웃 기법 (0) | 2023.04.01 |
밀도 클러스터링 (0) | 2023.03.31 |
프로토타입 클러스터링 (0) | 2023.03.31 |
클러스터링, 거리 계산법 (0) | 2023.03.30 |