개념 정리

클러스터링

명징직조지훈 2023. 3. 29. 22:31

클러스터링 학습 문제

비지도 학습에서 훈련 샘플의 레이블 정보는 알 수가 없다. 목표는 레이블이 없는 훈련 샘플의 학습을 통해 데이터에 내재된 특성과 규칙을 찾아 다음 단계의 데이터 분석을 위한 기초를 다지는 것이다. 이러한 학습에서 가장 광범위하고 많은 연구가 진행되는 것이 클러스터링이다.

클러스터링은 데이터 세트의 샘플들을 교차하지 않는 여러 개의 부분집합으로 분할하고, 이 부분집합들을 하나의 클러스터라고 칭한다. 클러스터링을 통해 자동으로 클러스터가 구성되고, 클러스터가 대응하는 개념은 사용자가 명명하고 작성해야 한다.

데이터 세트는 m 개의 레이블이 없는 샘플을 가졌고, 각 샘플은 n 차원 특성 벡터라고 가정한다. 

클러스터링 알고맂므은 데이터 세트 D 를 k 개의 서로 교차하지 않는 클러스터로 분할한다. 

클러스터링의 결과는 클러스터 레이블 벡터를 포함한 m 개 원소로 표현된다. 

 

클러스터링은 하나의 단독 프로세스로부터 데이터 내의 분포구조를 찾는 데 사용되기도 하고, 하나의 사전 프로세스로서 다른 학습 문제 해결의 전 단계에서만 사용되기도 한다. 

 

많은 유형의 클러스털이 알고리즘이 존재