본문 바로가기

선형대수학

1.9.5 주성분 분석

SVD 를 사용, 행렬 A 는 데이터로 채워져 있다. n 개의 표뵨, 각 표본에는 m 개의 변수가 있다. 

A 의 각 행을 따라 평균을 구한다. 중심화된 행렬 A 의 각 행의 평균은 0이다. 따라서 평균열은 영벡터이다.

종종 이 n 개의 점은 하나의 직선이나 평면, R^m 의 차원 부분 공간에 가깝게 모여있다.

선형대수학은 어떻게 (0,0) 을 지나는 가장 가까운 직선을 찾을까? 이는 A 의 첫 번째 특이벡터 u_1 의 방향이다. 이것이 PCA 의 핵심이다.