선형 대수학
가장 기본적이고 중요한 다섯 가지 문제,
1. Ax = b 를 풀어라
2. Ax = lambda x 를 풀어라
3. Av = sigma u 를 풀어라.
4. ||Ax||^2 / ||x||^2 을 최소화하라.
5. 행렬 A 를 분해하라
단순히 위 문제들을 계산하는 것이 아닌 문제에 함축된 수학 개념을 이해하고, 이를 데이터 분석에 실질적으로 활용할 수 있도록 한다.
방정식 Ax = b 의 해 x 가 존재한다면 그 해를 알고 싶을 것이다.
벡터 b 는 A 의 열공간 column space 의 원소인가?
고유 방정식 A x = lambda x 는 Ax = b 와는 상당히 다른 형태이다. 여기에는 벡터 b 가 없다. 즉, 행렬 A 만으로 이 방정식의 해를 계산해야 한다. 다시 말해 Ax 와 x 가 같은 방향인 경우를 찾는 것이다.
그 방향을 찾아 행렬 A 와 관련된 복잡한 문제를 단순하게 변형하고자 한다. 예를 들어 벡터 A^2 x 는 lambda^2 x 로 변형되고, 미분방정식에서 생성되는 행렬 e^At 는 x 에 단순히 e^lambda t 를 곱하는 문제로 변형된다. 모든 x 와 lambda 를 안다면 어떤 선형 문제도 풀 수 있다.
방정식 Av = sigma u 는 고윳값 문제와 비슷해 보이지만 다른 문제이다. 두 벡터 v, u 그리고 행렬 A 가 있다고 하자. A 는 대부분 정사각행렬이 아니며 데이터로 가득 차 있다. 이 데이터 행렬의 어떤 부분이 중요할까?
특잇값 분해 Singular Value Decomposition 는 가장 간단한 표현 방법인 sigma u v 를 찾는다. 이 각각은 모두 행렬이다.
이 모든 행렬은 직교벡터로 만들어진다.
그러므로 데이터 과학은 SVD 에서 선형대수학과 연결된다. sigma u v 를 찾는 것은 주성분 분석 Principal Component Analysis 의 목적이다.
최소화와 행렬 분해는 기본적인 응용 문제이다. 이 두 문제는 특이벡터 u, v 와 밀접한 관계가 있다. 최소제곱에서 최적의 x^ 를 구하고 PCA 에서 주성분인 v_1 을 계산하는 것은 데이터 적합의 대수적 문제라고 할 수 있다.