개념 정리

최소제곱법

명징직조지훈 2022. 10. 9. 23:53

세레스를 찾아서

1801년에 천문학자 피아치가 관측한 소행성, 얼마 후 시야에서 사라진 후 과학자들이 세레스의 궤도를 계산하여 출현 위치를 알아내고자 하였다.

세레스의 궤도 계산에서 가장 큰 문제는 선행 연구가 부족했다는 것, 그 당시 행성의 궤도는 원이며 혜성의 궤도는 포물선이라는 가설이 주목 받고 있었다. 이런 경우 궤도의 이심률(원과 차이나는 정도)을 알 수 있었는데 원의 이심률을 0, 포물선은 1, 타원의 경우 0과 1사이의 이심률을 가지고 세레스의 궤도가 그럴 것이라는 가정으로부터 시작했다.

세레스(Ceres) 발견 당시에는 행성으로 간주, 현재는 왜행성(Dwarf Planet)으로 분류된다. 이심률이 증가하는 순서대로 늘어놓은 원뿔 곡선, 이심률이 늘어나면 곡률을 줄어든다.

최소제곱법으로 세레스를 찾은 가우스

이 시점에 가우스는 달의 운동에 관한 천문학 문제를 연구하고 있었다. 그는 궤도가 원뿔곡선이라는 가정아래 ‘최소제곱’이라는 새로운 방법을 사용하여 궤도를 결정하고자 했다.

이심률을 임의의 값으로 정하여 계산을 했던 기존 방법과는 달리, 가우스는 어떠한 가정도 없이 피아치가 남긴 22개의 관찰 자료에만 의존했다. 그의 예측은 기존의 방식과 결과가 달랐지만, 그가 예측한 자리에서 세레스를 발견할 수 있었다.

가우스는 세우스의 궤도를 알아낸 후, 최소제곱법을 사용하여 새로운 행성이 발견되는 대로 그 궤도를 계산해 낼 수 있었다.

최소제곱법의 이해

관찰이나 실험으로 얻은 적은 수의 자료를 분석하여 그 상황을 설명하기 위해서는 자료를 잘 표현할 수 있는 방정식을 예측해야 한다. 가우스가 세레스의 위치를 알 수 있었던 것은 그가 예측한 식이 그만큼 적합했다는 것,

자료를 가장 잘 설명하는 방정식이란, 원래 자료와의 오차를 가장 적게 만드는 것이다. 왼쪽 그림의 경우 붉은 점들의 자료를 가장 잘 설명하는 식은 녹색 선일 것이다.

,

,

이는 원래 자료와의 오차를 가장 적게 만드는 선으로, 직선 방정식이 f(x) = ax + b 라면, 각 점xi의 좌표값 yi와 함수값f(xi)의 오차 y_i - f(x_i) = y_i-(ax_i+b)의 제곱의 합이 최소가 되는 경우다.

이러한 식을 최적의 최소 제곱직선이라 부르는데 E(a, b)의 최솟값은 a와 b에 의해 결정되므로 직선의 기울기 a와 절편 b의 값을 찾는 것이 열쇠가 된다.

E(a,b)가 최소값이 되려면 미적분학의 이론에 의해 편미분 값이 0이 되어야 한다.

이는 다음과 같은 연립 방정식을 만들게 된다.

위 방정식은 최소제곱 직선을 만들기 위해 중요한 역할을 하는데, 식을 a와 b에 관해 풀면 다음과 같이 된다.

a는 바로 두 점을 지나는 직선의 기울기를 의미한다.

최소제곱법의 적용

각 시간마다 무게가 변하는 물질이 존재하고 10, 20, 30, 40 시간마다 측정한 물질의 무게가 있을 때, 35시간의 물질의 무게를 알 수 있을까?

위의 식에 대입하여 값을 구할 수 있다.

직선의 방정식 f(x) = -2.1x + 89.5이다. 그러므로 35시간인 x=35일 때 물질의 무게는 16g이다.

행렬을 이용한 좀 더 일반화된 방법

간단한 행렬 이론을 통해 조금 더 일반화된 방법을 볼 수 있다. 위의 연립 방정식 *은 a와 b를 변수로 생각할 때 행렬 변환으로 나타낼 수 있다.

주어진 데이터를 행렬에 사용하여 일차식으로 표현해본다.

양변에 우변의 2*2 행렬의 역행렬을 양변에 곱하면 a,b를 구할 수 있는데 그 값은 아래와 같다.

따라서 a와 b를 다음과 같이 구할 수 있다.

결과는 평균값을 이용한 결과와 일치하는 것을 볼 수 있다.

 

나아가 가우스는 세레스의 위치를 측정한 오차가 정규 분포를 따른다고 생각하였다.