본문 바로가기

패턴인식과 머신러닝

(37)

3. 선형 회귀 모델 회귀 모델의 목표는 D 차원 벡터 x 들이 입력 변수로 주어졌을 때, 그에 해당하는 연속 타깃 변수, t 값을 예측하는 것이다. 선형 회귀 모델은 조절 가능한 매개변수를 바탕으로 한 선형 함수를 사용하는 모델이다. 가장 단순한 형태의 선형 회귀 모델은 입력 변수들에 대한 선형 함수다. 하지만 입력 변수들에 대한 비선형 함수들의 집합을 선형적으로 결합하면 더 유용한 함수를 얻을 수 있다. 이러한 함수들을 기저 함수 basis function 라 한다. 이러한 모델들은 입력 변수들에 대해서는 비선형적이지만 매개변수에 대해서는 선형 함수이기 때문에 쉽게 분석할 수 있다는 성질을 가지고 있다. N 개의 관측값과 이에 해당하느 ㄴ표적값이 훈련 집합으로 주어졌을 때 회귀 모델의 목표는 새 변수 x 의 표적값 t 를..

2.2 다항 변수 이산 확률 변수는 두 가지 가능한 값들 중 하나를 취하는 수량을 설명하는 데 사용될 수 있다. 하지만 많은 경우에 서로 다른 K 개의 값들 중 하나를 취할 수 있는 이산 변수를 활용해야 한다. 원 핫 인코딩을 사용하는 것이 각종 적용에 있어 가장 편리하다. 각각의 변수가 K 차원의 벡터 x 로 나타내지며, 값들 중 하나는 1, 나머지 값들은 0 으로 설정된다. 이러한 벡터들은 SIGMA = 1 이라는 성질을 만족하낟. 만약 x_k = 1 이 될 확률을 mu_k 라고 한다면, x 의 분포는 다음과 같이 주어진다. p( x | mu ) = PI u_k^(x_k) 위 식의 분포는 베르누이 분포를 결괏값이 두 가지 이상인 경우로 일반화한 것이라고 볼 수 있다.

2.1 이산 확률 변수 하나의 이진 확률 변수 x ∈ {0, 1} 을 고려, 만약 두 변수의 확률이 동일하지 않다면, p(x = 1 | mu) = mu, p(x = 0 | mu) = 1 - mu 가 된다. 따라서 x 에 대한 확률 분포를 다음의 형태로 적을 수 있다. Bern(x | mu) = mu^x (1 - mu)^(1 - x) 이를 베르누이 분포라고 한다. 베르누이 분포는 정규화되어 있으며, 그 평균과 분산이 다음과 같이 주어진다. E[x] = mu, var[x] = mu(1 - mu) x 의 관측값 데이터 집합 D 가 주어졌다고 하자. 관측값들이 p(x|mu) 에서 독립적으로 추출되었다는 가정하에 mu 의 함수로써 가능도 함수를 구성할 수 있다. p(D | mu) = PI p(x_n | mu) = PI mu^x_n(1 ..

2. 확률 분포 확률 분포들은 그 자체뿐만 아니라 더 복잡한 모델을 만드는 데 있어서도 중요한 역할을 차지한다. 분포의 역할들 중 하나는 한정된 수의 관칠 집합이 주어졌을 때 확률 변수 x 의 확률 분포 p(x) 를 모델링하는 것이다. 이를 밀도 추정 density estimation 문제라고 한다. 데이터 포인트들은 독립적이며, 동일하게 분포되어 있다고 가정한다. 이항 분포, 다항 분포, 가우시안 분포들은 매개변수적 parametric 분포의 예이다. 이는 적은 수의 조절 가능한 매개뱐수에 의해 결정되기 때문이다. 이런 예시로 가우시안 분포의 평균과 분산이 있다. 이러한 모델을 밀도 추정 문제에 적용하기 위해서는 관찰된 데이터 집합을 바탕으로 적절한 매개변수 값을 구하는 과정이 필요하다. 빈도적 관점에서는 어떤 특정 ..

1.5 결정 이론 Decision theory 패턴 인식 문제를 풀 때는 불확실성이 존재하는 상황에서 의사 결정을 내려야 하는 경우가 많아 이런 상황에서 결정 이론과 확률론을 함께 사용하여 최적의 의사 결정을 내릴 수 있다. 입력 벡터 x 와 타깃 변수 벡터 t 가 존재하는 상황에서 새로운 입력 벡터 x 가 주어졌을 때 해당 타깃 변수 벡터 t 를 예측하는 문제에 대해 생각, 결합 확률 분포 p(x, t) 는 이 변수들의 전체 불확실성을 요약해서 나타내 줄 것이다. 주어진 훈련 집합 데이터에서 p(x, t) 를 찾아내는 것은 추론 inference 문제의 대표적인 예시다. t 가 어떤 값을 가질 것 같은지를 바탕으로 특정 행동을 취해야 할 수 있다. 이를 위한 이론적 토대가 바로 결정 이론 일반적인 추론 문제는 결합 확률 분포 p(x, C_k) 또는..

3. 문제 표현 디자인 패턴 머신러닝 문제에 따라 모델 아키텍처가 어떻게 달라지는지 분석 입력과 출력의 유형은 모델 아키텍처에 영향을 미치는 핵심 요소, 지도 학습 문제의 출력은 분류, 회귀 문제에 따라 달라질 수 있다. 특정 유형의 입력 데이터에 최적화된 특별한 신경망 계층도 있다. 리프레이밍 reframing 디자인 패턴은 회귀 문제를 분류 문제로 전환하거나, 반대로 분류 문제를 회귀 문제로 전환시킬 수 있다. 멀티라벨 multilabel 디자인 패턴은 학습 예제가 둘 이상의 클래스에 속하는 경우에 대처할 수 있으며, 캐스케이드 cascade 디자인 패턴은 머신러닝 문제가 여러 단계의 연쇄적인 ML 문제로 나눠지는 상황을 위한 해결법이다. 앙상블 디자인 패턴은 다수의 모델을 학습시키고 그 응답을 집계하는 방식으로 문제를 해결, ..

4.1.3 분류를 위한 최소 제곱법 매개변수들에 대해 선형 함수인 모델들의 경우 제곱합 오류 함수를 최소화하는 문제는 닫힌 혀애의 단순한 매개변수 해를 가지고 있었다. 분류 문제에도 같은 방식을 적용, K 개의 클래스가 있는 일반적인 분류 문제를 고려, 표적 벡터는 원 핫 인코딩을 사용한다고 가정, 최소 제곱법이 타당한 이유는 입력 벡터가 주어졌을 때 표적 벡터의 조건부 기댓값 E[t|x] 의 근삿값을 구하는 방법이라는 점이다. 이진 부호화의 경우 이 조건부 기댓값은 사후 클래스 확률의 벡터로 주어지게 된다. 하지만 이러한 확률들은 상대적으로 성능이 좋지 못하게 근사된다. 실제로 이러한 근삿값들은 선형 모델의 제한적인 유연성으로 인해서 0~1 범위 밖의 값을 가질 수도 있다. 각각의 클래스 C_k 들을 각각의 선형 모델로 표현할 수 있다...

4.1.2 다중 클래스 다중 클래스 문제에서 불확실한 영역문제를 겪는다. K 개의 선형 함수들로 이루어진 하나의 K 클래스 판별 함수를 고려함으로써 이런 문제를 피할 수 있다. 그 후 j != k 인 모든 j 에 대해 y_k(X) > y_j(X) 면 포인트 X를 클래스 C_k 에 배정하면 된다. 클래스 C_k 와 클래스 C_j 사이의 결정 경계는 y_k(x) = y_j(x) 로 주어지며, 이에 해당하는 D-1 차원 초평면은 다음과 같이 정의된다. 이러한 판별 함수의 결정 경계는 언제나 단일하게 연결되어 있으며, 볼록 성질을 가지고 있다. 결정 경계 R_k 상의 두 점인 X_A, B 를 고려, 두 점을 연결하는 선상의 점을 다음의 형태로 표현 판별 함수들의 선형성으로붜 다음을 알 수 있다. 두 점이 둘 다 R_k 상에 있기 때문..

목록 더보기

티스토리툴바