주어진 데이ㅓ에서 특정한 패턴을 찾아내는 것은 아주 중요한 문제다.
패턴 인식은 컴퓨터 알고리즘을 활용하여 데이터 규칙성들 자동적으로 찾아내고, 이 규칙성을 이용하여 데이터를 각각의 카테고리로 분류하는 등의 일을 하는 분야
머신 러닝을 적용하면 n 개의 숫자들을 훈련 집합으로 활용해서 변경 가능한 모델의 매개변수를 조절하는 방법, 훈련 집합의 숫자들의 카테고리는 미리 주어진다. 각 숫자의 카테고리를 표적 벡어 target vector, t 로 표현할 수 있다.
각각의 숫자 이미지 x 에 대한 표적 벡터 t 는 하나다
머신 러닝 알고리즘의 결과는 함수 y(x) 로 표현할 수 있다. 새로운 숫자의 이미지 x 를 입력값으로 받았을 때 대상 벡터와 같은 방식으로 부호화된 벡터 y 를 출력하는 함수다.
함수 y(x) 의 정확한 형태는 훈련 단계에서 훈련 집합을 바탕으로 결정된다.
한 번 훈ㄹ녀되고 난 모델은 시험 집합 test set 이라고 불리는 새로운 숫자 이미지들의 정체를 찾아내는 데 활용할 수 있다.
훈련 단계에서 사용되지 않았던 새롱누 예시들을 올바르게 분류하는 능력을 일반화 generalization 성능이라고 한다.
실제 적요에선느 입력 베거의 가변성이 상당히 크므로 훈련 데이터는 가능한 모든 입력 벡터의 극히 일부분밖에 커버하지 못한다.
따라서 패턴 인식에서 가장 중요한 목표는 일반화이다.
대부분의 실전에서는 원래 입력 변수들을 전처리 preprocessed 하여 새로운 변수 공간으로 전환, 이러한 전처리 과정은 특징 추출 feature extraction 과정이라고 불리기도한다.
계산 속도를 높이기 위해 전처리 과정을 활용하는 경우도 있다. 이런 종류의 전처리를 차원 감소 dimensionality reduction 라고 하기도 한다.
주어진 훈련 데이터가 입력 벡터와 그에 해당하는 표적 벡터로 이뤄지는 문제들을 지도 학습 문제라고 한다. 각각의 입력 벡터를 제한된 숫자의 분리된 카테고리 중 하나에 할당하는 종류의 지도 학습 문제는 ㅁ분류 문제라고 한다.
기대 출력값이 하나 또는 그 이상의 연속된 값일 경우에는 회귀 문제라고 부른다.
훈련 데이터가 표적 벡터 없이 오직 입력 벡터 X 로만 주어지는 경우의 패턴 인식 문제는 비지도 학습 문제라고 일컫는다. 데이ㅓ 내에서 비슷한 예시들의 집단을 찾는 집단화 clustering 문제, 입력 공간에서의 데이터의 분포를 찾는 밀도 추정 density estimation 문제, 높은 차원의 데이터의 시각화 visualization 등등
마지막으로 강화 학습 reinforcement learning, 주어진 상황에서 보상을 최대화하기 위한 행동을 찾는 문제를 푸는 방법, 학습 알고리즘에 입력값과 최적의 출력값을 예시로 주지 않는다 시행착오를 통해 이들을 직접 찾아내게 되는데 보통의 경우 알고리즘이 주변 환경과 상호 작용할 때 일어나는 일들을 표현한 일련의 연속된 사앹와 행동들이 문제의 일부로 주어지게 된다.
많은 경우 현재으 ㅣ행동은 직후ㅢ 보상 뿐만 아니라 이후 모든 시간 단계들 전부의 보상에 영향을 미친다.
'패턴인식과 머신러닝' 카테고리의 다른 글
1.2.3 베이지안 확률 - 불확실성의 정량화 (0) | 2023.06.21 |
---|---|
1.2.2 기댓값과 공분산 (0) | 2023.06.21 |
1.2.1 확률 밀도 (0) | 2023.06.21 |
1.2 확률론 (0) | 2023.06.20 |
1.1 예시 : 다항식 곡선 피팅 (0) | 2023.06.20 |