본문 바로가기

2024 ML 다시/ML models

1. Introduct

주어진 데이터에서 특정한 패턴을 찾아내는 것은 중요한 문제이다.

예를 들어 케플러는 티코 브라헤가 관찰하여 축적해 놓은 대량의 천문학 데이터에서 패턴을 찾아내 케플러의 행성 운동 법칙을 발견했고, 원자 스펙트럼에서 규칙성을 발견한 것은 양자 물리학의 확인과 발전에 중요한 역할을 했다.

이처럼 패턴 인식은 컴퓨터 알고리즘을 활용하여 데이터의 규칙성을 자동적으로 찾아내고, 이 규칙성을 이용하여 데이터를 각각의 카테고리로 분류하는 등의 일을 하는 분야이다.

 

규칙을 통해 손글자 문제를 해결하기 위해서는 수많은 규칙이 필요하고, 각각의 규칙에 대한 예외 사항들을 만드는 등 많은 룰을 만들어야 한다.

 

하지만 머신 러닝을 적용하면 N 개의 숫자들을 훈련 집합으로 활용하여 변경 가능한 모델의 매개변수들을 조절하는 방법을 통해 더 나은 결과를 얻을 수 있다.

훈련 집합에 있는 숫자들의 카테고리는 미리 주어진다. 보통 사람이 수동으루 부여,

각 숫자의 카테고리를 표적 벡터 t 로 표현할 수 있다. 이는 해당 숫자의 실제 정체를 나타낸다. 

각각의 숫자 이미지 x 에 대한 표적 벡터 t 는 하나이다.

 

머신 러닝 알고리즘의 결과물은 함수 y(x) 로 표현할 수 있다. y(x) 는 새로운 숫자의 이미지 x 를 입력값으로 받았을 때 대상 벡터와 같은 방식으로 부호화된 벡터 y 를 출력하는 함수다. 

함수 y(x) 의 정확한 형태는 훈련 단계에서 훈련 집합을 바탕으로 결정된다. 훈련 단계는 학습 단계라고 불리기도 한다. 훈련되고 난 모델은 시험 집합 test set 이라고 불리는 새로운 숫자 이미지들의 정체를 찾아내는 데 활용할 수 있다.

 

새로운 예시들을 올바르게 분류하는 능력을 일반화 generalization 성능이라고 한다. 

 

실제 적용에서는 입력 벡터의 가변성이 상당히 크므로 훈련 데이터는 가능한 모든 입력 벡터의 극히 일부분밖에 커버하지 못한다.

 

대다수 실용 애플리케이션에서 원래 입력 변수들을 전처리 preprocessed 하여 새로운 변수 공간으로 전환해 패턴 인식 문제를 더 쉽게 해결할 수 있다. 

이러한 전처리 과정은 특징 추출 feature extraction 과정이라고 불리기도 한다. 

 

차원 축소와 같은 전처리 과정에서 정보들을 버리게 되는 문제가 발생하기도 한다.

 

 

주어진 훈련 데이터가 입력 벡터와 그에 해당하는 표적 벡터로 이루어지는 문제들을 지도 학습 문제라고 한다. 

각각의 입력 벡터를 제한된 숫자의 분리된 카테고리 중 하나에 할당하는 종류의 지도 학습 문제는 분류 문제라고 한다. 

기대되는 출력값이 하나 또는 그 이상의 연속된 값일 경우에는 회귀 문제라고 부른다.

 

훈련 데이터가 해당 표적 벡터 없이 오직 입력 벡터 x 로만 주어지는 경우의 패턴 인식 문제는 비지도 학습 문제라고 일컫는다. 

데이터 내에서 비슷한 예시들의 집단을 찾는 clustering 문제, 입력 공간에서의 데이터 분포를 찾는 밀도 추정 density estimation 문제, 시각화 visualization 등이 비지도 학습 문제의 예시이다.

 

 

 

'2024 ML 다시 > ML models' 카테고리의 다른 글

1.2 확률론 (합의 법칙)  (0) 2024.06.12
1.1 예시 : 다항식 곡선 피팅  (0) 2024.06.07