ml_interview

경험 E, Experience

명징직조지훈 2024. 7. 30. 12:43

supervised, unsupervised learning 으로 나뉜다.

대부분의 기계 학습 알고리즘은 자료 집합 전체를 경험할 수 있는 부류에 속한다. 

 

비지도 학습 알고리즘은 다수의 특징을 담은 자료 집합을 경험하고, 구조가 가진 유용한 성질들을 배운다. 

지도 학습 알고리즘의 경우 label, target 이 연관되어 있다. 

 

비지도 학습은 한 확률벡터 x 의 여러 견본을 관측해서 확률 분포 p(x) 자체 또는 그 분포의 성질을 암묵적, 명시적으로 배우는 것,

지도 학습에서는 확률벡터 x 와 그에 연관된 어떤 값 또는 벡터 y 의 여러 견본을 관측해서, x 로부터 y 를 예측하는 방법을 배우려 한다. 이 때 흔히 p(y|x) 를 추정함으로써 y 를 예측한다. 

 

다수의 기계 학습 기술들은 두 과제를 모두 수행할 수 있다. 예를 들어 확률의 연쇄법칙에 따르면 벡터 x 에 대한 결합확률분포를 다음과 같이 분해할 수 있다.

이러한 분해가 뜻하는 것은 p(x) 를 모형화하는 하나의 비지도 학습 문제를 n 개의 지도 학습 문제로 분할할 수 있다는 것이다. 

반대로 p(y|x) 를 학습하는 지도 학습 문제를 전통적인 비지도 학습 기술들을 이용해서 풀 수도 있다. 그런 경우 학습 알고리즘은 결합분포 p(x,y) 를 배운 후 다음을 추론한다.

 

위 둘과는 다른 종류의 학습 패러다임들도 가능하다. 준지도 학습 semi-supervised learning 에서는 학습 지도를 위한 label 이 붙은 견본들과 그렇지 않은 견본들로 구성된 자료 집합을 사용한다. 

 

경험하는 자료 집합이 고정되지 않은 기계 학습 알고리즘, reinforcement learning 알고리즘, 

 

대부분의 기계 학습 알고리즘들은 그냥 고정된 하나의 자료 집합을 경험한다. 학습에 쓰이는 자료 집합을 서술하는 방법은 여러 가지이지만, 어떤 경우이든 자료 집합은 견본들로 이루어지며, 각 견본은 특징들로 이루어진다. 

 

자료 집합을 서술하는 데 흔히 쓰이는 한 가지 방법은 design matrix 을 명시하는 것이다. 한 행이 하나의 견본이고, 각 열은 해당 견본의 각 특징인 행렬

설계 행렬을 다루는 방식,

 

하나의 자료 집합을 설계 행렬로 서술하기 위해서는 각 견본을 하나의 벡터로 서술할 수 있어야 하며, 그러한 벡터들은 서로 크기가 같아야 한다. ( 그렇지 않은 경우도 존재 )

 

지도, 비지도 학습의 명확한 정의가 없는 것 처럼, 자료 집합들이나 경험들에 대한 엄격한 분류 기준 또한 없다.