확률론을 통해 불확실한 명제를 서술, 불확실성이 존재하는 상황에서 추론 가능, 정보 이론 information theory 를 이용하여 주어진 확률 분포에 존재하는 불확실성의 양의 추정 가능,
기계 학습은 항상 불확실한 수치들을 다뤄야 함, stochastic, nondeterministic 수치를 다룰 때도 있음, 불확실성을 발생할 수 있는 세 가지 원천
- 모형화할 시스템에 내재한 확률성,
- 불완전한 관측 가능성
- 불완전한 모형화
특정 사건이 일어날 비율과 직접 관련된 종류의 확률 : frequentist probability
확신도에 기반한 추론, 확실성의 수준을 수치화 : Bayesian probability
확률변수
random variable, 여러 값을 무작위하게 가지는 변수, 확률 변수 자체는 그냥, 그 변수가 가질 수 있는 상태들을 서술,
확률 변수는 반드시 확률분포와 결합되어야 한다. 확률 분포는 각 상태가 실제로 확률 변수의 값이 될 가능성을 명시한다.
ㅖ
확률분포
probability distribution 하나이상의 확률 변수의 집합이 각각의 상태를 가질 가능도를 정의 서술 방식은 확률 변수가 이산, 연속이냐에 따라 다르다.
이산 변수와 확률질량함수
이산 변수를 서술하는 방법으로 확률질량함수 Probability Mass Function, PMF) 의 사용, P(x), P(y)
확률질량함수는 확률변수의 한 상태를, 변수가 그 상태를 가질 확률로 사상한다.
확률질량함수가 여러 변수에 동시에 작용할 수도 있다. 다수의 변수에 관한 확률분포를 가리켜 결합확률분포 joint probability distribution, 결합분포라고 부른다. P(x = x, y = y) P(x,y) 동시에 x = x, y = y 일 확률을 나타낸다.
함수 P 가 확률변수 x 에 대한 확률질량함수가 되기 위한 조건, ( 아 이런 식으로 생각할 수 있구나, 이런 조건을 만족하는 함수 P 는 확률질량함수로 볼 수도 있다.)
- P의 정의역은 x 의 모든 가능한 상태의 집합이어야 한다.
- 0 <= P(x) <= 1 의 값 만족,
- SUM(P(x)) = 1 이 성질을 충족하게 만드는 것을 정규화 normalization 라고 한다.
연속 변수와 확률밀도함수
연속 확률변수를 다룰 때는 확률 밀도 함수 Probability Density Function 을 사용하여 확률분포를 서술,
- p 의 정의역은 x 의 모든 가능한 상태의 집합이어야 한다.
- 0<= p(x),
- int(p(x)) = 1 이어야 한다. (integral)
특정 상태의 확률을 직접 돌려주는 것이 아닌, 이 함수는 확률변수의 값이 부피가 delta x 인 infinitesimal 영역 안에 있을 확률이 p(x) delta x 임을 말해준다.
밀도 함수 적분시 점 집합의 실제 확률을 구할 수 있다. x 가 어떤 상태 집합 S 에 속할 확률은 그 집합에 관해 p(x) 를 적분한 것,
주변확률
어떤 변수들의 집합에 관한 확률분포를 알고 있는 상태에서 그 집합의 한 부분집합에 관한 확률분포를 알고 싶을 때,
부분 집합에 관한 확률분포를 주변확률분포 marginal probability distribution 이라고 부른다.
SUM(y, P(x=x, y=y) = P(x=x)
연속 변수에 대해서는 합산이 아닌 적분의 사용,
조건부 확률
어떤 사건이 발생했을 때 다른 한 사건이 발생할 확률, conditional probability,
조건부 확률의 연쇄법칙
다수의 확률변수에 관한 임의의 결합확률분포를 하나의 변수에 관한 조건부 분포들로 분해가능,
독립과 조건부 독립
두 확률변수 x,y 의 확률분포를 각 인수의 곱으로 분리, 표현가능 시 두 변수는 서로 independent
확률 변수 z, 두 확률변수 x, y 에 관한 조건부 확률분포를 z 의 모든 ㄴ값에 인수분해 가능 시 두 변수는 조건부 독립, conditionally independent
기댓값 분산, 공분산
이산 변수의 경우 합산으로 기댓값의 계산 가능, 연속 변수는 적분 계산
기댓값은 선형적, 분배 법칙의 적용 가능
분산, variance 은 확률변수 x 의 함수가 해당 확률분포에서 비롯한 여러 값들에 따라 어느 정도나 변하는지 나타내는 측도,
'ml_interview' 카테고리의 다른 글
L1, L2 - regularization, norm panalty - 이차 근사를 통해 각 regularization 에 대한 이해를 할 수 있었음. (0) | 2024.08.21 |
---|---|
흔히 쓰이는 확률분포 - 주어진 분산을 가지는 모든 가능한 연속 확률 분포 중에서 가장 많은 불확실성을 부호화하는 것이 정규 분포라는 사실은 매우 중요한 통계적 성질 (0) | 2024.08.20 |
Marginal Distribution, 주변 분포 (0) | 2024.08.07 |
매개변수 초기화 전략 - 전이 학습이 왜 효과적인지?? (0) | 2024.08.07 |
Nesterov momentum (0) | 2024.08.07 |