본문 바로가기

ml_interview

확률론과 정보 이론

확률론을 이용하여 불확실한 명제를 서술 가능, 불확실성이 존재하는 상황에서 추론이 가능, 

정보 이론을 통해 주어진 확률분포에 존재하는 불확실성의 양을 추정할 수 있다.

 

불확실성을 발생할 수 있는 세 가지 원천

  • 모형화할 시스템에 내재한 확률성.
  • 불완전한 관측 가능성
  • 불완전한 모형화

 

복잡하고 확실한 규칙이 아닌 간단하지만 불확실한 규칙을 사용하는 것이 좀 더 실용적이다. 

 

원래의 확률론은 사건의 도수를 분석하려고 개발한 것, 

특정 사건이 일어날 비율과 직접 관련된 종류의 확률을 빈도룬자 확률 frequentist probability 라고 부르고,

확실성의 수준을 수치화하는 데 관련된 확률을 베이즈 확률 Bayesian probability 라고 부른다.

 

확률변수

확률변수 random variable 은 여러 값을 무작위하게 가지는 변수, 

 

확률분포

probability distribution 은 하나의 확률 변수, 확률변수들의 집합이 각각의 상태를 가질 가능도를 정의한다.

 

이산 변수와 확률질량함수

이산 변수를 서술하는 한 가지 방법은 확률질량함수 probability mass function 을 이용하는 것이다.

확률변수마다 다른 확률질량함수를 부여 P(x), P(y)

 

확률질량함수는 확률변수의 한 상태를, 변수가 그 상태를 가질 확률로 사상한다.

 

확률질량함수가 여러 변수에 동시에 작용할 수도 있다. 다수의 변수에 관한 확률분포를 가리켜 결합확률분포 joint probability distribution 결합분포라고 부른다. 

연속 변수와 확률밀도함수

연속 확률변수를 다룰 때는 확률밀도함수 probability density function 을 이용해서 확률분포를 서술한다. 

 

주변확률

어떤 변수들의 집합에 관한 확률분포를 알고 있는 상태에서 그 집합의 한 부분집합에 관한 확률분포를 알고 싶을 때가 있다.

부분집합에 관한 확률분포를 주변확률분포 marginal probability distribution, 주변 분포라고 부른다.

 

예를 들어 x 와 y 가 이산 확률변수이고, 그 둘에 대한 확률질량함수 P(x,y) 를 알고 있다고 하자. 확률의 합의 법칙을 통해 P(x) 를 구할 수 있다. 

주변확률이라는 이름은 확률표가 있는 종이의 여백 margin 에서 주변확률을 계산하던 관행에서 비롯된 것,

각 행이 x 의 여러 값에 해당하고 각 열이 y 의 여러 값에 해당하는 격자의 칸들에 P(x,y) 들을 기입했다고 하 ㄹ때, 한 행의 확률들의 합에 해당하는 P(x) 를 그 행의 여백에 기입하는 것은 자연스러운 일

 

조건부 확률

어떤 사건이 발생했을 때 다른 어떤 한 사건이 발새애할 확률을 조건부 확률 conditional probability 라고 부른다.

 

조건부 확률의 연쇄법칙

다수의 확률변수에 관한 임의의 결합확률 분포를 한의 변수에 관한 조건부 분포들로 분해할 수 있다.

 

독립과 조건부 독립

두 확률변수 x, y 의 확률분포를 x 만 관여하는 인수와 y 만 관여하는 인수의 곱으로 표현할 수 있으면, 두 변수는 서로 독립 independent

 

기댓값, 분산, 공분산

기댓값은 x 들에 대한 f 값들의 평균을 뜻한다. (확률과의 곱)

 

분산은 확률 변수 x 의 함수가 해당 확률분포에서 비롯한 x 의 여러 값들에 따라 어느 정도나 변하는지 나타내는 측도

부산의 제곱근을 표준편차,

 

공분산은 두 값의 선형 관계가 어느 정도인지, 그리고 그 값들의 규몰르 말해주는 측도

 

흔히 쓰이는 확률분포들

베르누이 분포는 한의 이진 확률변수에 관한 분포, 

 

가우스 분포

Gaussian distribution, normal distribution, 

정규분포는 두 매개변수 mu, sigma 가 제어한다. mu 는 분포의 평균, sigma 는 분포의 표준편차, sigma^2 은 분산

확률밀도함수를 평가하려면 sigma 의 제곱의 역수를 계산해야 한다.

서로 다른 매개변수들로 확률밀도 함수를 자주 평가해야 한다면, 분포의 분산의 역수에 해당하는 매개변수 beta 를 이용해서 분포를 매개변수화하는 것이 더 효율적이다.

이 매개변수는 분포의 정밀도에 해당한다.

 

기계 학습 응용에서 정규 분포를 선택하는 것이 합리적인 이유는

  • 모형화하고자 하는 분포 중에는 정규분포에 가까운 것들이 많다. 중심극한정리에 따르면 다수의 독립 확률변수들의 합은 근사적으로 정규분포를 따른다.  이는 복잡한 시스템을 정규분포를 따르는 잡음을 이용해서 성공적으로 모형화할 수 있는 경우가 많다는 뜻
  • 주어진 분포가 실수에 관한 불확실성을 얼마나 부호화할 수 있는지를 따진다고 할 때, 같은 분산을 가진 모든 가능한 분포 중에서 가장 많은 양의 불확실성을 부호화하는 것이 정규분포이다. 

정규분포는 R^n 으로 일반화된다. 그런 분포를 다변량정규분포 multivariate normal distribution 라고 부른다. 

 

 

흔히 쓰이는 함수들의 유용한 성질들

확률 분포를 다룰 때 자주 만나는 함수들

로그 S 자형 함수, logistic sigmoid

베르누이 분포의 phi 매개변수를 산출할 때 흔히 쓰인다. 이 함수의 치역이 (0,1) 이기 때문, 

인수가 매우 크거나 작을 때 함수값이 거의 변하지 않는다, saturation

 

 

베이즈 법칙

사후 확률을 통해 사전 확률을 계산하는 것

 

연속 변수의 특별한 세부 사항

 

정보 이론

신호에 존재하는 정보의 양

기본적인 직관은 발생 가능성이 낮은 사건을 배우는 것이 더 많은 정보를 얻을 수 있다는 것, 

 

 

 

 

 

'ml_interview' 카테고리의 다른 글

확률적 생성 모델(시그모이드 함수의 등장??!?)  (0) 2024.07.09
추론과 결정(생성 모델)  (0) 2024.07.09
퍼셉트론 알고리즘  (0) 2024.07.09
수치 계산  (0) 2024.07.02
선형대수  (1) 2024.07.02