본문 바로가기

2024 ML 다시

머신러닝 통계학

확률 변수

확률 Probability 란 어떤 사건이 일어날 가능성을 수치화시킨 것을 의미한다. 

발생할 수 있는 모든 경우를 표본 공간이라 부르고 S 라고 표현한다. 

 

확률 변수 random variable 이란 결괏값이 확률적으로 정해지는 변수를 의미한다. 

변수와 반대되는 개념을 상수 constant 라고 한다.

 

확률 변수는 다른 관점으로 보면 함수라고 볼 수 있다. 

 

확률 분포 probability distribution 은 확률 변수가 특정값을 가질 확률의 함수를 의미한다 .

확률 변수의 값은 확률 분포에 기반해서 얻어진다. 

이산 확률 분포와 확률 질량 함수

이산 확률 변수 discrete random variable 은 확률 ㅂㄴ수가 가질 수 있는 값을 셀 수 있다는 의미 

이산 확률 분포 discrete probability distribution 은 이산 확률 변수의 확률 분포를 의미한다.

 

확률 질량 함수 probability mass function, pmf 는 이산 확률 변수에서 특정값에 대한 확률을 나타내는 함수이다. 

확률 질량 함수는 p_x(x) 라고 표기한다.

 

연속 확률 분포와 확률 밀도 함수

연속 확률 변수는 확률 변수가 가질 수 있는 값의 개수를 셀 수 없다는 의미이다.

 

확률 밀도 함수는 연속 확률 변수의 분포를 나타내는 함수이다.

 

누적 분포 함수는 주어진 확률 변수가 특정값보다 작거나 같을 확률

 

결합 확률 밀도 함수

joint probability density function 은 확률 변수 여러 개를 함께 고려하는 확률 분포이다.

 

독립 항등 분포

independent and identically distributed 는 두 개 이상의 확률 변수를 고려할 때, 각 확률 변수가 통계적으로 독립이고 동일한 확률 분포를 따르는 것응ㄹ 의미한다. 

 

모집단과 표본

 

평균과 분산

확률에 대한 기댓값, 산술 평균이 아닌,

 

분산

variance 

모집단의 분산인 모분산의 수식 표현 

E[(X - mu)^2] = sigma^2

 

분산을 구할 때는 편차 제곱의 합을 n 으로 나누는 것이 아닌,  n-1 로 나누는데, 이는 자유도와 고나련, 분산을 구할 때 표본 평균이 포함되어 있는데 이는 분산을 구하기 전에 표본 평균이 미리 정해져 있다는 뜻이고, 자유롭게 정할 수 있는 데이터의 개수는 n-1 개 뿐이다.(n-1 개만 있어도 나머지 1개의 데이터의 값은 이미 알려진 표본 평균으로 인해 알 수 있으므로)

표준 편차는 분산의 양의 제곱근, 원래 단위로 조정하는 과정,

 

상관관계

공분산

covariance 는 두 확률 변수의 상관관계를 나타내는 값이다. 

두 개의 확률 변수 중 하나의 값이 증가할 때 다른 값도 증가하는 경향이 있다면 공분산은 양수가 된다. 

공분산은 다음과 같이 정의한다.

Cov(X, Y) = E[(X - mu_x)(Y - mu_y)]

공분산은 변수 X 의 편차와 변수 Y 의 편차를 곱한 값의 평균이다.

 

다음과 같은 식으로도 구할 수 있다. 

Cov(X, Y) = E(XY) - E(X)E(Y)

 

공분산 행렬이란 확률 변수간 분산, 공분산을 행렬로 표현한 것,  이는 주로 E 라고 표기한다.

 

 

균일 분포

uniform distribution 은 특정 범위 내에서 확률 분포가 균일한 분포를 의미한다.

 

정규 분포

normal distribution 은 가장 기본적이며 가장 중요한 분포이다. 

 

최대 가능도 추정

가능도 함수 likelihood function 

 

 

 

 

 

'2024 ML 다시' 카테고리의 다른 글

확률 분포  (0) 2024.07.08
확률 분포  (0) 2024.06.24
연속 확률 분포  (0) 2024.06.24
대칭인 양의 정부호 행렬  (0) 2024.06.24
고윳값과 고유벡터  (0) 2024.06.24