확률 변수
확률 Probability 란 어떤 사건이 일어날 가능성을 수치화시킨 것을 의미한다.
발생할 수 있는 모든 경우를 표본 공간이라 부르고 S 라고 표현한다.
확률 변수 random variable 이란 결괏값이 확률적으로 정해지는 변수를 의미한다.
변수와 반대되는 개념을 상수 constant 라고 한다.
확률 변수는 다른 관점으로 보면 함수라고 볼 수 있다.
확률 분포 probability distribution 은 확률 변수가 특정값을 가질 확률의 함수를 의미한다 .
확률 변수의 값은 확률 분포에 기반해서 얻어진다.
이산 확률 분포와 확률 질량 함수
이산 확률 변수 discrete random variable 은 확률 ㅂㄴ수가 가질 수 있는 값을 셀 수 있다는 의미
이산 확률 분포 discrete probability distribution 은 이산 확률 변수의 확률 분포를 의미한다.
확률 질량 함수 probability mass function, pmf 는 이산 확률 변수에서 특정값에 대한 확률을 나타내는 함수이다.
확률 질량 함수는 p_x(x) 라고 표기한다.
연속 확률 분포와 확률 밀도 함수
연속 확률 변수는 확률 변수가 가질 수 있는 값의 개수를 셀 수 없다는 의미이다.
확률 밀도 함수는 연속 확률 변수의 분포를 나타내는 함수이다.
누적 분포 함수는 주어진 확률 변수가 특정값보다 작거나 같을 확률
결합 확률 밀도 함수
joint probability density function 은 확률 변수 여러 개를 함께 고려하는 확률 분포이다.
독립 항등 분포
independent and identically distributed 는 두 개 이상의 확률 변수를 고려할 때, 각 확률 변수가 통계적으로 독립이고 동일한 확률 분포를 따르는 것응ㄹ 의미한다.
모집단과 표본
평균과 분산
확률에 대한 기댓값, 산술 평균이 아닌,
분산
variance
모집단의 분산인 모분산의 수식 표현
E[(X - mu)^2] = sigma^2
분산을 구할 때는 편차 제곱의 합을 n 으로 나누는 것이 아닌, n-1 로 나누는데, 이는 자유도와 고나련, 분산을 구할 때 표본 평균이 포함되어 있는데 이는 분산을 구하기 전에 표본 평균이 미리 정해져 있다는 뜻이고, 자유롭게 정할 수 있는 데이터의 개수는 n-1 개 뿐이다.(n-1 개만 있어도 나머지 1개의 데이터의 값은 이미 알려진 표본 평균으로 인해 알 수 있으므로)
표준 편차는 분산의 양의 제곱근, 원래 단위로 조정하는 과정,
상관관계
공분산
covariance 는 두 확률 변수의 상관관계를 나타내는 값이다.
두 개의 확률 변수 중 하나의 값이 증가할 때 다른 값도 증가하는 경향이 있다면 공분산은 양수가 된다.
공분산은 다음과 같이 정의한다.
Cov(X, Y) = E[(X - mu_x)(Y - mu_y)]
공분산은 변수 X 의 편차와 변수 Y 의 편차를 곱한 값의 평균이다.
다음과 같은 식으로도 구할 수 있다.
Cov(X, Y) = E(XY) - E(X)E(Y)
공분산 행렬이란 확률 변수간 분산, 공분산을 행렬로 표현한 것, 이는 주로 E 라고 표기한다.
균일 분포
uniform distribution 은 특정 범위 내에서 확률 분포가 균일한 분포를 의미한다.
정규 분포
normal distribution 은 가장 기본적이며 가장 중요한 분포이다.
최대 가능도 추정
가능도 함수 likelihood function
'2024 ML 다시' 카테고리의 다른 글
확률 분포 (0) | 2024.07.08 |
---|---|
확률 분포 (0) | 2024.06.24 |
연속 확률 분포 (0) | 2024.06.24 |
대칭인 양의 정부호 행렬 (0) | 2024.06.24 |
고윳값과 고유벡터 (0) | 2024.06.24 |