개념 정리

평균과 표준편차

명징직조지훈 2022. 10. 10. 12:58

평균은 데이터의 대푯값 중 하나.

1. 대푯값

데이터를 대표하는 특정 값, 평균값, 중앙값, 최빈값이 있다.

1.1 중앙값

주어진 데이터들을 크기 순서대로 정렬했을 때 중앙에 위치하는 값

1.2 최빈값

가장 자주 등장하는 데이터

1.3 평균

데이터의 총 합을 데이터의 개수로 나눈 값

1.3.1 편차

각 데이터에 평균을 뺀 값

1.3.2 분산

이러한 편차들의 제곱 합과 데이터의 개수(n) -1 으로 나눈 값으로 제곱 합을 하는 이유는, 편차의 값이 +,- 가 될 수 있고, 이를 합할 때 다른 부호로 인해 값이 서로 상쇄되는 것을 방지하기 위해 편차를 제곱하여 모든 부호를 +로 만들어주고 이를 합해준다.

 

표본 분산의 경우 n-1로 나눠준다.

표본 분산의 기댓값을 모 분산과 일치시키기 위해 모 분산보다 표본 분산이 더 작게 나와서 그것을 보정하기 위해서

-> 표본 분산을 불편추정량으로 만들어주기 위해서

n-1 은 표본 분산의 자유도이다. 

 

이렇게 구해진 분산은 주어진 데이터의 숫자가 평균값을 기준으로 어떻게 분포되어 있는지 나타낸다.

 

1.3.3 표준 편차

분산 값의 제복느을 구하면 표준 편차가 나온다.