개념 정리
평균과 표준편차
명징직조지훈
2022. 10. 10. 12:58
평균은 데이터의 대푯값 중 하나.
1. 대푯값
데이터를 대표하는 특정 값, 평균값, 중앙값, 최빈값이 있다.
1.1 중앙값
주어진 데이터들을 크기 순서대로 정렬했을 때 중앙에 위치하는 값
1.2 최빈값
가장 자주 등장하는 데이터
1.3 평균
데이터의 총 합을 데이터의 개수로 나눈 값
1.3.1 편차
각 데이터에 평균을 뺀 값
1.3.2 분산
이러한 편차들의 제곱 합과 데이터의 개수(n) -1 으로 나눈 값으로 제곱 합을 하는 이유는, 편차의 값이 +,- 가 될 수 있고, 이를 합할 때 다른 부호로 인해 값이 서로 상쇄되는 것을 방지하기 위해 편차를 제곱하여 모든 부호를 +로 만들어주고 이를 합해준다.
표본 분산의 경우 n-1로 나눠준다.
표본 분산의 기댓값을 모 분산과 일치시키기 위해 모 분산보다 표본 분산이 더 작게 나와서 그것을 보정하기 위해서
-> 표본 분산을 불편추정량으로 만들어주기 위해서
n-1 은 표본 분산의 자유도이다.
이렇게 구해진 분산은 주어진 데이터의 숫자가 평균값을 기준으로 어떻게 분포되어 있는지 나타낸다.
1.3.3 표준 편차
분산 값의 제복느을 구하면 표준 편차가 나온다.