Math/확률과 통계

[확통] 왜 표본분산 분모는 n이 아닌 n-1을 쓸까?

Buang 2021. 12. 29. 21:03
반응형

 

안녕하세요. 부앙입니다.

 

확통 공부를 하다가

문득 표본분산에 왜 분모에 n 대신 n-1을 쓰는지 궁금해졌습니다.

모분산은 분모에 n을 쓰지 않나요. 

그럼 표본분산도 분모에 n을 쓰면 될텐데

왜 n-1을 쓰는 건지 궁금해졌습니다.

 

 
 
 

왼쪽: 모분산 공식/ 오른쪽: 표본분산 공식

 

 

​왜 표본분산에선 분모가 n-1인지를 설명을 하기에 앞서

모분산은 모집단(예: 대한민국 전체 인구)의 분산이고,

표본분산은 표본집단(예: 대한민국 전체 인구 중 임의적으로 1000명 추출)의 분산임을 언급하고 갑니다.

 

표본분산은 왜 구하는 걸까?

 

질문에 대한 답을 하기 위해선 표본분산을 왜 구하는지부터 알아야 합니다.

표본분산을 구하는 이유는 모분산을 구하기 어려워서 표본분산을 대신 구하는 것입니다.

문장이 어렵게 느껴질 수도 있을 거 같아 하단에 예문을 덧붙여 봤습니다.

예) 대한민국 전체 인구의 평균 키의 분산을 구하는 것 = 모분산(모집단의 분산)

대한민국 전체 인구 중 1000명을 선발해서 평균 키의 분산을 구하는 것 =표본분산(표본집단의 분산)

대한민국 전체 인구의 평균 키의 분산값을 구하는 것은 어렵지만(모분산)

1000명을 선발해서 평균키의 분산값을 구하는 건 그나마 쉽습니다.(표본분산)

정리하자면 표본분산을 구하는 이유는

대한민국 전체 인구의 평균키의 분산값을 구하기가 어려우니까

표본분산(=대한민국 1000명의 키의 평균값의 분산)을 가지고

모분산(=대한민국 전체 인구의 평균키의 분산)의 값을 추측하려는 게 목표입니다.

 

그래서 n 대신 n-1을 대입하는 이유는 뭘까?

 

위에서 표본분산을 구하는 이유는 모분산의 값을 추측하기 위해서라고 언급했습니다.

'표본분산 값 = 모분산 값' 과 똑같다란 보장이 없습니다.

대한민국 전체 인구(5천만명) 키의 평균의 분산값과

대한민국 인구 1000명의 키의 평균의 분산값은 같을 수 없습니다다.

근접할 수 있을진 몰라도.

즉 오차 범위가 생기기 마련인데 이 오차 범위를 어떻게 줄일 수 있을까?하고

학자들이 여러 차례 계산을 해본 끝에 밝혀낸 사실이 하나 있었습니다.

표본 분산의 분모에 n 대신 n-1을 대입하면

모분산의 값과 근접해진다는 사실이었습니다.

* 모분산의 값과 근접해진다 = 대한민국 전체 인구수의 평균 키의(분산) 값에 근접해진다.

* 표본분산의 값이 모분산의 값과 근접해진다. = 대한민국 인구 1000천명의 평균키(분산값)와 대한민국 전체 인구 수의 평균키(분산값)이 서로 근접해진다.

그래서 표본분산의 정확도(모분산의 값과 가까워지기 위해)

를 높이기 위해 분모에 n대신 n-1을 넣습니다.

생각보다 거창하거나 어려운 이유는 아니였습니다.

다시 한번 정리하자면 표본 분산에 n 대신 n-1을 넣는 이유는

학자들이 여러 차례 계산을 해보니 표본 분산의 분모에 n 대신 n-1을 대입해야 모분산의 값과 근접했었고,

그래서 표본분산을 구할 땐 분모에 n 대신 n-1을 넣는 것이 관행처럼 굳어졌다로 정리할 수 있습니다.

글이 조금이나마 도움이 되셨다면

하단의 공감(하트)을 눌러주시면 감사하겠습니다!

공감은 글을 쓰는 데 큰 도움이 됩니다!

반응형