Statistics

[통계 기초] 표본평균의 분포 (sample mean distribution)

2021. 4. 20. 19:52

1. 평균과 분산

  확률 변수 X가 있을 때, X의 평균과 분산(및 표준 편차)은 다음과 같이 구할 수 있다.

평균 (Mean)
분산 (Variance)
표준 편차 (Standard deviation)

 

2. 표본평균 (Sample mean)과 표본분산 (Sample variance)

  확률 변수 X에 대한 n개의 값을 얻었다고 할 때 (X1부터 Xn), 이 sample을 가지고 평균과 분산을 구할 수 있다. 이를 각각 표본평균 (Sample mean)과 표본분산 (Sample variance)이라고 하는데, 아래와 같이 계산된다.

  표본분산을 구할 때 n이 아니라 n-1로 나눠주는 이유는 두 가지 방향으로 이해할 수 있다. 먼저 직관적인 측면에서 설명하면, 계산 과정에서 population mean (μ)이 아니라 sample mean을 빼주기 때문이다. Sample mean은 sample에서 estimate된 값이기 때문에 degree of freedom이 1만큼의 제약이 생겨서 n이 아니라 n-1로 나눠주어야 한다. 한편 수학적인 측면에서 설명하면, n-1로 나눠주어야 sample variance가 unbiased estimator가 된다. 즉, sample variance의 평균이 우리가 estimate하고자 하는 population variance (σ^2)이 되어 bias를 계산했을 때 0이 나온다.

 

3. 표본평균의 평균, 표본평균의 분산, 표본분산의 평균

  표본평균과 표본분산은 데이터셋(sample)이 하나 있을 때, 하나의 숫자로 계산되어 나온다. 하지만 가상적으로 data generation process를 여러 번 한다고 했을 때 여러개의 데이터셋(sample)이 생성되고, 이로부터 여러 개의 표본평균과 표본분산이 생성될 수 있다. 이러한 측면에서 표본평균과 표본분산을 확률 변수라고 볼 수 있고, 각각의 분포를 생각할 수 있다. 먼저 표본평균의 평균 및 분산과 표본분산의 평균을 구하면 아래와 같다.

  • 표본평균과 표본분산은 데이터로부터 생성된 point estimator(θ hat)이다. 이때 각각의 평균이 우리가 estimate하고자 하는 true θ와 같기 때문에 bias 값이 0이 된다. 따라서 표본평균과 표본분산은 unbiased estimator이다.
  • Estimator(θ hat)의 standard deviation을 standard error라고 한다.
  • n이 커지면 표본평균의 분산이 작아지기 때문에 population mean에 더 가까워진다. 이는 n이 무한대로 갔을 때 표본평균이 population mean에 수렴한다는 The Weak Law of Large Numbers의 내용이다 (데이터들이 독립일 때).

 

4. 표본평균의 분포

  표본평균의 평균과 표본평균의 분산을 이용해서 표본평균의 분포를 생각해볼 수 있다. 이와 관련된 유명한 정리로 The Central Limit Theorem (CLT)이 있다. CLT는 데이터(X1, ... , Xn)들이 독립일 때 아래의 식이 성립한다는 내용이다.

  • X가 어떤 분포에서 왔든지 IID(Independent and identically distributed)이면, 표본평균은 asymptotically normal distribution을 따른다는 놀라운 내용이다 😮.
  • n이 무한대로 갈 때, '루트 n'과 '표본평균-population mean'이 상쇄되어 무한대나 0으로 가지 않는다 (Convergence ratio).

 

  하지만 모분산(population variance)를 모를 때 대신 sample standard error를 사용할 수 있다. 즉, 데이터들이 독립일 때 아래가 성립한다.

  우리는 이 분포를 이용하여 신뢰 구간을 구하거나 가설 검정 등을 할 수 있다.

 

 

Reference

  • Wasserman, L. (2004). All of Statistics: A concise course in statistical inference.

 

 

 

728x90
반응형