1. 평균과 분산
확률 변수 X가 있을 때, X의 평균과 분산(및 표준 편차)은 다음과 같이 구할 수 있다.
2. 표본평균 (Sample mean)과 표본분산 (Sample variance)
확률 변수 X에 대한 n개의 값을 얻었다고 할 때 (X1부터 Xn), 이 sample을 가지고 평균과 분산을 구할 수 있다. 이를 각각 표본평균 (Sample mean)과 표본분산 (Sample variance)이라고 하는데, 아래와 같이 계산된다.
표본분산을 구할 때 n이 아니라 n-1로 나눠주는 이유는 두 가지 방향으로 이해할 수 있다. 먼저 직관적인 측면에서 설명하면, 계산 과정에서 population mean (μ)이 아니라 sample mean을 빼주기 때문이다. Sample mean은 sample에서 estimate된 값이기 때문에 degree of freedom이 1만큼의 제약이 생겨서 n이 아니라 n-1로 나눠주어야 한다. 한편 수학적인 측면에서 설명하면, n-1로 나눠주어야 sample variance가 unbiased estimator가 된다. 즉, sample variance의 평균이 우리가 estimate하고자 하는 population variance (σ^2)이 되어 bias를 계산했을 때 0이 나온다.
3. 표본평균의 평균, 표본평균의 분산, 표본분산의 평균
표본평균과 표본분산은 데이터셋(sample)이 하나 있을 때, 하나의 숫자로 계산되어 나온다. 하지만 가상적으로 data generation process를 여러 번 한다고 했을 때 여러개의 데이터셋(sample)이 생성되고, 이로부터 여러 개의 표본평균과 표본분산이 생성될 수 있다. 이러한 측면에서 표본평균과 표본분산을 확률 변수라고 볼 수 있고, 각각의 분포를 생각할 수 있다. 먼저 표본평균의 평균 및 분산과 표본분산의 평균을 구하면 아래와 같다.
- 표본평균과 표본분산은 데이터로부터 생성된 point estimator(θ hat)이다. 이때 각각의 평균이 우리가 estimate하고자 하는 true θ와 같기 때문에 bias 값이 0이 된다. 따라서 표본평균과 표본분산은 unbiased estimator이다.
- Estimator(θ hat)의 standard deviation을 standard error라고 한다.
- n이 커지면 표본평균의 분산이 작아지기 때문에 population mean에 더 가까워진다. 이는 n이 무한대로 갔을 때 표본평균이 population mean에 수렴한다는 The Weak Law of Large Numbers의 내용이다 (데이터들이 독립일 때).
4. 표본평균의 분포
표본평균의 평균과 표본평균의 분산을 이용해서 표본평균의 분포를 생각해볼 수 있다. 이와 관련된 유명한 정리로 The Central Limit Theorem (CLT)이 있다. CLT는 데이터(X1, ... , Xn)들이 독립일 때 아래의 식이 성립한다는 내용이다.
- X가 어떤 분포에서 왔든지 IID(Independent and identically distributed)이면, 표본평균은 asymptotically normal distribution을 따른다는 놀라운 내용이다 😮.
- n이 무한대로 갈 때, '루트 n'과 '표본평균-population mean'이 상쇄되어 무한대나 0으로 가지 않는다 (Convergence ratio).
하지만 모분산(population variance)를 모를 때 대신 sample standard error를 사용할 수 있다. 즉, 데이터들이 독립일 때 아래가 성립한다.
우리는 이 분포를 이용하여 신뢰 구간을 구하거나 가설 검정 등을 할 수 있다.
Reference
- Wasserman, L. (2004). All of Statistics: A concise course in statistical inference.
'Statistics' 카테고리의 다른 글
[통계 기초] Type 1 error와 Type 2 error (false positive와 false negative) (0) | 2021.04.28 |
---|---|
[통계 기초] Bootstrap (부트스트랩) (0) | 2021.04.21 |
[통계 기초] 공분산과 상관 계수 (Covariance and Correlation) (0) | 2021.04.19 |
[통계 기초] 신뢰 구간과 가설 검정, 유의 확률 (Confidence interval, Hypothesis testing, P-value) (0) | 2021.04.19 |
[통계 기초] 평균 제곱 오차 (Mean square error, MSE) (0) | 2021.04.19 |