Statistics 18

[통계 기초] 표본평균의 분포 (sample mean distribution)

1. 평균과 분산 확률 변수 X가 있을 때, X의 평균과 분산(및 표준 편차)은 다음과 같이 구할 수 있다. 2. 표본평균 (Sample mean)과 표본분산 (Sample variance) 확률 변수 X에 대한 n개의 값을 얻었다고 할 때 (X1부터 Xn), 이 sample을 가지고 평균과 분산을 구할 수 있다. 이를 각각 표본평균 (Sample mean)과 표본분산 (Sample variance)이라고 하는데, 아래와 같이 계산된다. 표본분산을 구할 때 n이 아니라 n-1로 나눠주는 이유는 두 가지 방향으로 이해할 수 있다. 먼저 직관적인 측면에서 설명하면, 계산 과정에서 population mean (μ)이 아니라 sample mean을 빼주기 때문이다. Sample mean은 sample에서 es..

Statistics 2021.04.20

[통계 기초] 공분산과 상관 계수 (Covariance and Correlation)

정의 공분산(Covariance)과 상관 계수(Correlation)는 확률 변수 (Random variable)가 두 개일 때, 그들 간의 관계를 summarize해주는 statistics이다. 성질 공분산은 X, Y의 scale에 따라서 값이 달라질 수 있다 (ex. 키의 단위에 따라 값이 달라짐: m, cm). 상관 계수는 공분산을 각각의 표준 편차(standard deviation)로 나누어 보정한 것이기 때문에 scale에 따라 값이 달라지지 않는다. 상관 계수는 -1과 1 사이의 값을 가진다. 상관 계수는 X와 Y 사이의 linear relationship의 정도를 나타내준다. 그래서 X, Y 간의 강한 관계가 있더라도 (ex. 이차식) linear relationship이 아니라면 상관 계수..

Statistics 2021.04.19

[통계 기초] 신뢰 구간과 가설 검정, 유의 확률 (Confidence interval, Hypothesis testing, P-value)

신뢰 구간 (Confidence interval) 정의 특정 parameter θ에 대한 1-α confidence interval은 아래와 같이 정의 된다. 이때 조심해야할 점은 parameter θ (ex. population mean)은 고정된 값이며, 변할 수 있는 값은 confidence interval이라는 점이다. 그래서 95% 신뢰 구간의 경우, 100개의 confidence intervals를 만든다고 했을 때 평균적으로 95개의 confidence intervals가 true θ를 포함할 것이라는 의미로 해석할 수 있다. Normal-based Confidence Interval 특정 parameter θ에 대한 estimator θ hat이 다음의 정규 분포(normal distrib..

Statistics 2021.04.19

[통계 기초] 평균 제곱 오차 (Mean square error, MSE)

평균 제곱 오차 (Mean square error, MSE) MSE란 estimator가 얼마나 잘 작동하는지를 알아보기 위한 측정값으로 작을수록 좋다. 이때 MSE는 bias와 variance로 decomposition 될 수 있다. bias는 아래와 같이 정의되는데, bias가 0일 때 unbiased라고 한다 (θ hat의 expectation이 θ와 같으면 가장 좋겠지만 bias가 존재할 수 있다). 일반적으로 Estimator의 성능을 측정할 때 bias와 variance를 주로 보게 된다 (Low bias, Low variance가 가장 best). 이때 bias-variance tradeoff라는 개념이 존재하는데, bias를 줄이면 variance가 늘어나고 (Overfitting, 복잡한..

Statistics 2021.04.19

[통계 기초] 헷갈리는 용어 정리: 확률, 확률 변수, 확률 함수

용어 정리 1. Sample space, Event, Outcome 확률에 대해 이해하기 전에 위 세 가지 개념을 먼저 이해하면 좋다. Sample space는 모든 가능한 outcome의 집합이며, Event는 sample space의 subset이고, Outcome은 sample space의 element이다. 예를 들어, 동전을 두 번 던진다고 할 때, sample space={HH, HT, TH, TT}가 되고, 첫 번째 동전이 앞면일 사건 A (event)는 {HH, HT}이며, HH와 HT 각각이 outcome이라고 이해하면 쉽다. 2. 확률 (Probability distribution, Probability measure) 확률은 data generation process를 설명하는 언어이..

Statistics 2021.04.14

[통계학] Multiple Testing Correction의 필요성과 방법

Multiple Testing Correction - 다중 비교를 위한 보정(Multiple Testing Correction)은 다수의 가설을 점정할 때 유의수준 α에서 n개의 true H0 중 잘못 기각하는 H0 (false positive)의 수가 평균적으로 αn개가 될 수 있을 때 이를 보정하여 false positive의 수를 줄이는 방법이다. (참고: 평균적으로 αn개가 되는 이유는 under the null에서 p-value는 uniform distribution[0,1]을 갖기 때문. 한편 alternative가 true일 때는 p-value가 uniform distribution을 따르지 않고 보통 작은 값을 갖게 된다) Family-wise error rate (FWER) control..

Statistics 2021.03.24

[t-test] R 코드와 함께 알아보는 t-검정 (One sample t-test, Paired t-test, Two sample t-test)

t-검정은 데이터가 정규분포를 따를 때 샘플 수가 적고, 모분산을 모르는 상황(표본분산은 모분산과 차이가 있으므로 샘플 수가 적을 때 z-test를 쓰면 오차가 발생한다)에서 1) 데이터의 평균이 특정 값과 다른지 (one sample t-test), 2) 두 그룹의 데이터의 평균이 서로 다른지 (two sample t-test) 등을 검정할 때 사용할 수 있다. 이를 R 코드와 함께 알아보도록 하겠다. 참고로 n sum((data-mean(data))**2)/(n-1) # 표본분산 > var(data) # 표본분산 > sqrt(var(data)) # 표본표준편차 > sd(data) # 표본표준편차 > a = qt(p=0.975, df=8, lower.tail=TRUE) # P(-2.3060 pt(q=a..

Statistics 2021.03.23

[통계학] 특정 상황 별 적용 가능한 통계 기법 정리 (생명과학 실험, 생물정보학)

신뢰 구간의 추정 1. 모평균의 신뢰 구간: 평균(표본통계량)의 분포 이용 1.1. 모분산을 알 때: normal distribution 1.2. 모분산을 모를 때: t-distribution 2. 모비율의 신뢰 구간: 비율(표본통계량)의 분포 이용 (normal distribution) 3. 모분산의 신뢰 구간: 분산(표본통계량)의 분포 이용 (Chi-squared distribution) 4. 모상관계수의 신뢰 구간: 상관계수(표본통계량)의 분포 이용 4.1. ρ≠0: normal distribution (신뢰 구간의 추정에 이용) 4.2. ρ=0: t-distribution (무상관 검정에 이용) 가설 검정 1. 특정 값 (모평균)과 표본평균 검정 (표본평균과 특정 값이 차이가 있는지) 1.1. 데..

Statistics 2021.02.15
1 2
728x90
반응형