Multiple Testing Correction
- 다중 비교를 위한 보정(Multiple Testing Correction)은 다수의 가설을 점정할 때 유의수준 α에서 n개의 true H0 중 잘못 기각하는 H0 (false positive)의 수가 평균적으로 αn개가 될 수 있을 때 이를 보정하여 false positive의 수를 줄이는 방법이다.
(참고: 평균적으로 αn개가 되는 이유는 under the null에서 p-value는 uniform distribution[0,1]을 갖기 때문. 한편 alternative가 true일 때는 p-value가 uniform distribution을 따르지 않고 보통 작은 값을 갖게 된다)
Family-wise error rate (FWER) control
- Family-wise error rate (FWER): 적어도 하나의 true H0를 잘못 기각할 확률
- Bonferroni correction: FWER을 α이하로 조절하고자 함. 각각의 테스트의 significance level을 α/n으로 두고 진행한다(level α 대신). False-positive의 수를 확 줄일 수는 있지만 너무 보수적이라는 평가를 받는다.
특히 1) test의 수가 많거나 (test의 수로 alpha를 나눠주면 유의 수준이 작아지고 그에 따라 power가 낮아지기 때문), 2) 각각의 feature 간에 positive correlatoin이 있을 때 (예를 들어, 10,000개의 feature가 만약에 똑같은 성질을 가졌다면 1번의 test와 다를 것이 없지만 FWER에서는 alpha를 10,000으로 나눈 유의 수준을 사용하므로 실제로 원하는 level보다 낮은 level을 사용하게 된다) 더욱 conservative하다.
False discovery rate (FDR) control
- False discovery rate (FDR): false positive/total positive를 나타내는 false-discovery proportion (FDP)의 예측 값.
FDR 5%: 5%까지 false discovery를 허용하겠다. True positives가 많을 때 FWER control보다 FDR control이 더 효율적이다.
- Benjamini-Hochberg (BH) procedure: FDR을 control하는 방법.
1) p-values를 크기 순으로 정렬한다 (가장 작은 것이 1, 두 번째가 2, ...)
2) 아래 식을 만족하는 rank r을 찾는다 (n은 검정하고자 하는 테스트의 수, α는 유의수준)
3) 1부터 r까지의 null hypothesis만 기각한다.
'Statistics' 카테고리의 다른 글
[통계 기초] 신뢰 구간과 가설 검정, 유의 확률 (Confidence interval, Hypothesis testing, P-value) (0) | 2021.04.19 |
---|---|
[통계 기초] 평균 제곱 오차 (Mean square error, MSE) (0) | 2021.04.19 |
[통계 기초] 헷갈리는 용어 정리: 확률, 확률 변수, 확률 함수 (0) | 2021.04.14 |
[t-test] R 코드와 함께 알아보는 t-검정 (One sample t-test, Paired t-test, Two sample t-test) (0) | 2021.03.23 |
[통계학] 특정 상황 별 적용 가능한 통계 기법 정리 (생명과학 실험, 생물정보학) (2) | 2021.02.15 |