Statistics

[통계학] 특정 상황 별 적용 가능한 통계 기법 정리 (생명과학 실험, 생물정보학)

2021. 2. 15. 10:00

신뢰 구간의 추정

1. 모평균의 신뢰 구간: 평균(표본통계량)의 분포 이용
1.1. 모분산을 알 때: normal distribution
1.2. 모분산을 모를 때: t-distribution

2. 모비율의 신뢰 구간: 비율(표본통계량)의 분포 이용 (normal distribution)

3. 모분산의 신뢰 구간: 분산(표본통계량)의 분포 이용 (Chi-squared distribution)

4. 모상관계수의 신뢰 구간: 상관계수(표본통계량)의 분포 이용
4.1. ρ≠0: normal distribution (신뢰 구간의 추정에 이용)
4.2. ρ=0: t-distribution (무상관 검정에 이용)

가설 검정

1. 특정 값 (모평균)과 표본평균 검정 (표본평균과 특정 값이 차이가 있는지)
1.1. 데이터가 정규분포를 따르며, 모분산을 알 때: Standard normal distribution 이용 (z-test)
1.2. 데이터가 정규분포를 따르며, 샘플 수가 적고, 분산을 모를 때: T-distribution 이용 (One sample t-test)
- 데이터가 정규분포를 따르는지 정규성 검정 필요, 샘플이 적다는 것은 보통 30개 미만

2. 특정 값 (모비율)과 표본비율 검정 (표본비율과 특정 값이 차이가 있는지): Standard normal distribution 이용

3. 특정 값 (모분산)과 표본분산 검정 (표본분산과 특정 값이 차이가 있는지): Chi-squared distribution 이용

4. 무상관 검정 (상관계수가 0인지 아닌지): T-distribution 이용
- 대부분 귀무가설이 기각된다 (주의).

5. 평균 차이 검정 (서로 다른 그룹 데이터의 평균이 서로 다른지)
5.1. 두 집단을 비교할 때 (데이터가 정규분포를 따르며, 샘플 수가 적고, 모분산을 모를 때)
5.1.2. 두 집단간의 대응이 있을 때: T-distribution 이용 (Paired t-test)
- 두 집단의 차이에 대한 one sample t-test와 똑같다.
- 데이터가 정규분포를 따르는지 정규성 검정 필요, 샘플이 적다는 것은 보통 30개 미만
5.1.2. 두 집단간의 대응이 없고, 등분산일 때: T-distribution 이용 (Unpaired t-test)
5.1.3. 두 집단간의 대응이 없고, 등분산이 아닐 때: T-distribution 이용 (Unpaired t-test. Welch's t-test)
- 데이터가 정규분포를 따르는지 정규성 검정 필요, 샘플이 적다는 것은 보통 30개 미만
- 기존에는 등분산 검정을 먼저 한 이후에 그 결과에 따라서 t-test를 할지 Welch's t-test를 할지가 나뉘었지만, 검정 전에 검정을 하여 false positive가 커지는 문제(다중 비교 문제)가 생길 수 있다. 그래서 최근 흐름에서는 표본 크기가 비슷할 때는 등분산이라고 생각하여 t-test를 진행하고, 그렇지 않다면 Welch's t-test를 하는 편이다.
5.2. 셋 이상의 집단을 비교할 때 (모집단이 정규분포를 따르며, 분산이 동일):
5.2.1. 요인이 하나이고 대응이 없을 때: 대응이 없는 one-way ANOVA
5.2.2. 요인이 하나이고 대응이 있을 때: 대응이 있는 one-way ANOVA
5.2.2. 요인이 두개일 때: two-way ANOVA
- Multiple t-test는 false positive가 증가할 위험이 있으므로 쓰지 않아야 한다.
- 정확히 어떤 그룹 간의 평균이 다른지는 사후 검정 (post hoc analysis)을 통해 알아내야 한다.

6. 비율 차이 검정 (두 그룹의 모비율이 같은지, 다른지)
7.1. 두 집단 간의 대응이 없고, 표본이 충분히 클 때: Standard normal distribution 이용

7. 등분산 검정 (두 그룹의 분산이 같은지, 다른지): F-distribution 이용 (F-test)

생물정보학

1. 그룹 간의 profile이 얼마나 다른지 확인할 때 (taxonomic composition 등): PERMANOVA (Distance matrix를 계산한 후 수행할 수 있다)

2. 특정 그룹에 specific한 feature를 발견할 때 (ex. Control과 비교하여 특정 질병군과 관련된 유전자 확인): Fihser's exact test

3. 상관 관계가 있는지 볼 때 (True 값 set와 예측 값 set가 서로 얼마나 비슷한지 볼 때 사용 가능): Pearson's correlation coefficient, Spearman rank correlation test

4. 특정 세균이 두 그룹 간의 차이에 어느 정도의 영향을 미치는지 볼 때: SIMPER

5. 특정 요인에 의해 유의미하게 그룹이 구분되는지 확인할 때: ANOSIM (2)
ANOSIM은 그룹 간 similarity가 그룹 내 similarity 이상이라는 귀무가설을 기각할 수 있는지 검정한다. 즉, 유의확률이 낮다면 그룹 간 similarity가 그룹 내 similarity보다 작다(그룹이 유의미하게 구분)는 유의미한 증거가 될 수 있다. 이때 유의확률은 permutation을 반복했을 때 permutations derived R′ values보다 actual R value가 더 큰 경우의 수 비율로 계산된다. R value는 -1과 1 사이의 값을 가지며, 1에 가까울수록 그룹 내부 similarity가 높다는 뜻이다. 또 permutation 횟수는 일반적으로 100 이상으로 잡는다.

Reference

  1. 통계학 도감
  2. https://en.wikipedia.org/wiki/Analysis_of_similarities


728x90
반응형