Statistics

[통계 기초] ANOVA (분산 분석)

2021. 5. 23. 21:34

  Analysis of variance (ANOVA)는 3개 이상의 그룹에서 평균의 차이가 있는지 알아볼 때 사용할 수 있는 방법이다 (2개 그룹에서는 t-test를 사용한다). 이때 ANOVA에서는 모집단이 정규분포를 따르며, 분산이 동일하다는 것을 전제한다 (따라서 등분산 여부를 Bartlett's test를 통해 먼저 검정해 볼 수 있다: H0를 기각할 수 없다면 ANOVA를 적용 가능).

  ANOVA에서의 null hypothesis는 "모든 그룹의 평균이 동일하다"이기 때문에 null hypothesis를 기각하더라도 정확히 어떤 그룹 간의 평균이 다른지는 알 수 없다. 따라서 이를 알기 위해서는 사후 검정 (post hoc analysis)를 진행해야 한다. 이는 그룹 쌍을 하나씩 비교하여 평균이 유의미하게 다른 쌍을 찾는 과정이다.

  사후 검정은 다중비교 문제이기 때문에 multiple test correction을 사용하여 검정을 진행해야 한다. 즉, multiple t-test를 그대로 진행하는 것이 아니라, p-value를 adjust하는 등의 방법을 거친 후 진행해야 한다. Bonferroni correction, Benjamini-Hochberg (BH) procedure 이외에도 다양한 방법들이 존재하며, 이들을 이용하여 평균에 유의미한 차이를 보이는 그룹 쌍을 찾아낼 수 있다.

 

  이 포스팅에서는 ANOVA가 구체적으로 어떤 원리로 진행되는 것인지, 어떤 종류가 있는지 알아보겠다.

 

One-way ANOVA (일원배치 분산분석)

  One-way ANOVA는 결과에 영향을 미칠 수 있는 요인이 하나일 때 사용하는 분석 방법이다. 예를 들어, 대조군과 약물A, 약물B 간의 효과 정도의 차이를 비교할 때 one-way ANOVA를 사용할 수 있다. 이때 One-way ANOVA는 대응이 없는 경우와 대응이 있는 경우로 나눠지는데, 더 간단한 대응이 없는 경우부터 설명하겠다.

 

대응이 없는 one-way ANOVA

  먼저 total variation, variation between subgroup, variation within subgroup을 이해하면 좋다.

  • Total variation: 전체 평균과 전체 데이터 간 차이의 제곱 합으로, Variation between subgroup와 Variation within subgroup의 합과 같다.
  • Variation between subgroup: 전체 평균과 집단 평균 간 차이의 제곱 합으로, 요인 효과 정도를 나타낸다
  • Variation within subgroup: 집단 평균과 집단 내 데이터 간 차이의 제곱 합으로, 오차 효과의 정도를 나타낸다.

  이때 between variation이 within variation보다 상대적으로 더 크다면 검정하고자 하는 요인의 효과가 있다고 할 수 있다. 따라서 대응이 없는 one-way ANOVA에서는 "[Between variation을 자유도로 나눈 요인분산]/[Within variation을 자유도로 나눈 오차분산]"을 검정 통계량 (test statistics)으로 사용한다. 이 값이 F-distribution을 따른다고 알려져있기 때문에 분포의 어디에 위치해있는지를 파악함으로써 p-value를 계산할 수 있다.

  Varaince에 대한 그림은 다음 링크에서 확인할 수 있다: https://statistics.laerd.com/statistical-guides/repeated-measures-anova-statistical-guide.php

 

Repeated Measures ANOVA - Understanding a Repeated Measures ANOVA | Laerd Statistics

Repeated Measures ANOVA Introduction Repeated measures ANOVA is the equivalent of the one-way ANOVA, but for related, not independent groups, and is the extension of the dependent t-test. A repeated measures ANOVA is also referred to as a within-subjects A

statistics.laerd.com

 

대응이 있는 one-way ANOVA

  대응이 있는 one-way ANOVA는 각 그룹에서 동일한 개체가 사용되었을 때 적용될 수 있는 방법이다. 예를 들어, 모든 피험자가 위약, 유산균A, 유산균B를 시기를 나누어 섭취한 후 그 효과를 측정하였다면 대응이 있는 one-way ANOVA를 사용해야 한다. 그렇게 해야 개체 간의 차이를 고려한 검정이 가능하다.

  더 구체적으로 서술하자면, within variation은 원래도 개체 간의 차이에 의한 variation을 포함하고 있는데, 대응이 있을 경우에는 추가적으로 개체 간의 차이에 의한 variation을 분리한 within variation을 사용하여 분석한다. Between variation은 대응이 있는 one-way ANOVA와 동일하게 사용한다. 즉, 대응이 있는 one-way ANOVA가 "[Between variation을 자유도로 나눈 요인분산]/[Within variation을 자유도로 나눈 오차분산]"을 검정 통계량으로 사용하였다면, 대응이 없을 경우에는 "[Between variation을 자유도로 나눈 요인분산]/[(Within variation-개체 간의 차이에 의한 variation)을 자유도로 나눈 오차분산]"을 사용한다고 이해하면 된다.

  Varaince에 대한 그림은 다음 링크에서 확인할 수 있다: https://statistics.laerd.com/statistical-guides/repeated-measures-anova-statistical-guide.php

 

Repeated Measures ANOVA - Understanding a Repeated Measures ANOVA | Laerd Statistics

Repeated Measures ANOVA Introduction Repeated measures ANOVA is the equivalent of the one-way ANOVA, but for related, not independent groups, and is the extension of the dependent t-test. A repeated measures ANOVA is also referred to as a within-subjects A

statistics.laerd.com

  위 방식으로 개체 간의 차이에 의한 variation을 제거한 within variation을 사용하면 개체 간의 차이가 큰 경우에 높은 정확도를 기대할 수 있다. 반면, 개체 차이가 작은 경우에는 요인효과를 검출하기 어려울 수 있다.

 

Two-way ANOVA (이원배치 분산분석)

  Two-way ANOVA는 검정하고 싶은 요인이 2개인 경우 사용할 수 있다. 이 경우, 각 요인의 main effect 외에 interaction effect까지 총 3개의 효과를 검정할 수 있다 (null hypothesis는 '효과 없음'). 이때 interaction effect란, 두 요인이 함께 작용하여 가져올 수 있는 상승이나 상쇄 효과를 말한다.

  Two-way ANOVA에서는 between variance를 1) 요인 A의 main effect에 의한 between variance, 2) 요인 B의 main effect에 의한 between variance, 3) interaction effect에 의한 between variance로 나눌 수 있다. 3)을 계산할 때는 between variance에서 1)과 2)의 합을 빼준다. Within variation은 대응이 없는 one-way ANOVA와 동일하게 사용한다. 즉, "[1)을 자유도로 나눈 분산]/[Within variation을 자유도로 나눈 오차분산]", "[2)를 자유도로 나눈 분산]/[Within variation을 자유도로 나눈 오차분산]", "[3)를 자유도로 나눈 분산]/[Within variation을 자유도로 나눈 오차분산]", 총 3가지의 test-statistics를 이용하여 3번의 검정을 실시하는 것이다.

  Variance에 대한 그림은 다음 링크에서 확인할 수 있다: https://sixsigmastudyguide.com/anova-analysis-of-variation/

 

ANOVA Analysis of Variation | Six Sigma Study Guide

An ANOVA usually is used to compare the means of three or more factors.

sixsigmastudyguide.com

  이때 주효과 뿐만 아니라 교호작용의 경우에도 있는지 없는지만 알 수 있으며, 실제로 교호작용이 있을 때 어떤 관계 (상승, 상쇄)가 있는지 알려면 그래프를 그려서 알아봐야 한다 [참조]. 또한 반복 횟수가 같지 않은 불균형 데이터의 경우 주의해야 한다. 불균형 데이터의 경우 계산의 순번이 영향을 미칠 수 있으므로 이를 조정할 필요가 있는데,그 방법으로 제곱합 타입(Type) I, II, III, IV가 존재한다. 타입 III의 경우 주효과와 교호작용 모두 조정되는 방법으로 소프트웨어에서 default로 주로 사용된다.

 

 

Reference

  • 통계학 도감

 

 

728x90
반응형