Statistics

[통계] Independent filtering의 개념 (DESeq2)

2023. 1. 28. 17:11

두 그룹 간 abundance가 유의하게 다른 feature를 찾을 때 DESeq2 등의 differential gene expression (DEG) analysis tool을 사용할 수 있는데, DESeq2에 independent filtering이라는 개념이 있었다.

 

일반적으로 다수의 가설을 검정할 때 false positive(맞다고 했는데 틀림)의 수가 늘어날 수 있기 때문에 이를 보정하기 위해 multiple testing correction을 수행한다. DEG 분석 수행 시에도 각각의 features에 대해 검정을 수행하기 때문에 multiple testing correction을 하는 것이 일반적이다.

 

그런데 multiple testing correciton을 통해 false positive(맞다고 했는데 틀림)의 수를 줄일 수 있지만, 반대로 false negative(아니라고 했는데 틀림)의 수가 늘어날 수 있다. 즉, 검정력(대립가설이 사실일 때, 이를 사실로서 결정할 확률 [2])이 떨어질 수 있다.

 

Independent filtering은 위 문제를 어느 정도 해결하기 위한 방법으로, 모든 가설을 multiple testing correction에 고려하지 않고, 그럴 듯한 일부의 가설만 고려하는 전략이다. 그래서 independent filtering을 적용하면 전체에 대해 multiple testing correction을 적용했을 때보다 유의한 feature를 더 많이 얻을 수 있다.

 

아래에 independent filtering에 대한 설명을 볼 수 있고, 관련된 논문도 확인할 수 있다 [1,3].

 

https://uclouvain-cbio.github.io/WSBIM2122/sec-rnaseq.html

 

아래 질문에서 independent filtering의 효과를 확인해볼 수 있다 [4]. DESeq2의 results function에서는 independent filtering을 적용할 features를 alpha 값을 기준으로 선정하는데 default는 alpha=0.1이다. 이때 단순히 alpha 값을 기준으로 해당하는 feature만 보여주는 summary function의 alpha와 구분해줘야 한다. 즉, alpha=0.1을 적용했을 때 0.05 값을 기준으로 해당하는 features의 수를 확인해보면 (summary(res, alpha=0.05)), alpha=0.05를 적용했을 때 0.05 값을 기준으로 해당하는 확인한 features의 수 (summary(res.05, alpha=0.05))보다 더 적은 것을 확인할 수 있다: 1814 VS 1797, 2210 VS 2197.

 

https://support.bioconductor.org/p/104618/

 

 

Reference

  1. https://uclouvain-cbio.github.io/WSBIM2122/sec-rnaseq.html
  2. https://ko.wikipedia.org/wiki/%EA%B2%80%EC%A0%95%EB%A0%A5
  3. Bourgon, Richard, Robert Gentleman, and Wolfgang Huber. "Independent filtering increases detection power for high-throughput experiments." Proceedings of the National Academy of Sciences 107.21 (2010): 9546-9551.
  4. https://support.bioconductor.org/p/104618/
728x90
반응형