Study/Paper Summary

[Perspective] Alpha diversity를 측정할 때의 문제점 및 개선 방향

2021. 5. 14. 12:39

내용 구성

  • Microbiome 데이터 분석 시 Measurement Error (Variance)가 존재한다 (Read 수가 달라지기 때문 등, 샘플을 얻을 때마다 계산되는 diversity 값이 달라질 수 있다). 하지만 현재 이러한 measurement error를 microbial diversity 연구에서 다루지 않는다.
  • 또한 alpha diversity를 estimating하거나 comparing할 때 bias가 존재한다
    • Estimating (Sample richness, raw data): 일반적으로 사용되는 alpha diversity indices의 plug-in estimates는 true alpha diversity에 대해서 negatively biased되어 있다 (더 작은 값). <- 특히 실제로는 있지만 관측이 되지 않은 taxa가 존재할 때 (unobserved taxa, missing taxa) bias가 더 존재한다. 즉, 전체 모집단이 아니라 샘플에서 분석하는 값(상대적으로 작은 샘플 사이즈)이기 때문에 생기는 bias.
    • Comparing (Rarefied richness, rarefied data): 비교할 때 rarefying을 주로 하는데, 이 역시 negative bias를 가져오고, 비교에 있어 모든 정보가 사용되지 않는다.
  • Alpha diversity metric을 비교하기 위해서는 bias correction (incorporating unobserved taxa)과 variance adjustment (measurement error model)이 있어야 한다.
  • 즉, Unobserved taxa를 설명하지 않고, variance estimates를 제공하지 않는 alpha diversity indices가 현재 많이 쓰이지만 이를 쓰지 않아야 한다.
  • Chao-Bunge [참조]와 breakaway [참조] estimators는 taxonomic richness를 측정하는데, variance estimates를 제공하고, unobserved taxa를 설명하며, singleton count에 sensitive하지 않다 [저자가 추천하는 estimates].

 

참고

  • Rarefied estimates는 똑같이 biased되어있으므로 비교가 가능하지 않느냐는 질문이 있을 수 있는데, 똑같이 bias가 일어나지 않는 것이 보통이다: 애초에 sampling시 서로 다른 bias가 생길 수 있는데 (different abundance structures), rarefying한다고 해도 같아지지는
  • Incorporating unobserved taxa란, the number of unobserved species의 estimate를 더해주는 방식으로 조정하는 것이다.
  • NPShannon의 경우에도 variance estimator를 제공하고, unobserved taxa에 대해 설명하지만, sinleton count에 굉장히 민감하다는 단점이 존재한다.

 

Reference

  • Willis, Amy D. "Rarefaction, alpha diversity, and statistics." Frontiers in microbiology 10 (2019): 2407.

 

 

728x90
반응형