샘플 내 다양성을 파악하기 위해 우리는 alpha diversity를 계산한다. 그런데 다양한 종류의 diversity metrics가 존재하며, 어떤 metric이 유의하게 높더라도 다른 metric은 유의하지 않을 수도 있다. 그렇다면 이러한 metrics 간에 어떠한 차이가 있는지 알아보았다.
Commonly used estimates for alpha diversity
Species richness
Species richness는 샘플이 다양한 종을 포함할수록 값이 커진다. 예를 들어 샘플_1은 OTU A, B를 가지고 있고, 샘플_2는 OTU A, B, C를 가지고 있을 때 species richness는 샘플_2보다 샘플_1에서 더 크다. 이러한 species richness를 나타내는 metric에는 ACE [참조], Chao1 [참조], Jackknife [참조] 등이 있다.
위 indicies는 마이크로바이옴 데이터 분석에 적합하지 않다. Rarefying에 따라 값이 크게 달라질 수 있고, 이들 계산에는 모두 singletons가 필요하기 때문이다 [참조]. Singletons와 관련하여 바람직하지 않은 이유에는 두 가지가 있다. 1) 먼저 singletons은 실제 종으로부터 왔다고 여겨지기 보다는 대부분 error이다. 그래서 singletons를 포함하여 계산할 경우 diversity가 실제 값보닥 훨씬 더 크게 계산될 수 있다. 2) 또 현재 NGS amplicon data를 다루는 방법들은 대부분 singletons을 기본적으로 제거한다. 즉, 결과로 애초에 singletons가 없기 때문에 richness 계산을 할 수가 없다.
Chao1
Chao1을 예로 들면 다음과 같다. Chao1은 데이터가 Poisson distribution을 따른다고 가정하여 unobserved taxa를 estimate하고자 하는 방식이다. 이는 어떻게 data를 가공했는지 (rarefying depth 포함), 어떻게 rare taxa를 filtering 했는지 (singleton, doubleton)에 따라 값이 굉장히 크게 달라질 수 있다. 일반적인 microbiome workflow는 이러한 rarefying과 rare species를 제거하는 과정을 포함하기 때문에 Chao1의 사용은 적합하지 않다.
특히 ASV pipeline의 경우 default로 singletons를 제거하기 때문에 그러한 데이터에 Chao1을 쓰는 것은 적합하지 않다 [참조].
Observed features (Species richness)
한편, 데이터에 singletons를 남기지 않거나 meaningful singletons를 가지고 있지 않는 방법을 사용할 때는 단순히 taxa의 종류가 몇 개인지 세서 species richness를 파악할 수 있다. 논문에 따라 observed features 대신 species richness로 표현하는 경우도 존재하는 것 같다 [참조].
Species evenness
Species evenness는 샘플이 균일한 분포를 가질수록 값이 커진다. 예를 들어 샘플_1은 OTU A (50%), OTU B (50%)를 가지고 있고, 샘플_2는 OTU A (99%), OTU B (1%)를 가지고 있을 때 species evenness는 샘플_2보다 샘플_1에서 더 크다. 이러한 species evenness를 나타내는 metric에는 Shannon, Simpson, NPShannon 등이 있다.
Shannon/Simpson 계산에는 singleton이 필요 없다 [참조].
Shannon
Shannon은 모든 종이 같은 비율을 가질 때 최대 값을 가진다 [참조]. Shannon은 rare species에 down weight를 줘서 diversity를 estimate하고, unobserved diversity는 estimate하려고 하지 않는다. 따라서 Chao1보다 rarefying depth에 따른 영향이 적으며, rarefaction curver를 확인해봐도 굉장히 적은 sequences에서도 plateau가 있는 것을 볼 수 있다 (processing bias에 더 resistant하므로 더 믿을만 하다). 하지만 일반적으로 effect size가 작다 [참조].
Simpson
Simpson은 random하게 두 개의 sequences를 선택했을 때 두 sequences가 서로 같은 종일 확률을 나타낸다. 따라서 0과 1 사이의 값을 가지며, 다른 metrics와 달리 값이 작을수록 diversity가 더 크다 [참조]. Rare taxa에 덜 민감하다.
NPShannon
NPShannon은 Shannon's index의 nonparametric estimation으로서, variance estimator를 제공하고, unobserved taxa에 대해 설명하지만, singleton count에 굉장히 민감하다는 단점이 존재한다 [참조].
New perspective
Alpha diversity metrics에 대한 새로운 관점도 존재한다 [참조]. 기존의 metrics는 1) unobserved taxa를 설명하지 않기 때문에 true diversity보다 낮은 값으로 bias되어 있거나 (Shannon 등의 단점), 2) variance가 존재함에도 불구하고 variance estimates를 제공하지 않는다는 단점이 존재한다.
그렇기 때문에 bias correction (incorporating unobserved taxa)과 variance adjustment (measurement error model)이 있는 estimates를 사용해야 한다고 주장한다.
그러한 estimate에는 Chao-Bunge [참조]와 breakaway [참조] estimators가 있다. 이들은 taxonomic richness를 측정할 때 variance estimates를 제공하고, unobserved taxa를 설명하며, singleton count에 sensitive하지 않다 [참조].
Breakaway estimators
Breakaway의 경우 QIIME package로 구현이 되어있다 [참조]. Breakaway를 사용하여 richness estimates를 구할 수 있다. 이는 diversity를 분석하기 전 rarefying 등의 normalization이 필요 없으며, 결과로 estimate, error, lower, upper를 제공한다 (아마 여러 번 구했을 때의 최대값이 upper, 최소값이 lower, 모든 값으로 계산한 standard error가 error인 듯 하다 - 확실하지는 않음). 즉, 위 package를 통해서 unobserved taxa를 설명하는 estimates를 구하고 그의 error bar까지 함께 나타낼 수 있다.
Breakaway는 missing diversity를 예측하기 위해 low abundance taxa를 이용한다. 일반적인 ASV pipeline은 singleton을 error로 생각하여 전부 제거하기 때문에 잘 동작하지 않을 수 있다는 단점이 있다. 위 저자들이 더 나은 방법을 추구하겠다고는 하던데, 일단은 ASV pipeline을 돌릴 때 pooling을 거친 파일을 input으로 넣으라고 이야기한다. 즉, 샘플 각각에 대해서 ASV를 구하는 것이 아니라, 샘플 전체에서 ASV를 구하라는 뜻으로, 이는 singleton으로 취급되어 사라지는 경우가 적어질 수 있기 때문이다.
결론
Chao1과 같은 species richness는 microbiome piplines에 적합하지 않으며, 더 robust한 Shannon을 쓰는 것이 diversity를 파악하기 좋은 방법이라 생각된다.
하지만 Shannon의 effect size가 작기 때문에 observed features를 대신 사용할 수도 있다.
또한 bias correction 및 variance adjustment을 하고자 한다면 Amy Willis' breakaway를 사용할 수 있다 (q2-breakaway). 이는 unobserved taxa를 포함한 richness를 예측하고, estimate의 variance를 사용한다. 물론 Chao1도 unobserved taxa를 포함한 richness를 예측하지만, 위에서 서술한 단점을 생각하여 지양하는 것이 좋다.
이외에도 다양성과 관련된 다양한 지수들에 대해서는 아래 문서를 참고하면 좋다. Inverse Simpson (ENS_pie alpha diversity measure, 1/D), Simpson's index (1-D), Simpson's evenness measure E 등의 구분이 헷갈릴 수 있는데, 어떻게 계산하는지, 관련 문서는 무엇이 있는지 등이 잘 정리되어 있다.
http://scikit-bio.org/docs/latest/generated/skbio.diversity.alpha.html#module-skbio.diversity.alpha
Reference
- Chao, Anne, and Shen-Ming Lee. "Estimating the number of classes via sample coverage." Journal of the American statistical Association 87.417 (1992): 210-217.
- Chao, Anne. "Estimating the population size for capture-recapture data with unequal catchability." Biometrics (1987): 783-791.
- Burnham, Kenneth P., and W. Scott Overton. "Robust estimation of population size when capture probabilities vary among animals." Ecology 60.5 (1979): 927-936.
- Magurran, Anne E. Measuring biological diversity. John Wiley & Sons, 2013.
- Chao, Anne, and Tsung-Jen Shen. "Nonparametric estimation of Shannon’s index of diversity when there are unseen species in sample." Environmental and ecological statistics 10.4 (2003): 429-443.
- https://forum.qiime2.org/t/alpha-diversity-metrics-for-unequal-sample-size-groups/18982
- https://forum.qiime2.org/t/singletons-and-diversity-richness-indices/2971/9
'Bioinformatics > Metagenomics' 카테고리의 다른 글
[생물정보학] 배양하지 못한 미생물의 유전체: SAG와 MAG (0) | 2021.08.04 |
---|---|
[생물정보학] 마이크로바이옴 데이터 분석 방법 및 개념 (amplicon data) (0) | 2021.07.27 |
[MDB] Gene Catalog 및 Genome Catalog를 정리한 Microbiome database (0) | 2021.07.14 |
[용어 설명] Microbiome, Microbiota, Metagenome 차이 (0) | 2021.07.01 |
[QIIME2] 주로 사용하는 QIIME2의 plugins 정리 (0) | 2021.03.31 |