이 포스팅에서는 마이크로바이옴 데이터를 어떻게 분석하는지, 관련 개념에는 무엇이 있는지 개괄적으로 알아보고자 한다.
분석 데이터
일반적으로 마이크로바이옴 분석은 amplicon data를 사용하여 분석한다. 여기에서 amplicon이란, "a piece of DNA or RNA that is the source and/or product of amplification or replication events" (1)을 의미한다. 즉, 마이크로바이옴 분석은 샘플에 굉장히 많은 종류의 DNA가 있을 때, 이 중 일부의 DNA 조각만 증폭한 데이터 (amplicon data)를 사용하여 보통 분석한다.
그럼 어떤 종류의 DNA 조각을 증폭할까? 마이크로바이옴을 구성하는 세균에 대해서 분석을 할 때 사용하는 것이 16S ribosomal RNA (rRNA) gene이다 (참고로 마이크로바이옴은 세균 외에도 고세균, 곰팡이, 원생동물, 바이러스 등도 포함한다). 이 유전자 (16S rRNA를 만드는 유전자, DNA)는 ~1,500 bp의 서열을 가지고 있으며 세균의 phylogenetic marker로서 기능하는데, highly conserved regions + hypervariable regions로 구성되어 있기 때문이다 (다음 그림 참고). Highly conserved regions을 통해 PCR amplification에서 primers가 16S rRNA gene을 인식할 수 있고, hypervariable regions을 통해 각 세균의 종류에 따른 구분이 가능하다 (총 9개의 hypervariable regions이 존재하며, V1, V2, ..., V9이라고 한다).
결론적으로 16S rRNA gene의 conserved regions를 인식하는 primer를 사용하여 PCR을 하면, 16S rRNA gene에 해당하는 DNA 조각(hypervariable region)만 증폭된 amplicon data를 얻을 수 있고, 이를 마이크로바이옴 분석에서 사용할 수 있다.
참고로 각 논문마다 어떤 hypervariable region을 사용했는지 method 섹션에서 확인할 수 있다. 주의해야할 점은 여러 논문의 데이터를 합쳐서 분석할 때 (meta-analysis) 서로 다른 region을 합쳐서 사용하면 안된다는 점이다. 이는 region마다 서로 다른 binding affinities를 갖는 primers를 사용하고, resolution도 다르기 때문이다 (5, 6).
또 culturing을 하지 않는 분석법에서 현재 amplicon data가 많이 사용되기는 하지만, shotgun metagenomic data를 쓰는 쪽으로 점점 넘어가는 추세이다. 이는 16S rRNA gene과 같은 일부 DNA 조각만 증폭된 amplicon data와 달리, 샘플에 존재하는 모든 DNA 조각을 의미한다. 그래서 데이터베이스만 잘 구축되어 있다면 amplicon data보다 더 나은 taxonomic & functional resolution을 보여줄 수 있다 (가격은 더 비싸다). 관련 내용은 다음에 다루려고 한다.
분석 과정
Amplicon data를 가지고 있다면 이를 분석에 이용할 수 있다. 마이크로바이옴 분석은 크게 아래와 같이 구성된다.
참고로 QIIME2를 이용하면 amplicon data에 대한 거의 모든 분석이 가능하다. Tutorial 및 Forum을 참고하면 내용 이해에 도움이 된다. 이 포스팅에서는 세세한 QIIME2 commands 보다는 각 분석 과정과 관련된 개념을 소개하려고 한다.
1. Denoising
마이크로바이옴 분석에서는 먼저 amplicon data에서 denoising 과정을 거쳐 amplicon sequence variants (ASVs)를 얻어내야 한다. Amplicon data가 제대로 증폭된 16S rRNA gene만 포함하는 상황이 가장 이상적이지만, 실제로는 그렇지 않다. Amplicon data는 다양한 종류의 sequence errors (PCR error와 Sequencing error (2))를 포함하고 있기 때문에 이 중에 error가 아니라고 생각되는 sequence만 뽑아내야 한다. 아래 그림으로 이해할 수 있다.
즉, sequence errors를 포함하는 amplicon data에서 이를 제거하여 error가 아니라고 생각되는 sequence만 남긴 것이 ASVs이고, 그러한 과정이 denoising이다. 하지만 위 그림에서도 표현하였듯이, sequence error가 모두 제거되는 것은 아니며, 실제로는 error가 아닌 sequence도 error라고 판단되어 제거될 수도 있다는 한계점이 존재한다.
사실 이러한 denoising 방법은 최근에 등장한 방법으로 이전에는 OTU clustering 방법이 주로 사용되었다. 하지만 denoising보다 해상력이 낮기 때문에 OTU clustering 방법을 사용하는 것은 지양하도록 하자.
2-1. Diversity analysis
ASVs를 얻은 이후에는 다양성 분석 (diversity analysis)를 할 수 있다. 다양성 분석은 종 다양성을 확인하는 과정으로, 이를 나타내는 지표에는 alpha diversity와 beta diversity가 있다. Alpha diversity는 샘플 '내' 다양성을 나타내고, Beta diversity는 샘플 '간' 다양성을 나타낸다. 예를 들어, 어떤 특정 샘플의 종 다양성이 높은지, 낮은지는 alpha diversity를 통해 알 수 있고, 두 샘플의 구성이 얼마나 다른지는 beta diversity를 통해 알 수 있다.
Alpha, beta diveristy의 계산에는 다양한 종류의 측정법이 사용될 수 있다.
먼저 alpha diversity measures에는 chao1, Observed features, Shannon entropy, Simpson’s index 등이 있다. 이때 chao1, Observed features은 species richness를 나타내고, Shannon entropy, Simpson’s index는 species evenness를 나타낸다. 종 다양성은 1) 세균이 얼마나 많은지, 2) 세균이 얼마나 균일한지 두 측면에서 설명될 수 있는데, species richnes는 전자를, species evenness는 후자를 나타낸다. 예를 들어, 예를 들어 샘플A는 ASV1, ASV2를 가지고 있고, 샘플B는 ASV1, ASV2, ASV3를 가지고 있을 때 species richness는 샘플A보다 샘플B에서 더 크다. 한편, 샘플A는 ASV1 (50%), ASV2 (50%)를 가지고 있고, 샘플B는 ASV1 (99%), ASV2 (1%)를 가지고 있을 때 species evenness는 샘플B보다 샘플A에서 더 크다.
Beta diversity measure에는 Jaccard distance, Bray-Curtis distance, unweighted UniFrac distance, weighted UniFrac distance 등이 있다 (3, 4).
- Jaccard distance: a qualitative measure of community dissimilarity (있는지, 없는지만)
- Bray-Curtis distance: a quantitative measure of community dissimilarity (Abundance 고려)
- unweighted UniFrac distance: a qualitative measure of community dissimilarity that incorporates phylogenetic relationships between the features
- weighted UniFrac distance: a quantitative measure of community dissimilarity that incorporates phylogenetic relationships between the features
- 이때 UniFrac distance는 phylogenetic relationships을 고려하기 때문에 ASVs에 대하여 MSA -> tree construction을 진행하여 계통수를 먼저 얻어야 한다.
- 또 어떤 metrics를 쓸지는 검정하고자 하는 가설에 따라 달라진다: 표현형에 따라 relative abundance와 presence/absence 중 더 큰 영향을 받는 쪽이 다르기 때문이다 (7, 8). Abundant taxa에 초점을 두고 싶다면 Bray-Curtis 및 weighted UniFrac을 사용하고, rare taxa도 중요하게 다루고 싶다면 Jaccard 및 unweighted UniFrac을 사용한다. 물론 여러가지 metrics를 사용하는 것이 데이터에 대한 더 넓은 해석을 가능하게 해준다
위 metrics 중 하나를 선택해서 beta diversity를 계산하면, 각각의 샘플 간의 거리에 대한 matrix ("샘플 X 샘플")를 얻을 수 있다. 하지만 matrix만으로는 한눈에 샘플 간의 관계를 파악하기 어렵기 때문에 Principal coordinates analysis (PCoA)를 추가로 진행한다. 이 분석으로 dimension을 낮춰서 PCoA plot을 얻으면 샘플 간의 관계를 쉽게 파악할 수 있다. 이때 PCoA plot의 축에 적힌 %의 의미는 축이 설명하는 데이터의 variation 정도(eigenvalues)를 의미한다. 예를 들어, 예를 들어 Axis 1 이 20%라면 실제 데이터의 variation 중 20%만을 설명하는 축이라는 뜻이다. 즉, Axis 1만 가지고는 데이터 분포의 15.32%만 확인할 수 있다. 좋은 PCoA plot은 2~3개의 축이 50% 이상을 설명하는 경우라고 한다 (9).
2-2. Taxonomic analysis
ASVs에 대해서 다양성 분석 (diversity analysis) 외에 taxonomic analysis도 진행할 수 있다. 이는 각각의 ASVs (sequence, 16S rRNA gene)가 어느 세균으로부터 왔을지 알아보는 것이다. 이를 위해서는 reference database가 필요하다. Reference database는 1) "세균의 이름" + 2) "세균이 가진 16 rRNA gene sequence" 정보로 구성된다. 대표적인 reference database에는 Greengenes, RDP, SILVA 등이 있다. 이 reference database와 비교하여 우리가 가진 ASVs가 어떤 세균으로부터 유래했는지 파악할 수 있다. 그를 바탕으로 composition을 구해서 bar plot 등으로 나타낼 수 있다.
Reference
- https://en.wikipedia.org/wiki/Amplicon
- Edgar, Robert C. "UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing." BioRxiv (2016): 081257.
- https://bioinfoblog.tistory.com/81
- docs.qiime2.org/2021.2/tutorials/moving-pictures/
- https://www.nature.com/articles/ismej2011208
- https://www.frontiersin.org/articles/10.3389/fmicb.2016.00459/full?report=reader#B116
- https://www.frontiersin.org/articles/10.3389/fmicb.2016.00459/full?report=reader
- https://www.sciencedirect.com/science/article/pii/B9780124078635000198
- https://mb3is.megx.net/gustame/dissimilarity-based-methods/principal-coordinates-analysis
'Bioinformatics > Metagenomics' 카테고리의 다른 글
[용어 설명] Metagenome과 Metatranscriptome (0) | 2021.08.12 |
---|---|
[생물정보학] 배양하지 못한 미생물의 유전체: SAG와 MAG (0) | 2021.08.04 |
[Alpha diversity] Diversity metrics 비교 (Species richness, Species evenness) (0) | 2021.07.27 |
[MDB] Gene Catalog 및 Genome Catalog를 정리한 Microbiome database (0) | 2021.07.14 |
[용어 설명] Microbiome, Microbiota, Metagenome 차이 (0) | 2021.07.01 |