Bioinformatics/Metagenomics

[MAG] Metagenome-Assembled Genome이란? 개념과 현황

2021. 2. 10. 10:58

Metagenome-assembled genome (MAG)이란, metagenome data에서 확인한 genome을 의미한다. 세균의 종류는 굉장히 다양하여 배양만으로는 알 수 없는 세균들도 존재하는데, metagenome에서 sequence를 de novo assembly하여 알 수 없었던 세균의 genome을 알아낼 수 있다.

 

De novo assembly와 MAG

De novo assembly는 아래와 같은 방식으로 진행된다. Sequence reads에서 시작하여 최종적으로는 continuous sequence를 만들어 낼 수 있다.

위의 방식으로 metagenome 데이터에서 새로운 세균의 genome을 알아낼 수 있고, 이것이 MAG이다. 그런데 실제로는 metagenome 데이터에서 Entire genome이 바로 나오지는 않고, 추가적인 과정이 필요하다. 묶여서 나온 sequence를 GC content와 상대적 coverage를 바탕으로 plotting을 해보면, 비슷한 sequence는 서로 묶이게 되고, 이 cluster가 하나의 genome에 해당한다고 생각하여 entire genome (MAG)을 구성할 수 있다.

 

MAG의 발견

RefSeq에 존재하는 cultured bacterial genomes의 수가 약 160,000인데, 아래 세 논문에서 새롭게 찾아는 MAG의 수는 약 200,000개이다.

  • Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle [링크]
  • New insights from uncultivated genomes of the global human gut microbiome [링크]
  • A new genomic blueprint of the human gut microbiota [링크]

또 새로운 uncultured genus인 Cibiobacter도 밝혀내었다. 이는 human gut microbiome에 전세계적으로 널리 퍼져있고, highly abundant하며, phylogenetic tree 상에서 Ruminococcus Faecalibacterium 사이에 존재하는 genus이다.

 

Read cloud sequencing

문제는 위에서 얻어내는 MAG이 highly fragment, incomplete하다는 점이다. 그래서 얻어내는 MAG의 품질을 높이기 위한 방법이 등장하였다: Read cloud. 이는 short-read sequences tagged with long-range information를 활용하는 방법으로, 구체적인 내용은 (Bishar, 2018)에서 확인할 수 있다.

 

하지만 이 방법도 여전히 assembly의 quality가 좋지 않다 (N50으로 판단했을 때).

 

MAG with Nanopore Sequencing (nMAG)

Quality를 향상시키기 위하여 Nanopore sequencing을 활용하는 방법이 등장하였다. Nanopore sequencing은 기존의 Illumina sequencing보다 sequence read를 더 길게 얻을 수 있다. 이를 활용하는 과정은 다음의 두 단계로 구성된다.

  1. Nanopore sequencing (High yield, High molecular weight DNA extraction)
  2. Assembly (LATHE, github.com/bhattlab)

이를 통해 full length genome을 얻을 수 있게 되었다.

그 예로 Prevotella copri candidate Cibiobacter sp의 contiuous & complete한 genome을 얻을 수 있었다 (Moss, 2020). 기존의 MAG과 비교하여, 더 많은 gene 및 16S rDNA를 확인할 수 있었다.

 

물론 Nanopore sequencing의 정확도가 낮아서 보통은 Nanopore(Long read, high error rate)와 Illumina sequencing(Short read, low error rate)을 함께 사용한다.

728x90
반응형