Bioinformatics/Metagenomics

[생물정보학] 배양하지 못한 미생물의 유전체: SAG와 MAG

2021. 8. 4. 16:27

  일반적으로 세균 등의 미생물 유전체(genome)를 얻기 위해서는 배양(culture)을 하고, 생성된 colony로부터 DNA를 얻는 과정이 필요하다. 하지만 최근에는 이런 배양 과정 없이 미생물의 유전체를 얻는 방법이 등장하고 있으며, 그러한 유전체의 종류에는 single amplified genome (SAG)metagenome-assembled genome (MAG)이 있다.

  이 논문에 SAGs와 MAGs의 역사 (Figure 1) 및 생성 과정 (Figure 2)이 잘 나와있다. 생성 과정을 요약하면 아래와 같다.

  • Single amplified genome (SAG)
    • Environmental sample
    • Single-cell isolation & Whole genome amplification (WGA)
    • Shotgun sequencing & Assembly
    • Single amplified genome (SAG)
  • Metagenome-assembled genome (MAG)
    • Environmental sample
    • Shotgun sequencing & Assembly
    • Genome binning
    • Metagenome-assembled genome (MAG)

  즉, SAG는 먼저 세균을 골라낸 후 시퀀싱하여 얻은 유전체이고, MAG는 먼저 시퀀싱한 후 세균을 골라내어 얻은 유전체이다. 이 포스팅에서는 각각에 대해 정리한 후 관련 기준에 대해서 알아보고자 한다.

 

Single amplified genome (SAG)

  SAG는 먼저 하나의 세균 세포를 골라낸 후 시퀀싱하여 얻은 유전체이다. 언뜻 봐서는 배양 후 colony로부터 시퀀싱하여 얻어낸 유전체와 무엇이 다를까 싶은데, 전자는 하나의 세포이고 후자는 여러 개의 세포라는 차이점이 있다. SAG를 얻는 과정은 하나의 세포로부터 DNA를 증폭하기 때문에 error가 더 클 수 있는 단점이 있지만, 배양할 필요가 없다는 장점이 있다.

  SAG를 얻기 위해서는 먼저 environmental sample에서 flow cytometry, microfluidics, micromanipulators 등의 방법으로 single-cell isolation을 진행한다. 그 후 DNA를 얻기 위해 세포를 깨고 (cell lysis) whole genome amplification (WGA)을 수행한다. WGA을 위한 방법들 중 multiple displacement amplification (MDA)가 가장 주로 사용된다. 하지만 이 방법은 coverage biases, GC profiles 변화, chimeric molecules 생성 등의 단점도 있다.

  그 후 shotgun sequencing을 통해 reads를 얻어낸다. 얻어낸 reads에 대하여 read level의 decontamination을 진행할 수도 있는데, DeconSeq, bbduk.sh (BBtools) 등의 관련 프로그램이 있다. 다음으로 assembly를 진행한다. 이에 대해서는 single-cellspecific assemblers (multiple coverage cutoffs 사용)를 포함한 여러 가지 알고리즘이 있다 (SPAdes, IDBA-UD). 이를 통해 contig (assembly)가 생성되며, 이에 대하여 contig level decontamination을 수행할 수 있다 (Anvi'o, CheckM, ProDeGe, acdc)

  마지막으로 taxonomic assignment는 marker gene phylogenies나 16S rRNA gene sequence를 통해 이루어진다.

 

Metagenome-assembled genome (MAG)

  MAG는 먼저 시퀀싱한 후 세균을 골라내어 얻은 유전체이다. 2004년에 처음 low microbial diversity에서 MAGs를 얻어 분석하였다 [참조]. 기술의 발달로 이제는 high diversity communities에서도 MAGs을 얻을 수 있게 되었다.

  MAG를 얻기 위해서는 먼저 environmental sample에서 shotgun sequencing을 진행한다. 그 후 assembly를 통해 metagenomic sequence reads를 contig로 합쳐준다.

  다음으로 binning을 통해 contigs를 그룹으로 묶어준다. 즉, 어떤 세균에서 유래한 contigs일지 구분하는 과정이다. 같은 유전체로부터 유래했을 것 같은 assembled contigs를 묶어준다. 이 과정에서 사용하는 정보에는 nucleotide sequence signatures (GC content, tetra-nucleotide frequency: 256 종류 4-mer의 frequency가 비슷할수록 같은 genome에서 유래한 것이라고 판단한다), marker gene phylogenies, DNA sequence coverage의 depth, 샘플에 따른 abundance patterns등이 있으며, 관련 프로그램에는 GroopM, MaxBin, MetaBAT, CONCOCT, MetaWatt가 있다.

  마지막으로 taxonomic assignment는 marker gene phylogenies나 16S rRNA gene sequence를 통해 이루어진다.

 

SAGs와 MAGs에 대한 기준

  SAGs와 MAGs와 관련하여 Genomic Standards Consortium (GSC)에서 개발된 세균 및 고세균 유전체를 보고하는 기준이 존재한다. 이는 Minimum information about a single amplified genome (MISAG) and a metagenome-assembled genome (MIMAG)으로, Minimum Information about Any (x) Sequence (MIxS)의 확장판이다. SAG와 MAG의 품질은 1) assembly quality, 2) genome completeness, 3) contamination에 의해 평가될 수 있는데, 이를 고려한 보고 기준이다. 이 논문에서 품질에 따른 분류 기준 (Table 1) 및 보고 시 포함해야 하는 내용 (Supplementary Table 1)을 확인할 수 있다 (물론 시간이 지남에 따라 달라질 수 있다고 설명한다). 품질에 따른 분류 기준은 다음과 같이 구분된다.

  • Finised: Assebmly quality (매우 높음), manual review를 거친 유전체
  • High-quality draft: Assebmly quality (높음), Completion (>90%), Contamination (<5%)
  • Medium-quality draft: Assebmly quality (낮음), Completion (≥50%), Contamination (<10%)
  • Low-quality draft: Assebmly quality (낮음), Completion (<50%), Contamination (<10%)

 

  이때 assembly quality는 각각의 SAG, MAG로부터 계산한 basic assembly statistics (total assembly size, contig N50/L50, maximum contig length)를 통해 파악한다. 참고로 symbiotic 세균 중에는 200 kb보다 작은 유전체를 가진 세균도 존재하기 때문에 minimum assembly size는 assembly quality 평가 기준에 포함시키지 않는다.

  Completness의 경우 universal marker gene(모든 taxa에 single copy로 존재하는 horizontal gene transfer가 일어나지 않는 유전자, 보통은 replication, transcription에 관련된 housekeeping genes)로 completeness를 평가한다 (이들을 얼마나 많이 포함하고 있는지). 관련 프로그램에는 CheckM, Anvi'o, mOTU, BUSCO가 있다.

  Contamination의 경우 genome에 non-target sequence가 얼마나 있는지 보는 것으로, genome에 두 번 이상 나타난 single-copy genes의 fraction으로 오염 정도를 예측한다. 관련 프로그램에는 Anvi'o, CheckM가 있지만, manual quality control (nucleotide composition and BLAST-based analysis)도 추천된다.

 

 

더보기

참고 사항

  • Human Microbiome Project, Earth Microbiome Project, Genomic Encyclopedia of Bacteria and Archaea는 미생물 다양성을 설명하는 large-scale 프로젝트이다.
  • Genomes OnLine Database (GOLD)는 2,866개의 SAGs와 4,622개의 MAGs를 포함한다.
  • Complete genomes는 pangenome analyses나 genetic linkage 연구에, partial genomes는 fragment recruitment analyses, metabolic predictions, 각 단백질의 phylogenetic reconstruction 연구에 주로 사용될 수 있다.

 

Reference

  1. Bowers, R., Kyrpides, N., Stepanauskas, R. et al. Minimum information about a single amplified genome (MISAG) and a metagenome-assembled genome (MIMAG) of bacteria and archaea. Nat Biotechnol 35, 725–731 (2017). https://doi.org/10.1038/nbt.3893

 

 

728x90
반응형