Bioinformatics/Metagenomics

[QIIME2] QIIME2의 workflow 설명 (일반적인 Amplicon data 분석 과정)

2021. 2. 18. 14:32

해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다.

유용한 팁 모음

  • --help로 plugins, actions을 확인하고 action에 대한 설명을 볼 수 있다.
qiime --help # Plugins 종류 확인
qiime demux --help # demux plugin에 포함된 actions 종류 확인
qiime demux emp-single --help # emp-single method에 대한 설명 확인
  • 인용은 --help 대신 --citations를 치면 인용해야할 목록을 확인할 수 있다. 혹은 https://view.qiime2.org/에 파일을 업로드하고, "citations" 탭을 확인하면 그 파일 생성과 관련된 모든 citations가 나오게 된다.

 

일반적인 Amplicon data 분석 과정

https://docs.qiime2.org/2020.11/tutorials/overview/

  1. Raw sequence data.
  2. Demultiplexing (각각의 read가 어떤 샘플로부터 왔는지 분리)
  3. Denoising (ASVs, OTUs): Sequence errors를 줄이고, dereplicating sequences를 위한 목적.
  4. Feature table
  5. Common analysis
    • Taxonomic classification
    • Alpha & beta diversity analyses
    • Phlyogenetic relationship (with aligning reads)
    • Biomarker discovery

 

Demultiplexing

Multiplexing이란 여러 개의 samples을 한번의 lane/run으로 분석하기 위해 합치는 것을 말하며, 각각의 샘플은 unique barcode(index나 tag)로 구분 가능하다. Demultiplex는 다시 샘플 단위로 나눠주는 것.

 

Denoising and clustering

  • Denoising: noisy reads를 제거하고 고치는 것.
    • Deblur의 경우 basic quality-score-based filtering이 선행되어야 한다. DADA2는 불필요하다.
  • Dereplicate: 중복되는 sequence를 제거하고 대신 count를 저장해서 파일 사이즈를 줄이는 것.
  • Clustering: OTU picking, 97% similarity로 묶어주는 과정. 요즘은 clustering 대신 denoising을 하는 것이 대세이다.

 

Taxonomy classification

QIIME2에서는 세 종류의 classifier를 지원한다.

  1. q2-feature-classifier
  2. classify-consensus-blast
  3. classify-sklearn

q2-feature-classifier와 classify-consensus-blast는 alignment-based methods이고, classify-sklearn는 machine-learning-based method이다. 그래서 전자는 pre-train이 필요없지만, 후자는 필요하다. 이미 traine된 classifier도 QIIME2에서 제공한다. 기능적인 측면에서 세 가지 모두 좋지만, classify-sklearn (with a Naive Bayes classifier)가 약간 더 우수했다.

 

Other plugins

  • q2-longitudinal: 시간에 따른 데이터 분석에 사용
  • q2-sample-classifier: 머신러닝을 바탕으로 샘플의 metadata를 예측하는 데 사용
  • q2-composition, q2-gneiss: biomarker finding.
  • q2-quaility-control: 데이터 퀄리티 확인

 

참고

  • Denoising의 목적: 1) sequence errors 줄이기, 2) dereplicating sequences.

 

Reference

 

 

728x90
반응형