Bioinformatics/Metagenomics

[QIIME2] Training feature classifiers with q2-feature-classifier 튜토리얼

2021. 3. 30. 11:54

해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다.

 

Amplicon data를 분석하여 representative sequences set(16S rDNA)을 얻었을 때, 각각의 sequence가 어느 세균으로부터 유래했는지를 알고 싶을 수 있다 (추후 composition 분석 등이 가능). 그러기 위해서는 이를 확인해주는 classifier가 필요한데, 어떻게 classifier를 만들 수 있는지 알아보는 튜토리얼이 QIIME2 tutorial에 소개되어 있다.

 

 

💡 참고로 classifier를 train하는 이유는 machine-learning-based classification method를 쓰기 위해서다. Alignment-based methods(classify-consensus-blast, vsearch)를 사용한다면 train과정 없이 reference sequence와 reference taxonomy를 이용하여 바로 classify를 진행할 수 있다.

 

 

Importing reference data sets

Data information

  • 85_otus.fasta: Reference sequences
  • 85_otu_taxonomy.txt: Reference taxonomy
  • rep-seqs.qza: Representative sequences

추후 실제 분석에서는 Reference database를 다른 종류를 사용해서 train할 수 있다.

 

Importing

qiime tools import \
  --type 'FeatureData[Sequence]' \
  --input-path 85_otus.fasta \
  --output-path 85_otus.qza

qiime tools import \
  --type 'FeatureData[Taxonomy]' \
  --input-format HeaderlessTSVTaxonomyFormat \
  --input-path 85_otu_taxonomy.txt \
  --output-path ref-taxonomy.qza

 

 

Extract reference reads

Reference sequences에 대해 추가적인 수정을 가해준다. 일반적으로 우리가 target하는 region data만 reference sequences가 가지고 있을 때 정확도가 올라간다고 한다 (이유: May not necessarily generalize to other marker genes).

qiime feature-classifier extract-reads \
  --i-sequences 85_otus.qza \
  --p-f-primer GTGCCAGCMGCCGCGGTAA \
  --p-r-primer GGACTACHVGGGTWTCTAAT \
  --p-trunc-len 120 \
  --p-min-length 100 \
  --p-max-length 400 \
  --o-reads ref-seqs.qza

이때 primer는 biological sequence를 사용해야한다 (Reference sequence가 실제로 가지고 있는 sequence, linker나 barcode가 아님).

 

 

Train the classifier

Naive Bayes classifier를 train해볼 수 있다. 이 classifier를 이용하면 분류의 결과가 얼마나 confidence를 가지고 있는지를 보여준다.

qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads ref-seqs.qza \
  --i-reference-taxonomy ref-taxonomy.qza \
  --o-classifier classifier.qza

 

 

Apply the classifier

qiime feature-classifier classify-sklearn \
  --i-classifier classifier.qza \
  --i-reads rep-seqs.qza \
  --o-classification taxonomy.qza

qiime metadata tabulate \
  --m-input-file taxonomy.qza \
  --o-visualization taxonomy.qzv

 

 

Reference

 

728x90
반응형