해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다.
Amplicon data를 분석하여 representative sequences set(16S rDNA)을 얻었을 때, 각각의 sequence가 어느 세균으로부터 유래했는지를 알고 싶을 수 있다 (추후 composition 분석 등이 가능). 그러기 위해서는 이를 확인해주는 classifier가 필요한데, 어떻게 classifier를 만들 수 있는지 알아보는 튜토리얼이 QIIME2 tutorial에 소개되어 있다.
💡 참고로 classifier를 train하는 이유는 machine-learning-based classification method를 쓰기 위해서다. Alignment-based methods(classify-consensus-blast, vsearch)를 사용한다면 train과정 없이 reference sequence와 reference taxonomy를 이용하여 바로 classify를 진행할 수 있다.
Importing reference data sets
Data information
- 85_otus.fasta: Reference sequences
- 85_otu_taxonomy.txt: Reference taxonomy
- rep-seqs.qza: Representative sequences
추후 실제 분석에서는 Reference database를 다른 종류를 사용해서 train할 수 있다.
Importing
qiime tools import \
--type 'FeatureData[Sequence]' \
--input-path 85_otus.fasta \
--output-path 85_otus.qza
qiime tools import \
--type 'FeatureData[Taxonomy]' \
--input-format HeaderlessTSVTaxonomyFormat \
--input-path 85_otu_taxonomy.txt \
--output-path ref-taxonomy.qza
Extract reference reads
Reference sequences에 대해 추가적인 수정을 가해준다. 일반적으로 우리가 target하는 region data만 reference sequences가 가지고 있을 때 정확도가 올라간다고 한다 (이유: May not necessarily generalize to other marker genes).
qiime feature-classifier extract-reads \
--i-sequences 85_otus.qza \
--p-f-primer GTGCCAGCMGCCGCGGTAA \
--p-r-primer GGACTACHVGGGTWTCTAAT \
--p-trunc-len 120 \
--p-min-length 100 \
--p-max-length 400 \
--o-reads ref-seqs.qza
이때 primer는 biological sequence를 사용해야한다 (Reference sequence가 실제로 가지고 있는 sequence, linker나 barcode가 아님).
Train the classifier
Naive Bayes classifier를 train해볼 수 있다. 이 classifier를 이용하면 분류의 결과가 얼마나 confidence를 가지고 있는지를 보여준다.
qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads ref-seqs.qza \
--i-reference-taxonomy ref-taxonomy.qza \
--o-classifier classifier.qza
Apply the classifier
qiime feature-classifier classify-sklearn \
--i-classifier classifier.qza \
--i-reads rep-seqs.qza \
--o-classification taxonomy.qza
qiime metadata tabulate \
--m-input-file taxonomy.qza \
--o-visualization taxonomy.qzv
Reference
'Bioinformatics > Metagenomics' 카테고리의 다른 글
[QIIME2] 주로 사용하는 QIIME2의 plugins 정리 (0) | 2021.03.31 |
---|---|
[QIIME2] QIIME과 관련된 Data resources (0) | 2021.03.31 |
[QIIME2] Paired-end reads를 Deblur로 분석하는 방법 (using Aritifact API) (0) | 2021.03.09 |
[QIIME2] QIIME의 3가지 Interface (CLI, GUI, Python API) (0) | 2021.03.05 |
[QIIME2] Data Importing (to QIIME2 ARTIFACT) 및 Exporting (from QIIME2 ARTIFACT) (0) | 2021.03.05 |