[QIIME2] QIIME2의 workflow 설명 (일반적인 Amplicon data 분석 과정)

Bioinformatics/Metagenomics

[QIIME2] QIIME2의 workflow 설명 (일반적인 Amplicon data 분석 과정)

⛅ 2021. 2. 18. 14:32

해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다.

유용한 팁 모음

--help로 plugins, actions을 확인하고 action에 대한 설명을 볼 수 있다.

qiime --help # Plugins 종류 확인
qiime demux --help # demux plugin에 포함된 actions 종류 확인
qiime demux emp-single --help # emp-single method에 대한 설명 확인

인용은 --help 대신 --citations를 치면 인용해야할 목록을 확인할 수 있다. 혹은 https://view.qiime2.org/에 파일을 업로드하고, "citations" 탭을 확인하면 그 파일 생성과 관련된 모든 citations가 나오게 된다.

일반적인 Amplicon data 분석 과정

https://docs.qiime2.org/2020.11/tutorials/overview/

Raw sequence data.
Demultiplexing (각각의 read가 어떤 샘플로부터 왔는지 분리)
Denoising (ASVs, OTUs): Sequence errors를 줄이고, dereplicating sequences를 위한 목적.
Feature table
Common analysis
- Taxonomic classification
- Alpha & beta diversity analyses
- Phlyogenetic relationship (with aligning reads)
- Biomarker discovery

Demultiplexing

Multiplexing이란 여러 개의 samples을 한번의 lane/run으로 분석하기 위해 합치는 것을 말하며, 각각의 샘플은 unique barcode(index나 tag)로 구분 가능하다. Demultiplex는 다시 샘플 단위로 나눠주는 것.

Denoising and clustering

Denoising: noisy reads를 제거하고 고치는 것.
- Deblur의 경우 basic quality-score-based filtering이 선행되어야 한다. DADA2는 불필요하다.
Dereplicate: 중복되는 sequence를 제거하고 대신 count를 저장해서 파일 사이즈를 줄이는 것.
Clustering: OTU picking, 97% similarity로 묶어주는 과정. 요즘은 clustering 대신 denoising을 하는 것이 대세이다.

Taxonomy classification

QIIME2에서는 세 종류의 classifier를 지원한다.

q2-feature-classifier
classify-consensus-blast
classify-sklearn

q2-feature-classifier와 classify-consensus-blast는 alignment-based methods이고, classify-sklearn는 machine-learning-based method이다. 그래서 전자는 pre-train이 필요없지만, 후자는 필요하다. 이미 traine된 classifier도 QIIME2에서 제공한다. 기능적인 측면에서 세 가지 모두 좋지만, classify-sklearn (with a Naive Bayes classifier)가 약간 더 우수했다.

Other plugins

q2-longitudinal: 시간에 따른 데이터 분석에 사용
q2-sample-classifier: 머신러닝을 바탕으로 샘플의 metadata를 예측하는 데 사용
q2-composition, q2-gneiss: biomarker finding.
q2-quaility-control: 데이터 퀄리티 확인

참고

Denoising의 목적: 1) sequence errors 줄이기, 2) dereplicating sequences.

Reference

docs.qiime2.org/2021.2/tutorials/overview/

728x90

저작자표시

'Bioinformatics > Metagenomics' 카테고리의 다른 글

[QIIME2] 숙련된 연구자들을 위한 QIIME2 Overview (15)	2021.03.02
[ASV] Amplicon Sequence Variant (ASV)의 특징과 Operational Taxonomic Unit (OTU)와의 차이점 (1)	2021.02.22
[QIIME2] QIIME2의 핵심 개념 소개 (0)	2021.02.18
[sORF] 장내미생물이 만드는 Small proteins의 기능 연구 (0)	2021.02.10
[MAG] Metagenome-Assembled Genome이란? 개념과 현황 (0)	2021.02.10

현재글[QIIME2] QIIME2의 workflow 설명 (일반적인 Amplicon data 분석 과정)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

BLOG