QIIME 2 Tutorial
해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다.
1. Data Importing
QIIME2 pipeline의 input으로는 QIIME2 artifacts가 필요하다. 우리가 가진 데이터를 적절한 단계의 artifacts로 importing이 가능한데, 이를 먼저 알아보고자 한다.
1. “EMP protocol” multiplexed single-end fastq (Earth Microbiome Project)
- sequences/forward.fastq.gz
- sequences/barcodes.fastq.gz
qiime tools import \
--type EMPSingleEndSequences \
--input-path sequences \
--output-path sequences.qza
2. “EMP protocol” multiplexed paired-end fastq (Earth Microbiome Project)
- sequences/forward.fastq.gz
- sequences/reverse.fastq.gz
- sequences/barcodes.fastq.gz
qiime tools import \
--type EMPPairedEndSequences \
--input-path sequences \
--output-path sequences.qza
3. Multiplexed single-end FASTQ with barcodes in sequence
- sequences/barcode_forward.fastq.gz
- metadata.tsv: 추후 demultiplexing을 위해서 per-sample barcodes에 대한 정보를 가진 metadata file이 필요하다.
qiime tools import \
--type MultiplexedSingleEndBarcodeInSequence \
--input-path sequences/barcode_forward.fastq.gz \
--output-path multiplexed-seqs.qza
4. Multiplexed paired-end FASTQ with barcodes in sequence
- sequences/forward.fastq.gz
- sequences/reverse.fastq.gz
- metadata.tsv: 추후 demultiplexing을 위해서 per-sample barcodes(or dual-index barcodes)에 대한 정보를 가진 metadata file이 필요하다.
qiime tools import \
--type MultiplexedPairedEndBarcodeInSequence \
--input-path sequences \
--output-path multiplexed-seqs.qza
5. Casava 1.8 single-end demultiplexed fastq
- sequences/[Casava format files]
qiime tools import \
--type 'SampleData[SequencesWithQuality]' \
--input-path casava-18-single-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-single-end.qza
6. Casava 1.8 paired-end demultiplexed fastq
- sequences/[Casava format files]
qiime tools import \
--type 'SampleData[PairedEndSequencesWithQuality]' \
--input-path casava-18-paired-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-paired-end.qza
7. Other FASTQ files
- manifest.tsv: FASTQ files의 id와 절대경로에 대한 정보를 갖고 있는 파일
- sequences/[FASTQ files]
qiime tools import
--type 'SampleData[SequencesWithQuality]' # SampleData[PairedEndSequencesWithQuality]
--input-path manifest.tsv
--output-path demux.qza
--input-format SingleEndFastqManifestPhred33V2
'''
input-format으로 다음의 형식이 가능하다
SingleEndFastqManifestPhred33V2
SingleEndFastqManifestPhred64V2
PairedEndFastqManifestPhred33V2
PairedEndFastqManifestPhred64V2
'''
8. Representative FASTA files
- sequences.fna: 'N'은 없어야 한다. Align이 되어있다면 길이가 같아야 한다.
qiime tools import \
--input-path sequences.fna \
--output-path sequences.qza \
--type 'FeatureData[Sequence]' # Aligned sequence라면 'FeatureData[AlignedSequence]'
9. Feature table data
- table.biom
qiime tools import \
--input-path table.biom \
--type 'FeatureTable[Frequency]' \
--input-format BIOMV100Format \ # BIOM v1.0.0일 때. BIOM v2.1.0이라면, BIOMV210Format
--output-path table.qza
10. Phylogenetic trees
- tree.tre (newick 형식)
qiime tools import \
--input-path unrooted-tree.tre \
--output-path unrooted-tree.qza \
--type 'Phylogeny[Unrooted]' # Rooted tree라면 Phylogeny[Rooted]
11. Other data types
# Formats 확인 가능
qiime tools import \
--show-importable-formats
# Types 확인 가능
qiime tools import \
--show-importable-types
참고
- Casava format: Read files의 이름은 특정한 형식을 따라야함 (undterscore-sperated fields, ex. L2S357_15_L001_R1_001.fastq.gz)
- the sample identifier,
- the barcode sequence or a barcode identifier,
- the lane number,
- the direction of the read (i.e. R1 or R2), and
- the set number.
- Manifest 파일 형식 (Paired-end)
sample-id forward-absolute-filepath reverse-absolute-filepath
sample-1 $PWD/some/filepath/sample0_R1.fastq.gz $PWD/some/filepath/sample1_R2.fastq.gz
sample-2 $PWD/some/filepath/sample2_R1.fastq.gz $PWD/some/filepath/sample2_R2.fastq.gz
- Manifest 파일 형식 (Single-end)
sample-id absolute-filepath
sample-1 $PWD/some/filepath/sample1_R1.fastq
sample-2 $PWD/some/filepath/sample2_R1.fastq
2. Data Exporting
한편, QIIME2 artifacts(.qza files)에서 data를 exporting하여 다른 분석 파이프라인 등에서 사용할 수 있다. 이때 주의해야할 점은 exporting 이후에는 artifacts가 가지고 있던 metadata(어디서부터 분석을 했고 등등)가 사라진다는 것이다. 그러므로 QIIME으로 할 수 있는 모든 작업을 다 했다는 확신이 들 때 export를 진행하는 것이 좋다.
# Exporting a feature table
qiime tools export \
--input-path feature-table.qza \
--output-path exported-feature-table # BIOM v2.1.0 formatted file
# Exporting a phylogenetic tree
qiime tools export \
--input-path unrooted-tree.qza \
--output-path exported-tree # newick formatted file
Exporting versus extracting
Data extracting을 하면 exporting에서는 얻지 못하는 metadata도 함께 얻을 수 있다.
mkdir extracted-feature-table
qiime tools extract \
--input-path feature-table.qza \
--output-path extracted-feature-tabl
Reference
# qiime import, # qiime export
728x90
반응형
'Bioinformatics > Metagenomics' 카테고리의 다른 글
[QIIME2] Paired-end reads를 Deblur로 분석하는 방법 (using Aritifact API) (0) | 2021.03.09 |
---|---|
[QIIME2] QIIME의 3가지 Interface (CLI, GUI, Python API) (0) | 2021.03.05 |
[QIIME2] Atacama soil microbiome 튜토리얼 (0) | 2021.03.04 |
[QIIME2] Fecal microbiota transplant (FMT) 튜토리얼 (0) | 2021.03.04 |
[Diversity] 다양성 지표 (Alpha diversity, Beta diversity) (0) | 2021.03.03 |