Bioinformatics/Metagenomics

[QIIME2] Data Importing (to QIIME2 ARTIFACT) 및 Exporting (from QIIME2 ARTIFACT)

2021. 3. 5. 15:56

QIIME 2 Tutorial

해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다.

 

1. Data Importing

QIIME2 pipeline의 input으로는 QIIME2 artifacts가 필요하다. 우리가 가진 데이터를 적절한 단계의 artifacts로 importing이 가능한데, 이를 먼저 알아보고자 한다.

 

1. “EMP protocol” multiplexed single-end fastq (Earth Microbiome Project)

  • sequences/forward.fastq.gz
  • sequences/barcodes.fastq.gz
qiime tools import \
  --type EMPSingleEndSequences \
  --input-path sequences \
  --output-path sequences.qza

 

2. “EMP protocol” multiplexed paired-end fastq (Earth Microbiome Project)

  • sequences/forward.fastq.gz
  • sequences/reverse.fastq.gz
  • sequences/barcodes.fastq.gz
qiime tools import \
  --type EMPPairedEndSequences \
  --input-path sequences \
  --output-path sequences.qza

 

3. Multiplexed single-end FASTQ with barcodes in sequence

  • sequences/barcode_forward.fastq.gz
  • metadata.tsv: 추후 demultiplexing을 위해서 per-sample barcodes에 대한 정보를 가진 metadata file이 필요하다.
qiime tools import \
  --type MultiplexedSingleEndBarcodeInSequence \
  --input-path sequences/barcode_forward.fastq.gz \
  --output-path multiplexed-seqs.qza

 

4. Multiplexed paired-end FASTQ with barcodes in sequence

  • sequences/forward.fastq.gz
  • sequences/reverse.fastq.gz
  • metadata.tsv: 추후 demultiplexing을 위해서 per-sample barcodes(or dual-index barcodes)에 대한 정보를 가진 metadata file이 필요하다.
qiime tools import \
  --type MultiplexedPairedEndBarcodeInSequence \
  --input-path sequences \
  --output-path multiplexed-seqs.qza

 

5. Casava 1.8 single-end demultiplexed fastq

  • sequences/[Casava format files]
qiime tools import \
  --type 'SampleData[SequencesWithQuality]' \
  --input-path casava-18-single-end-demultiplexed \
  --input-format CasavaOneEightSingleLanePerSampleDirFmt \
  --output-path demux-single-end.qza

 

6. Casava 1.8 paired-end demultiplexed fastq

  • sequences/[Casava format files]
qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path casava-18-paired-end-demultiplexed \
  --input-format CasavaOneEightSingleLanePerSampleDirFmt \
  --output-path demux-paired-end.qza

 

7. Other FASTQ files

  • manifest.tsv: FASTQ files의 id와 절대경로에 대한 정보를 갖고 있는 파일
  • sequences/[FASTQ files]
qiime tools import
  --type 'SampleData[SequencesWithQuality]' # SampleData[PairedEndSequencesWithQuality]
  --input-path manifest.tsv
  --output-path demux.qza
  --input-format SingleEndFastqManifestPhred33V2

'''
input-format으로 다음의 형식이 가능하다
SingleEndFastqManifestPhred33V2
SingleEndFastqManifestPhred64V2
PairedEndFastqManifestPhred33V2
PairedEndFastqManifestPhred64V2
'''

 

8. Representative FASTA files

  • sequences.fna: 'N'은 없어야 한다. Align이 되어있다면 길이가 같아야 한다.
qiime tools import \
  --input-path sequences.fna \
  --output-path sequences.qza \
  --type 'FeatureData[Sequence]' # Aligned sequence라면 'FeatureData[AlignedSequence]'

 

9. Feature table data

  • table.biom
qiime tools import \
  --input-path table.biom \
  --type 'FeatureTable[Frequency]' \
  --input-format BIOMV100Format \ # BIOM v1.0.0일 때. BIOM v2.1.0이라면, BIOMV210Format
  --output-path table.qza

 

10. Phylogenetic trees

  • tree.tre (newick 형식)
qiime tools import \
  --input-path unrooted-tree.tre \
  --output-path unrooted-tree.qza \
  --type 'Phylogeny[Unrooted]' # Rooted tree라면 Phylogeny[Rooted]

 

11. Other data types

# Formats 확인 가능
qiime tools import \
  --show-importable-formats

# Types 확인 가능
qiime tools import \
  --show-importable-types

 

참고

  • Casava format: Read files의 이름은 특정한 형식을 따라야함 (undterscore-sperated fields, ex. L2S357_15_L001_R1_001.fastq.gz)
    1. the sample identifier,
    2. the barcode sequence or a barcode identifier,
    3. the lane number,
    4. the direction of the read (i.e. R1 or R2), and
    5. the set number.
  • Manifest 파일 형식 (Paired-end)
sample-id     forward-absolute-filepath       reverse-absolute-filepath
sample-1      $PWD/some/filepath/sample0_R1.fastq.gz  $PWD/some/filepath/sample1_R2.fastq.gz
sample-2      $PWD/some/filepath/sample2_R1.fastq.gz  $PWD/some/filepath/sample2_R2.fastq.gz
  • Manifest 파일 형식 (Single-end)
sample-id     absolute-filepath
sample-1      $PWD/some/filepath/sample1_R1.fastq
sample-2      $PWD/some/filepath/sample2_R1.fastq

 

2. Data Exporting

 

한편, QIIME2 artifacts(.qza files)에서 data를 exporting하여 다른 분석 파이프라인 등에서 사용할 수 있다. 이때 주의해야할 점은 exporting 이후에는 artifacts가 가지고 있던 metadata(어디서부터 분석을 했고 등등)가 사라진다는 것이다. 그러므로 QIIME으로 할 수 있는 모든 작업을 다 했다는 확신이 들 때 export를 진행하는 것이 좋다.

 

# Exporting a feature table
qiime tools export \
  --input-path feature-table.qza \
  --output-path exported-feature-table # BIOM v2.1.0 formatted file

# Exporting a phylogenetic tree
qiime tools export \
  --input-path unrooted-tree.qza \
  --output-path exported-tree # newick formatted file

 

Exporting versus extracting

Data extracting을 하면 exporting에서는 얻지 못하는 metadata도 함께 얻을 수 있다.

mkdir extracted-feature-table
qiime tools extract \
  --input-path feature-table.qza \
  --output-path extracted-feature-tabl

 

Reference

 

 

 

 

 

 

# qiime import, # qiime export

 

728x90
반응형