NCBI Sequence Read Archive (SRA)는 마이크로바이옴 데이터(raw sequencing data 및 alignment information)가 저장된 데이터베이스이다. 웹페이지에서 Experiment Accession을 검색하면 해당 실험에 포함된 run file을 다운로드 받을 수 있다.
fastq-dump
한편, Linux 환경에서 특정 프로그램을 사용하여 다운로드 받을 수도 있는데, 그때 사용하는 프로그램이 fastq-dump이다. 그를 위해서는 SRA Toolkit을 설치해야한다. Linux 안에서 환경에 맞는 버전(아래 페이지 참조)을 다운로드 받은 후 압축을 풀어준다. bin/ 폴더를 $PATH에 등록하면 안에 들어있는 fastq-dump를 사용할 수 있다.
tar -xf sratoolkit.3.0.2-centos_linux64.tar.gz
PATH=$PATH:/home/sratoolkit.3.0.2-centos_linux64/bin
예를 들어, 해당 파일(SRR23192865)을 다운로드 받는다고 해보자. 다음 명령어를 통해 다운로드 받을 수 있다.
$ fastq-dump -A SRR23192865 --split-3 --gzip
Read 27289 spots for SRR23192865
Written 27289 spots for SRR23192865
$ ls -al
SRR23192865_1.fastq.gz
SRR23192865_2.fastq.gz
이때 --split-3을 주면 layout이 paired인 경우 SRR23192865_1.fastq.gz와 SRR23192865_2.fastq.gz을 얻고, single인 경우에는 SRR23192865.fastq.gz을 얻는다 (1). --gzip은 gzip으로 압축한다는 의미이다.
split-3 옵션은 아래 그림을 참고하면 이해가 더 쉽다.
fasterq-dump
더 빠른 (faster) fastq-dump라고 하여 fasterq-dump도 존재한다. 대량의 파일을 다운로드 받아야하는 상황일 때 참고하면 될 것 같다. fastq-dump와 달리 gzip 옵션을 따로 제공하지는 않았다.
$ $ fasterq-dump --split-3 SRR23192865
spots read : 27,289
reads read : 54,578
reads written : 54,578
$ ls
SRR23192865.fastq
$ gzip SRR23192865.fastq
$ ls
SRR23192865.fastq.gz
Reference
'Bioinformatics > Metagenomics' 카테고리의 다른 글
[QIIME 2] 마이크로바이옴 분석에서 사용되는 파일 종류 (Import, Export) (0) | 2021.10.02 |
---|---|
Metagenomic Taxonomic Profiling | 관련 툴의 종류 (MetaPhlAn, Kraken, Kaiju) (0) | 2021.08.25 |
[HMP] Human microbiome project란? | 개념 정리 (0) | 2021.08.25 |
[용어 설명] Metagenome과 Metatranscriptome (0) | 2021.08.12 |
[생물정보학] 배양하지 못한 미생물의 유전체: SAG와 MAG (0) | 2021.08.04 |