Bioinformatics/Metagenomics

[NCBI SRA] 마이크로바이옴 데이터 다운로드 | fastq-dump 설치 및 실행

2021. 8. 25. 15:08

NCBI Sequence Read Archive (SRA)는 마이크로바이옴 데이터(raw sequencing data 및 alignment information)가 저장된 데이터베이스이다. 웹페이지에서 Experiment Accession을 검색하면 해당 실험에 포함된 run file을 다운로드 받을 수 있다.

 

FASTA/FASTQ : Download : Sequence Read Archive : NCBI/NLM/NIH

 

trace.ncbi.nlm.nih.gov

 

fastq-dump

한편, Linux 환경에서 특정 프로그램을 사용하여 다운로드 받을 수도 있는데, 그때 사용하는 프로그램이 fastq-dump이다. 그를 위해서는 SRA Toolkit을 설치해야한다. Linux 안에서 환경에 맞는 버전(아래 페이지 참조)을 다운로드 받은 후 압축을 풀어준다. bin/ 폴더를 $PATH에 등록하면 안에 들어있는 fastq-dump를 사용할 수 있다.

tar -xf sratoolkit.3.0.2-centos_linux64.tar.gz
PATH=$PATH:/home/sratoolkit.3.0.2-centos_linux64/bin
 

Download : Software : Sequence Read Archive : NCBI/NLM/NIH

Below are the latest releases of various tools and release checksum file.

trace.ncbi.nlm.nih.gov

 

예를 들어, 해당 파일(SRR23192865)을 다운로드 받는다고 해보자. 다음 명령어를 통해 다운로드 받을 수 있다.

$ fastq-dump -A SRR23192865 --split-3 --gzip
Read 27289 spots for SRR23192865
Written 27289 spots for SRR23192865

$ ls -al
SRR23192865_1.fastq.gz
SRR23192865_2.fastq.gz

이때 --split-3을 주면 layout이 paired인 경우 SRR23192865_1.fastq.gz와 SRR23192865_2.fastq.gz을 얻고, single인 경우에는 SRR23192865.fastq.gz을 얻는다 (1). --gzip은 gzip으로 압축한다는 의미이다.

 

split-3 옵션은 아래 그림을 참고하면 이해가 더 쉽다.

https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump

fasterq-dump

더 빠른 (faster) fastq-dump라고 하여 fasterq-dump도 존재한다. 대량의 파일을 다운로드 받아야하는 상황일 때 참고하면 될 것 같다. fastq-dump와 달리 gzip 옵션을 따로 제공하지는 않았다.

$ $ fasterq-dump --split-3 SRR23192865
spots read      : 27,289
reads read      : 54,578
reads written   : 54,578
$ ls
SRR23192865.fastq
$ gzip SRR23192865.fastq 
$ ls
SRR23192865.fastq.gz

 

Reference

  1. https://www.biostars.org/p/156909/

 

 

728x90
반응형