Bioinformatics/etc.

[FastQC] High throughput sequencing data의 quality 검정

2023. 2. 4. 21:38

Sequencing data를 얻었을 때 해당 데이터의 quality가 얼마나 좋은지 확인을 해볼 필요가 있다. 이때 가장 일반적으로 사용되는 프로그램 중 하나가 FastQC이다.

 

1. FastQC 설치

먼저 아래 페이지에 들어가서 FastQC v0.11.9 (Win/Linux zip file)를 다운로드 받고, 압축을 풀어준 이후, 프로그램 폴더를 PATH에 등록해준다 (Java가 없다면 설치를 해줘야 한다 [1]).

https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

 

Babraham Bioinformatics - Public Projects Download

Download Babraham Bioinformatics Projects All Babraham Bioinformatics code is released under the GNU General public license. You should be aware that some of the downloads on this page include code from other projects which is available under different lic

www.bioinformatics.babraham.ac.uk

https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

혹은 아래 명령어를 통해 진행할 수 있다.

$ # sudo apt install default-jre # Java 설치 (Ubuntu)
$ # sudo yum install java-1.8.0-openjdk # Java 설치 (CentOS)
$ wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
$ unzip fastqc_v0.11.9.zip
$ PATH=$PATH:/home/FastQC
$ fastqc -help # /home/FastQC/fastqc를 실행한다.
$ which fastqc
/home/FastQC/fastqc

 

2. FastQC 사용

먼저 예제 데이터를 NCBI SRA에서 다운받는다. 아래 명령어를 통해서 amplicon sequencing data를 다운 받았다. 더 자세한 내용은 아래 글을 참고.

$ fastq-dump -A SRR23192865 --split-3 --gzip
Read 27289 spots for SRR23192865
Written 27289 spots for SRR23192865

$ ls
SRR23192865_1.fastq.gz  SRR23192865_2.fastq.gz

2021.08.25 - [Bioinformatics/Metagenomics] - [NCBI SRA] 마이크로바이옴 데이터 다운로드 | fastq-dump 설치 및 실행

 

[NCBI SRA] 마이크로바이옴 데이터 다운로드 | fastq-dump 설치 및 실행

NCBI Sequence Read Archive (SRA)는 마이크로바이옴 데이터(raw sequencing data 및 alignment information)가 저장된 데이터베이스이다. 웹페이지에서 Experiment Accession을 검색하면 해당 실험에 포함된 run file을 다운

bioinfoblog.tistory.com

 

FastQC의 사용법은 굉장히 간단하다. $ fastqc [file]을 하면 작업 경로에 리포트 파일이 생성된다.

$ fastqc *.fastq.gz
Started analysis of SRR23192865_1.fastq.gz
Approx 5% complete for SRR23192865_1.fastq.gz
Approx 10% complete for SRR23192865_1.fastq.gz
...
Approx 95% complete for SRR23192865_1.fastq.gz
Analysis complete for SRR23192865_1.fastq.gz
Started analysis of SRR23192865_2.fastq.gz
Approx 5% complete for SRR23192865_2.fastq.gz
Approx 10% complete for SRR23192865_2.fastq.gz
...
Approx 95% complete for SRR23192865_2.fastq.gz
Analysis complete for SRR23192865_2.fastq.gz
$ ls
SRR23192865_1_fastqc.html
SRR23192865_1_fastqc.zip
SRR23192865_1.fastq.gz
SRR23192865_2_fastqc.html
SRR23192865_2_fastqc.zip
SRR23192865_2.fastq.gz

크게 HTML 파일과 ZIP 파일이 생성되는데 HTML 파일이 리포트이다. ZIP 파일도 압축을 해제하면 HTML 포맷의 리포트 파일이 들어있는데 동일한 파일이며, 추가적으로 fastqc_data.txt 등에서 구체적인 값을 확인할 수 있다.

HTML 형식의 리포트

FastQC는 여러 항목에 대해서 quality를 평가해준다. 이때 HTML 리포트의 오른쪽 summary에서 각 항목에서 어떤 결과(PASS or FAIL)를 받았는지 요약하여 확인할 수 있다. FAIL (X)이면 특히 주의를 가지고 확인할 필요가 있다.

  • Basic Statistics: Sequencing read 수, 길이, %GC 등을 확인 가능.

  • Per base sequence quality: Read 내에서의 quality 분포를 확인 가능. Quality는 Phred score로 나타내는데, 20점은 99%의 정확도를 의미한다. 일반적으로 20점 이상의 점수는 양호한 품질로 생각할 수 있다.

  • Per sequence quality scores: Read의 평균 quality 분포를 확인 가능.

  • Per base sequence content: Read 내에서의 ATGC의 분포를 확인 가능.

  • Per sequence GC content: Read의 %GC 분포를 확인 가능. 아래는 이론 상의 분포와 실제 분포가 차이가 났기 때문에 결과가 FAIL이 나왔다.

  • Per base N content: Sequence 내 N base의 비율

  • Sequence Length Distribution: Sequence read의 길이 분포, 해당 파일은 모두 길이가 251 bp였다.

  • Sequence Duplication Levels

  • Overrepresented sequences: 얼마나 중복된 sequence가 많은지에 대한 값

  • Adapter Content

 

Reference

  1. https://raw.githubusercontent.com/s-andrews/FastQC/master/INSTALL.txt

 

 

728x90
반응형