Sequencing data를 얻었을 때 해당 데이터의 quality가 얼마나 좋은지 확인을 해볼 필요가 있다. 이때 가장 일반적으로 사용되는 프로그램 중 하나가 FastQC이다.
1. FastQC 설치
먼저 아래 페이지에 들어가서 FastQC v0.11.9 (Win/Linux zip file)를 다운로드 받고, 압축을 풀어준 이후, 프로그램 폴더를 PATH에 등록해준다 (Java가 없다면 설치를 해줘야 한다 [1]).
https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
혹은 아래 명령어를 통해 진행할 수 있다.
$ # sudo apt install default-jre # Java 설치 (Ubuntu)
$ # sudo yum install java-1.8.0-openjdk # Java 설치 (CentOS)
$ wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
$ unzip fastqc_v0.11.9.zip
$ PATH=$PATH:/home/FastQC
$ fastqc -help # /home/FastQC/fastqc를 실행한다.
$ which fastqc
/home/FastQC/fastqc
2. FastQC 사용
먼저 예제 데이터를 NCBI SRA에서 다운받는다. 아래 명령어를 통해서 amplicon sequencing data를 다운 받았다. 더 자세한 내용은 아래 글을 참고.
$ fastq-dump -A SRR23192865 --split-3 --gzip
Read 27289 spots for SRR23192865
Written 27289 spots for SRR23192865
$ ls
SRR23192865_1.fastq.gz SRR23192865_2.fastq.gz
2021.08.25 - [Bioinformatics/Metagenomics] - [NCBI SRA] 마이크로바이옴 데이터 다운로드 | fastq-dump 설치 및 실행
FastQC의 사용법은 굉장히 간단하다. $ fastqc [file]을 하면 작업 경로에 리포트 파일이 생성된다.
$ fastqc *.fastq.gz
Started analysis of SRR23192865_1.fastq.gz
Approx 5% complete for SRR23192865_1.fastq.gz
Approx 10% complete for SRR23192865_1.fastq.gz
...
Approx 95% complete for SRR23192865_1.fastq.gz
Analysis complete for SRR23192865_1.fastq.gz
Started analysis of SRR23192865_2.fastq.gz
Approx 5% complete for SRR23192865_2.fastq.gz
Approx 10% complete for SRR23192865_2.fastq.gz
...
Approx 95% complete for SRR23192865_2.fastq.gz
Analysis complete for SRR23192865_2.fastq.gz
$ ls
SRR23192865_1_fastqc.html
SRR23192865_1_fastqc.zip
SRR23192865_1.fastq.gz
SRR23192865_2_fastqc.html
SRR23192865_2_fastqc.zip
SRR23192865_2.fastq.gz
크게 HTML 파일과 ZIP 파일이 생성되는데 HTML 파일이 리포트이다. ZIP 파일도 압축을 해제하면 HTML 포맷의 리포트 파일이 들어있는데 동일한 파일이며, 추가적으로 fastqc_data.txt 등에서 구체적인 값을 확인할 수 있다.
FastQC는 여러 항목에 대해서 quality를 평가해준다. 이때 HTML 리포트의 오른쪽 summary에서 각 항목에서 어떤 결과(PASS or FAIL)를 받았는지 요약하여 확인할 수 있다. FAIL (X)이면 특히 주의를 가지고 확인할 필요가 있다.
- Basic Statistics: Sequencing read 수, 길이, %GC 등을 확인 가능.
- Per base sequence quality: Read 내에서의 quality 분포를 확인 가능. Quality는 Phred score로 나타내는데, 20점은 99%의 정확도를 의미한다. 일반적으로 20점 이상의 점수는 양호한 품질로 생각할 수 있다.
- Per sequence quality scores: Read의 평균 quality 분포를 확인 가능.
- Per base sequence content: Read 내에서의 ATGC의 분포를 확인 가능.
- Per sequence GC content: Read의 %GC 분포를 확인 가능. 아래는 이론 상의 분포와 실제 분포가 차이가 났기 때문에 결과가 FAIL이 나왔다.
- Per base N content: Sequence 내 N base의 비율
- Sequence Length Distribution: Sequence read의 길이 분포, 해당 파일은 모두 길이가 251 bp였다.
- Sequence Duplication Levels
- Overrepresented sequences: 얼마나 중복된 sequence가 많은지에 대한 값
- Adapter Content
Reference
'Bioinformatics > etc.' 카테고리의 다른 글
[생물정보학] Sequencing의 종류 (0) | 2021.10.04 |
---|---|
[용어 설명] Sequence masking이란? | Soft masking & Hard masking (0) | 2021.10.02 |
NGS의 구분: Single-end, Paired-end, CCS (0) | 2021.08.12 |
[용어 설명] SNP (single-nucleotide polymorphism)와 SNV (single-nucleotide variant) 차이 (0) | 2021.08.02 |
[illumina] Sequence library의 구성 (primer, index, oligo) (0) | 2021.07.30 |