QIIME에서 FASTQ 파일을 import할 때 Phred score가 33 encoded인지 64 encoded인지에 대한 구분이 필요하다.
Phred or Q score는base의 quality score를 나타내는 것으로, base가가 잘못되었을 에러 확률을 나타낸다.
P가 error probability일 때 Q와의 관계는 다음과 같다.
Q=-10logP
Q score는 ASCII character로 나타내는데, ASCII character와 실제 Q score 변환 관계는 아래 링크에서 찾아볼 수 있다.
Quality (Phred) scores
Quality (Phred) scores See also FASTQ files Average Q is a bad idea! Expected errors Quality filtering The quality score of a base, also known as a Phred or Q score, is an integer value representing the estimated probability of an error, i.e. t
www.drive5.com
이때, 33 encoded는 현재 대부분에서 사용되는 형식이고, 64 encoded는 몇몇 오래된 Illumina data에서 사용되던 형식이다.
PHRED 33 encoded 예시
@Read1
ATCTGATCATA
+
!45AK$IBCED
PHRED 64 encoded 예시
@Read1
ATCTGATCATA
+
@AOPQSTUag
관련 Tools
Tool To Find Out If FASTQ Is PHRED 33 encoded Or 64 encoded
FASTQ 파일을 input으로 넣어주면 이 파일이 PHRED 33 encoded인지 64 encoded인지 판단해주는 tool이 존재한다.
VSEARCH의 기능 중 하나인데, 아래와 같이 사용하면 된다.
vsearch --fastq_chars [FILE PATH]
Tool for converting 64 and 33 encoded files
https://github.com/greatfireball/fastq_phred_convert
GitHub - greatfireball/fastq_phred_convert: Converts 33 offset to 64 and vice versa
Converts 33 offset to 64 and vice versa. Contribute to greatfireball/fastq_phred_convert development by creating an account on GitHub.
github.com
위 툴을 사용하면 64나 33으로 변환할 수 있다.
Reference
'Bioinformatics > etc.' 카테고리의 다른 글
[용어 설명] SNP (single-nucleotide polymorphism)와 SNV (single-nucleotide variant) 차이 (0) | 2021.08.02 |
---|---|
[illumina] Sequence library의 구성 (primer, index, oligo) (0) | 2021.07.30 |
[용어 설명] Multiomics (다중체학)의 개념: Genomics, Transcriptomics, Proteomics, Metabolomics (0) | 2021.07.01 |
[생물정보학] 생물정보학에서 주로 사용되는 파일 형식 (File format) (0) | 2021.06.13 |
[생물정보학] 특정 작업 별 사용 가능한 프로그램 목록 (2) | 2021.02.15 |