Bioinformatics/etc.

[Phred Score] PHRED 33 encoded와 PHRED 64 encoded quality scores의 차이

2021. 3. 5. 14:46

QIIME에서 FASTQ 파일을 import할 때 Phred score가 33 encoded인지 64 encoded인지에 대한 구분이 필요하다.

 

Phred or Q score는base의 quality score를 나타내는 것으로, base가가 잘못되었을 에러 확률을 나타낸다.

 

P가 error probability일 때 Q와의 관계는 다음과 같다.

 

Q=-10logP

 

Q score는 ASCII character로 나타내는데, ASCII character와 실제 Q score 변환 관계는 아래 링크에서 찾아볼 수 있다.

 

Quality (Phred) scores

Quality (Phred) scores See also   FASTQ files   Average Q is a bad idea!   Expected errors   Quality filtering The quality score of a base, also known as a Phred or Q score, is an integer value representing the estimated probability of an error, i.e. t

www.drive5.com

 

이때, 33 encoded는 현재 대부분에서 사용되는 형식이고, 64 encoded는 몇몇 오래된 Illumina data에서 사용되던 형식이다.

 

PHRED 33 encoded 예시

@Read1
ATCTGATCATA
+
!45AK$IBCED

 

PHRED 64 encoded 예시

@Read1
ATCTGATCATA
+
@AOPQSTUag

 

관련 Tools

Tool To Find Out If FASTQ Is PHRED 33 encoded Or 64 encoded

FASTQ 파일을 input으로 넣어주면 이 파일이 PHRED 33 encoded인지 64 encoded인지 판단해주는 tool이 존재한다.

 

VSEARCH의 기능 중 하나인데, 아래와 같이 사용하면 된다.

vsearch --fastq_chars [FILE PATH]

 

Tool for converting 64 and 33 encoded files

https://github.com/greatfireball/fastq_phred_convert

 

GitHub - greatfireball/fastq_phred_convert: Converts 33 offset to 64 and vice versa

Converts 33 offset to 64 and vice versa. Contribute to greatfireball/fastq_phred_convert development by creating an account on GitHub.

github.com

위 툴을 사용하면 64나 33으로 변환할 수 있다.

 

Reference

 

 

728x90
반응형