Sequence masking이란 low-complexity sequence를 찾아서 이를 따로 표시하거나 제거하는 과정이다. 이때 low-complexity sequence란 1-2개의 글자가 반복되는 sequence를 말한다 (예를 들어, AAAAATAACAATAAA). 이런 low-complexity sequence는 searching이나 clustering 과정에서 문제가 될 수 있다. 그래서 masking 과정을 거치는 것이 추천된다.
이때 soft masking과 hard masking이 구분되는데, 전자는 low-complexity sequence를 소문자로 표시하는 방식이다 (예를 들어, AAAATAA를 aaaataa로). 한편, 후자는 wildcard 글자로 아예 대체해버리는 방식으로, nucleotides는 N, proteins는 X로 대체한다 (예를 들어, AAAATAA를 NNNNNNN으로).
Reference
728x90
반응형
'Bioinformatics > etc.' 카테고리의 다른 글
[FastQC] High throughput sequencing data의 quality 검정 (0) | 2023.02.04 |
---|---|
[생물정보학] Sequencing의 종류 (0) | 2021.10.04 |
NGS의 구분: Single-end, Paired-end, CCS (0) | 2021.08.12 |
[용어 설명] SNP (single-nucleotide polymorphism)와 SNV (single-nucleotide variant) 차이 (0) | 2021.08.02 |
[illumina] Sequence library의 구성 (primer, index, oligo) (0) | 2021.07.30 |