Bioinformatics/etc.

[용어 설명] Sequence masking이란? | Soft masking & Hard masking

2021. 10. 2. 22:04

  Sequence masking이란 low-complexity sequence를 찾아서 이를 따로 표시하거나 제거하는 과정이다. 이때 low-complexity sequence란 1-2개의 글자가 반복되는 sequence를 말한다 (예를 들어, AAAAATAACAATAAA). 이런 low-complexity sequence는 searching이나 clustering 과정에서 문제가 될 수 있다. 그래서 masking 과정을 거치는 것이 추천된다.

  이때 soft maskinghard masking이 구분되는데, 전자는 low-complexity sequence를 소문자로 표시하는 방식이다 (예를 들어, AAAATAA를 aaaataa로). 한편, 후자는 wildcard 글자로 아예 대체해버리는 방식으로, nucleotides는 N, proteins는 X로 대체한다 (예를 들어, AAAATAA를 NNNNNNN으로).

 

Reference

  1. https://www.drive5.com/usearch/manual/masking.html

 

 

728x90
반응형