Biology·Medical Science

[용어] Similarity와 Identity의 차이

2021. 4. 1. 17:45

Sequence similarity와 sequence identity는 서로 다르다. 그 차이를 아래 URL에서 잘 설명하고 있는데 이를 요약하면 다음과 같다.

 

  • Identity: 일치하는 character count를 바탕으로 계산 (공통점에 집중). [일치하는 character 수]/[짧은 쪽 길이]
  • Similarity: Edit distance를 바탕으로 계산 (차이점에 집중). 1-([edit distance]/[짧은 쪽 길이])

 

예를 들어, 아래의 sequence set이 있을 때,

 

  1. CGCATCA
  2. CGCAT
  3. CGCATAA

Identity와 simiarity 값은 아래 표와 같다.

 

Between Identity (%) Similarity (%)
1 X 2 100.0 (5/5)  60.0 (1-2/5)
2 X 3 100.0 (5/5)  60.0 (1-2/5)
1 X 3 85.7 (6/7)  85.7 (1-1/7) 

 

Reference

 

 

728x90
반응형