Sequence similarity와 sequence identity는 서로 다르다. 그 차이를 아래 URL에서 잘 설명하고 있는데 이를 요약하면 다음과 같다.
- Identity: 일치하는 character count를 바탕으로 계산 (공통점에 집중). [일치하는 character 수]/[짧은 쪽 길이]
- Similarity: Edit distance를 바탕으로 계산 (차이점에 집중). 1-([edit distance]/[짧은 쪽 길이])
예를 들어, 아래의 sequence set이 있을 때,
- CGCATCA
- CGCAT
- CGCATAA
Identity와 simiarity 값은 아래 표와 같다.
Between | Identity (%) | Similarity (%) |
1 X 2 | 100.0 (5/5) | 60.0 (1-2/5) |
2 X 3 | 100.0 (5/5) | 60.0 (1-2/5) |
1 X 3 | 85.7 (6/7) | 85.7 (1-1/7) |
Reference
728x90
반응형
'Biology·Medical Science' 카테고리의 다른 글
[용어 설명] in silico, in vitro, in vivo, ex vivo의 구분 (0) | 2021.10.02 |
---|---|
숫자로 보는 생물학 (Numbers in Biology) (0) | 2021.07.28 |
[용어 설명] Exon, Intron, coding region (CDS), Open reading frame (ORF) (0) | 2021.07.28 |
[MS] Mass spectrom 간단 정리 (0) | 2021.04.28 |
[생명과학 일반] Transformation, Transduction, Transfection 차이 (0) | 2021.02.10 |