세균의 genome sequence를 얻었을 때, 이 세균이 어떤 세균인지 알기 위해서는 reference database와 비교해야한다. 그러한 과정에 EzBioCloud를 활용할 수 있는데, 이를 소개하고자 한다.
EzBioCloud (https://www.ezbiocloud.net/)는 세균의 genome sequence 및 16S rRNA gene sequence를 모아놓은 데이터베이스이다. 단순히 sequence만 모아놓은 것이 아니라 이를 활용할 수 있는 다양한 툴을 제공하는데, 이를 이용해서 세균 동정을 할 수 있다. 다음과 같은 과정으로 진행된다.
- Genome sequence로부터 16S rRNA gene sequence 뽑아내기 [ContEst16S]
- 16S rRNA gene sequence를 16S rRNA DB (type strain)와 비교 [16S-based ID]
- Similarity가 98.7% 이상인 결과(type strain)에 대해서 각각 ANI 값 계산 [ANI Calculator]
- 95~96% 이상의 ANI 값을 갖는 세균으로 동정
만약 1) 3단계에서 모든 결과에 대해 98.7% 미만이거나, 2) 98.7% 이상이라도 4단계에서 95~96% 미만이라면 새로운 종이라고 이해할 수 있다. 이처럼 genome sequence와 더불어 16S rRNA gene을 함께 이용하는 이유는 type strain에 대한 genome sequence는 없는 경우가 많지만, 16S rRNA gene은 거의 대부분 존재하기 때문이다.
1. Genome sequence로부터 16S rRNA gene sequence 뽑아내기
ContEst16S(https://www.ezbiocloud.net/tools/contest16s)를 활용하면 genome sequence로부터 16S rRNA gene sequence를 얻을 수 있다.
만약 세균이 2 copy 이상의 16S rRNA gene을 가지고 있다면 결과에서 여러 개의 fragments를 얻을 수 있는데, 아마 다 비슷할 것이므로 Fragment 1만 복사해둔다 (더 정확하게 하고 싶다면 fragments가 서로 다른지 확인한 후, 다른 fragments에 대하여 각각 16S-based ID를 진행하고 98.7% 이상인 모든 결과에 대해서 ANI 값을 계산한다).
2. 16S rRNA gene sequence를 16S rRNA DB와 비교
16S-based ID (https://www.ezbiocloud.net/identify)의 [Identify new sequence]에서 복사한 16S rRNA gene sequence를 붙여넣기한 뒤 [Next]>[Submit]을 해주면 된다.
분석 후 아래와 같은 결과를 얻을 수 있다.
[참고] 위 결과에서 Completeness가 두 개 있다 (Sequence details 내부, 결과 table 내부). 위의 completeness는 'input sequence 길이/reference sequence의 길이'의 비율을 나타낸다. 아래 completeness는 input sequence와는 관계 없는 값으로, (PCR primers 27F, 1492R 사이의) complete sequence의 길이와 비교하여 해당 strain의 sequence 길이가 얼마의 비율을 차지하는지를 의미한다 [참조].
Similarity 98.7 % 이상인 두 strains를 확인할 수 있다. 사실 type strain은 ATCC 43504(T) (Helicobacter pylori)로 하나이기 때문에 이것만 비교해도 되지만 SouthAfrica7 (CP002336_s)도 같이 분석해볼 수 있다.
Hit taxon name 옆, [Tasks]의 'O' (View genomes)를 누르면 genomes를 볼 수 있는데, ATCC 43504(T)와 SouthAfrica7를 각각 찾아서 [Browse]>[Download]>[Contigs]>[FASTA]로 genome sequence 파일을 다운 받는다 (총 2개의 파일).
물론 type strain이라고 반드시 genome sequence가 존재하지 않는다 (오히려 없는 경우가 더 많다 (1), 16S rRNA gene은 대부분 존재). 그런 상황에서는 실험을 통해 genome sequence를 얻어야 한다. 반대로 하나의 type strain에 해당하는 여러가지 genome sequences가 존재할 수 있다. 이때는 N50 등의 지수로 판단할 때 가장 좋은 quality를 보이는 genome sequence를 사용하는 것이 좋다.
3. Similarity가 98.7% 이상인 결과에 대해서 각각 ANI 값 계산
기존에 가지고 있던 genome sequence 파일을 포함하여 총 3개의 파일을 가지게 되는데, 이를 ANI Calculator (https://www.ezbiocloud.net/tools/ani)를 이용하여 분석한다.
1) 기존 파일과 ATCC 43504(T), 2) 기존 파일과 SouthAfrica7로 총 2번 분석하면 된다.
두 결과 모두 OrthoANIu value가 95~96% 미만이기 때문에 가지고 있던 genome sequence는 새로운 세균 종으로부터 유래했을 가능성이 있다고 결론을 낼 수 있다.
Reference
- Chun, Jongsik, et al. "Proposed minimal standards for the use of genome data for the taxonomy of prokaryotes." International journal of systematic and evolutionary microbiology 68.1 (2018): 461-466.
- Yoon, Seok-Hwan, et al. "Introducing EzBioCloud: a taxonomically united database of 16S rRNA gene sequences and whole-genome assemblies." International journal of systematic and evolutionary microbiology 67.5 (2017): 1613.
'Bioinformatics > Genomics' 카테고리의 다른 글
[계통수] Phylogenetic tree란? | MEGA X를 이용한 계통수 생성 (0) | 2021.08.09 |
---|---|
[용어 설명] Candidate phyla radiation (CPR)이란? (0) | 2021.07.14 |
[용어 설명] Phylogeny와 Taxonomy의 차이 (0) | 2021.07.02 |
[Newick] 계통수 표현에 사용되는 Newick tree format (0) | 2021.02.16 |