Bioinformatics 51

[용어 설명] Metagenome과 Metatranscriptome

아래에서 metagenome과 metatranscriptome에 관해 정리된 그림을 확인할 수 있다. 먼저 샘플에서 DNA를 뽑은 이후에 목적에 따라 두 종류의 데이터를 얻을 수 있다. Amplicon data: 16S rDNA만 증폭한 데이터. 위 그림에서는 sequencing 이후에 16S rDNA를 뽑아서 분석하는 것처럼 묘사하였는데, 실제로는 일반적으로 sequencing을 할 때부터 16S rDNA만 증폭하여 amplicon data를 얻는다. Metagenome: 샘플에 존재하는 모든 sequence를 증폭한 데이터. Active microbes와 inactive microbes의 구분은 할 수 없다. 한편, 샘플에서 RNA를 뽑은 이후에도 두 종류의 데이터를 얻을 수 있다. 이런 분석을 하는..

NGS의 구분: Single-end, Paired-end, CCS

Next generation sequencing (NGS)는 크게 Single-end sequencing, Paired-end sequencing, Circular consensus sequencing (CCS)로 구분할 수 있다. Single-end sequencing (Roche 454, Ion Torrents): DNA fragment의 한쪽 끝만 sequencing한다. Paired-end sequencing (Illumina): DNA fragment의 양쪽 끝을 sequencing한다. 이때 각 paried read 사이의 거리를 알고 있기 때문에 repetitive regions에 대하여 더 정확하게 alignment를 할 수 있다 (1). 한편, 아래 그림의 경우에는 read가 겹치는 ov..

Bioinformatics/etc. 2021.08.12

[계통수] Phylogenetic tree란? | MEGA X를 이용한 계통수 생성

Phylogenetic tree란? 계통수(phylogenetic tree)를 통해 다양한 분류군 간의 진화관계를 알 수 있다 (Sequences set이 있을 때, 이들의 다양성을 보여주는 가장 좋은 방법 중 하나이다). Phylogenetics에서는 계통수를 dendrogram이라고도 부른다 (1). 일반적으로 계통수는 1) 여러 종에서 유래한 marker gene sequences에 대해서 2) multiple sequence alignment (MSA)를 진행하고 3) 특정 phylogenetic method 및 4) 특정 모델을 사용하여 얻어진다. Phylogenetic methods는 아래와 같이 크게 distance-based와 character-based methods로 나뉜다. Dista..

[생물정보학] 배양하지 못한 미생물의 유전체: SAG와 MAG

일반적으로 세균 등의 미생물 유전체(genome)를 얻기 위해서는 배양(culture)을 하고, 생성된 colony로부터 DNA를 얻는 과정이 필요하다. 하지만 최근에는 이런 배양 과정 없이 미생물의 유전체를 얻는 방법이 등장하고 있으며, 그러한 유전체의 종류에는 single amplified genome (SAG)와 metagenome-assembled genome (MAG)이 있다. 이 논문에 SAGs와 MAGs의 역사 (Figure 1) 및 생성 과정 (Figure 2)이 잘 나와있다. 생성 과정을 요약하면 아래와 같다. Single amplified genome (SAG) Environmental sample Single-cell isolation & Whole genome amplificatio..

[용어 설명] SNP (single-nucleotide polymorphism)와 SNV (single-nucleotide variant) 차이

Single-nucleotide polymorphism (SNP)는 "germline substitution of a single nucleotide at a specific position in the genome."라고 정의되어 있다 (1). 즉, 어떤 집단에서 특정 single nucleotide가 굉장히 적은 비율로 유전된다면 이를 SNP라고 한다. 예를 들어, 한국인의 유전자 A가 일반적으로 "ATACTGTGCA"로 되어있는데, 그 중 굉장히 적은 비율의 사람에서 유전자 A가 "ATACTATGCA"라면, 하나의 SNP가 있다고 말할 수 있다. 비율은 일반적으로 1% 이상을 사용한다고 한다 (너무 적은 비율의 경우는 SNP라고 하지 않고, SNV라고 한다). Single-nucleotide var..

Bioinformatics/etc. 2021.08.02

[illumina] Sequence library의 구성 (primer, index, oligo)

Sequencing에서 가장 먼저 해야하는 일은 DNA나 RNA로부터 library를 제작하는 일이다. 마이크로바이옴 분야에서 amplicon sequencing library가 어떻게 제작되고 구성은 어떤지 확인하였다. overhang adapter sequence(non-biological sequence)와 locus‐specific sequence(biological sequence, 341F/805R 등)가 연결된 primer를 PCR에 사용하여 원하는 부위를 증폭(amplification)하고 library를 만든다 (3). 제작된 Dual-indexed library의 구성은 다음과 같다 (1). Rd1 SP, Rd2 SP: Sequencing을 위한 sequencing primers의 bi..

Bioinformatics/etc. 2021.07.30

[생물정보학] 마이크로바이옴 데이터 분석 방법 및 개념 (amplicon data)

이 포스팅에서는 마이크로바이옴 데이터를 어떻게 분석하는지, 관련 개념에는 무엇이 있는지 개괄적으로 알아보고자 한다. 분석 데이터 일반적으로 마이크로바이옴 분석은 amplicon data를 사용하여 분석한다. 여기에서 amplicon이란, "a piece of DNA or RNA that is the source and/or product of amplification or replication events" (1)을 의미한다. 즉, 마이크로바이옴 분석은 샘플에 굉장히 많은 종류의 DNA가 있을 때, 이 중 일부의 DNA 조각만 증폭한 데이터 (amplicon data)를 사용하여 보통 분석한다. 그럼 어떤 종류의 DNA 조각을 증폭할까? 마이크로바이옴을 구성하는 세균에 대해서 분석을 할 때 사용하는 것이..

[Alpha diversity] Diversity metrics 비교 (Species richness, Species evenness)

샘플 내 다양성을 파악하기 위해 우리는 alpha diversity를 계산한다. 그런데 다양한 종류의 diversity metrics가 존재하며, 어떤 metric이 유의하게 높더라도 다른 metric은 유의하지 않을 수도 있다. 그렇다면 이러한 metrics 간에 어떠한 차이가 있는지 알아보았다. Commonly used estimates for alpha diversity Species richness Species richness는 샘플이 다양한 종을 포함할수록 값이 커진다. 예를 들어 샘플_1은 OTU A, B를 가지고 있고, 샘플_2는 OTU A, B, C를 가지고 있을 때 species richness는 샘플_2보다 샘플_1에서 더 크다. 이러한 species richness를 나타내는 met..

[용어 설명] Candidate phyla radiation (CPR)이란?

Candidate phyla radiation (CPR group, Patescibacteria)이란, 배양되지 않고 metagnomics나 single cell sequencing에 의해서만 알려진 세균들의 분류군이다. 굉장히 작기 때문에 nanobacteria나 ultra-small bacteria라고도 불린다. Genome size도 작고 합성에 관여하는 유전자도 없기 때문에 공생하며 사는 세균으로도 여겨진다 [참조1, 참조2]. 실제로는 70 phyla 이상으로 분류될 수 있다는 주장도 있고, 하나의 phylum이라는 주장도 있다. 기존 세균과는 다른 16S rRNA gene 구조를 가지고 있어서 16S amplicon sequencing에서는 발견되지 않는다. 더 공부해봐야 알겠지만, 실제로 있..

[MDB] Gene Catalog 및 Genome Catalog를 정리한 Microbiome database

MDB (Microbiome database)에서는 1) microbiome sample의 sequencing resource와 metadata가 정리되어 있고 (taxonomic profiling은 제공하지 않는다), 2) gene catalog 및 3) genome catalog를 확인할 수 있다. https://db.cngb.org/microbiome/ MDB: Microbiome Database for sequencing, research, project - CNGBdb MDB: Microbiome Database Microbiome database involves the sequencing resource and metadata of ecological community samples of mi..

728x90
반응형