Bioinformatics 51

[EzBioCloud] EzBioCloud를 활용한 세균 동정 (Identification)

세균의 genome sequence를 얻었을 때, 이 세균이 어떤 세균인지 알기 위해서는 reference database와 비교해야한다. 그러한 과정에 EzBioCloud를 활용할 수 있는데, 이를 소개하고자 한다. EzBioCloud (https://www.ezbiocloud.net/)는 세균의 genome sequence 및 16S rRNA gene sequence를 모아놓은 데이터베이스이다. 단순히 sequence만 모아놓은 것이 아니라 이를 활용할 수 있는 다양한 툴을 제공하는데, 이를 이용해서 세균 동정을 할 수 있다. 다음과 같은 과정으로 진행된다. Genome sequence로부터 16S rRNA gene sequence 뽑아내기 [ContEst16S] 16S rRNA gene sequen..

특정 유전자 리스트와 관련 있는 pathway 검색 방법 (KEGG Mapper)

다음과 같은 유전자 리스트를 가지고 있을 때, CPT2 CPT1A FACL1 EHHADH 사람에서 이와 관련 있는 pathway에는 무엇이 있는지 KEGG Mapper를 사용하여 찾는 방법을 소개하고자 한다. KEGG (Kyoto Encyclopedia of Genes and Genomes) Mapper를 이용하면 input gene list가 pathway의 어느 곳에 나타나는지 색깔로 표시할 수 있다 (ex. upregulation gene을 빨간색으로 표시하는 등). 하지만 input으로 위와 같은 Gene symbol (CTP2, CPT1A, ... )가 아니라 KEGG ID를 받기 때문에 Symbol을 KEGG ID로 먼저 변환해줘야 한다. 이는 다음 사이트에서 가능하다. https://biod..

[용어 설명] Phylogeny와 Taxonomy의 차이

아래 reference에 둘의 차이가 잘 설명되어 있다. 요약하자면, taxonomy는 organisms의 명명과 분류와 관련이 있다면, phylogeny는 organsisms의 진화적 관계와 관련이 있다. 그래서 taxonomy는 evolutionary history에 대해서는 관심이 없지만, phylogeny에서는 evolutionary history를 밝히고자 한다. Phylogeny는 taxonomy을 위해 사용될 수 있다 (Phylogenic tree를 바탕으로 organisms을 명명하고 분류할 수 있다). Reference https://www.differencebetween.com/difference-between-taxonomy-and-vs-phylogeny/ # 용어 phylogeny,..

[용어 설명] Multiomics (다중체학)의 개념: Genomics, Transcriptomics, Proteomics, Metabolomics

먼저 -omics란 -ome에 대해 연구하는 학문이다. 여기에서 -ome은 특정 집합체를 의미한다 [1]. Genome을 연구하는 genomics Transcriptome을 연구하는 trancscriptomics Proteome을 연구하는 proteomics Metabolome을 연구하는 metabolomics Metagenome을 연구하는 metagenomics Epigenome을 연구하는 epigenomics 이때 Multiomics란 2개 이상의 -ome을 종합적으로 연구하는 학문을 말한다. 다양한 -ome 간의 상호작용을 연구하여 새로운 정보를 얻을 수 있다는 장점이 있다 [2]. 그 중에서 세포 내 유전적 정보의 흐름에 따라 genomics, transcriptomics, proteomics, ..

Bioinformatics/etc. 2021.07.01

[용어 설명] Microbiome, Microbiota, Metagenome 차이

Microbiome, microbiota, metagenome 모두 비슷한 용어 같지만, 실제로는 차이가 있다. Microbiome: 특정 환경에 사는 미생물 + 미생물의 유전자 Microbiota: 특정 환경에 사는 미생물 Metagenome: 특정 환경에 존재하는 모든 유전자 (이를 연구하는 학문이 metagenomics) 그래서 구분하여 사용하는 것이 좋다. Reference https://atlasbiomed.com/blog/whats-the-difference-between-microbiome-and-microbiota/

Gene Expression Quantification | RPM, RPKM, FPKM, TPM 공식 | 파이썬 코드

Gene expression Quantification RNA-seq 등으로 각 샘플에서 각 gene의 read count를 얻었다고 해보자. 이때 1) 샘플 간 read depth가 다르고, 2) gene마다 gene length가 다르기 때문에 이를 normalization할 필요가 있다. Gene expression의 양을 비교할 때 사용하는 normalization 방법에는 RPKM, FPKM, TPM이 있고, TPM이 주로 사용된다. 한편 gene (transcript) length의 경우, 길이가 길수록 fragment도 더 많이 나올 것을 가정하여 normalization을 하지만, 실제로 gene (transcript) length와 fragments의 양이 완전히 비례하지는 않는다. 예를..

[생물정보학] 생물정보학에서 주로 사용되는 파일 형식 (File format)

FASTA/FASTQFASTA는 sequence에 대한 정보를 담는 파일의 형식으로, header부분과 sequence부분으로 나뉜다.FASTA는 sequence의 종류에 따라 몇 가지 서로 다른 형식을 가질 수 있다. FASTQ는 FASTA+Quality로서 FASTA 파일의 정보 (header+sequence)와 함께 quality 정보를 함께 담는 파일의 형식이다.Line 1: HeaderLine 2: SequenceLine 3: '+' characterLine 4: Quality values (Phred score) with ASCII characters SAM/BAM/CRAMSequence Alignment Map (SAM)은 alignment 정보를 담는 파일의 형식 (각각의 read가 ref..

Bioinformatics/etc. 2021.06.13

[Prodigal] 원핵생물의 유전자 예측 프로그램 (Prokaryotic Gene prediction)

Genome sequence 파일이 있을 때 이로부터 CDS file (coding sequence, gene)을 얻고 싶다면 Prodigal을 사용할 수 있다. 주의해야할 점은 Prodigal은 원핵생물에 한정해서 디자인된 프로그램이므로 진핵생물에 대해서는 다른 프로그램을 사용해야한다. Prodigal은 다음 페이지에서 다운 가능하다. https://github.com/hyattpd/Prodigal hyattpd/Prodigal Prodigal Gene Prediction Software. Contribute to hyattpd/Prodigal development by creating an account on GitHub. github.com 자세한 설치방법은 다음 페이지를 참고할 수 있다. http..

[QIIME2] 주로 사용하는 QIIME2의 plugins 정리

Amplicon data를 분석할 때 주로 사용하는 QIIME2의 plugins를 정리하였다. 전체 plugin 목록 (2021.4 기준) 주로 사용하는 plugin과 pipeline, methods, visualizers는 bold로 표시하였다. alignment: Plugin for generating and manipulating alignments. Methods mafft: De novo multiple sequence alignment with MAFFT mafft-add: Add sequences to multiple sequence alignment with MAFFT. mask: Positional conservation and gap filtering. composition: Plugi..

728x90
반응형