Bioinformatics/Transcriptomics 5

KEGG 데이터베이스에서 유전자 검색 | KEGG 데이터베이스 구조

KEGG 데이터베이스에서는 유전자의 다양한 정보를 얻을 수 있다. 예를 들어, 사람의 GCLM 유전자에 대해 관심이 있다고 해보자. KEGG 홈페이지에서 해당 유전자를 검색하면 아래와 같은 결과를 얻을 수 있다. 검색 결과는 KEGG GENES와 KEGG ORTHOLOGY로 나뉘어진다. KEGG GENES는 여러 종(사람, 쥐 등)에서 존재하는 각각의 유전자들을 의미하고, KEGG ORTHOLOGY는 그러한 유전자들의 집단인 ortholog (한 조상으로부터 유래한 같은 기능의 유전자 집단)를 나타낸다. 즉, 사람에 존재하는 GCLM 유전자의 KEGG ID는 hsa:2730이며, 유전자가 속하는 ortholog의 KEGG ID는 K11205이다. 이때 KEGG GENES 중에 속하는 ortholog가 없..

특정 유전자 리스트와 관련 있는 pathway 검색 방법 (KEGG Mapper)

다음과 같은 유전자 리스트를 가지고 있을 때, CPT2 CPT1A FACL1 EHHADH 사람에서 이와 관련 있는 pathway에는 무엇이 있는지 KEGG Mapper를 사용하여 찾는 방법을 소개하고자 한다. KEGG (Kyoto Encyclopedia of Genes and Genomes) Mapper를 이용하면 input gene list가 pathway의 어느 곳에 나타나는지 색깔로 표시할 수 있다 (ex. upregulation gene을 빨간색으로 표시하는 등). 하지만 input으로 위와 같은 Gene symbol (CTP2, CPT1A, ... )가 아니라 KEGG ID를 받기 때문에 Symbol을 KEGG ID로 먼저 변환해줘야 한다. 이는 다음 사이트에서 가능하다. https://biod..

Gene Expression Quantification | RPM, RPKM, FPKM, TPM 공식 | 파이썬 코드

Gene expression Quantification RNA-seq 등으로 각 샘플에서 각 gene의 read count를 얻었다고 해보자. 이때 1) 샘플 간 read depth가 다르고, 2) gene마다 gene length가 다르기 때문에 이를 normalization할 필요가 있다. Gene expression의 양을 비교할 때 사용하는 normalization 방법에는 RPKM, FPKM, TPM이 있고, TPM이 주로 사용된다. 한편 gene (transcript) length의 경우, 길이가 길수록 fragment도 더 많이 나올 것을 가정하여 normalization을 하지만, 실제로 gene (transcript) length와 fragments의 양이 완전히 비례하지는 않는다. 예를..

[Prodigal] 원핵생물의 유전자 예측 프로그램 (Prokaryotic Gene prediction)

Genome sequence 파일이 있을 때 이로부터 CDS file (coding sequence, gene)을 얻고 싶다면 Prodigal을 사용할 수 있다. 주의해야할 점은 Prodigal은 원핵생물에 한정해서 디자인된 프로그램이므로 진핵생물에 대해서는 다른 프로그램을 사용해야한다. Prodigal은 다음 페이지에서 다운 가능하다. https://github.com/hyattpd/Prodigal hyattpd/Prodigal Prodigal Gene Prediction Software. Contribute to hyattpd/Prodigal development by creating an account on GitHub. github.com 자세한 설치방법은 다음 페이지를 참고할 수 있다. http..

728x90
반응형