Bioinformatics 51

[마이크로바이옴] Huttenhower 랩 프로그램 정리: MetaPhlAn, HUMAnN 등

Huttenhower 랩(하버드대)에서는 마이크로바이옴 분석과 관련된 굉장히 유명한 프로그램들을 만들었다 (MetaPhlAn, HUMAnN 등). 어떤 툴이 있는지 간단히 정리해보았다. https://huttenhower.sph.harvard.edu/tools/ Tools – The Huttenhower Lab Microbial Community Profiling Tools huttenhower.sph.harvard.edu MetaPhlAn: Shotgun sequencing data로부터 taxonomic profile을 return. HUMAnN: Shotgun sequencing data로부터 funcitonal profile을 return. 이때 각 functional feature가 어떤 세균으..

[FastQC] High throughput sequencing data의 quality 검정

Sequencing data를 얻었을 때 해당 데이터의 quality가 얼마나 좋은지 확인을 해볼 필요가 있다. 이때 가장 일반적으로 사용되는 프로그램 중 하나가 FastQC이다. 1. FastQC 설치 먼저 아래 페이지에 들어가서 FastQC v0.11.9 (Win/Linux zip file)를 다운로드 받고, 압축을 풀어준 이후, 프로그램 폴더를 PATH에 등록해준다 (Java가 없다면 설치를 해줘야 한다 [1]). https://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc Babraham Bioinformatics - Public Projects Download Download Babraham Bioinformatics Proje..

Bioinformatics/etc. 2023.02.04

[생물정보학] Sequencing의 종류

Sequencing의 종류 Whole genome sequencing (WGS): Genome에 존재하는 variants (Single nucleotide variant, insertion, deletion/ Copy number variation)를 확인 가능 [3]. Re-sequencing: 이미 서열이 알려진 genome을 다시 sequencing [1]. De novo sequencing: 서열이 알려지지 않은 genome을 처음 sequencing [1]. Whole exome sequencing (WES): Coding region에 존재하는 variants를 확인 가능. WGS보다 저렴 [3]. Target-sequencing (Panel sequencing): 특정 유전자에 존재하는 va..

Bioinformatics/etc. 2021.10.04

[용어 설명] Sequence masking이란? | Soft masking & Hard masking

Sequence masking이란 low-complexity sequence를 찾아서 이를 따로 표시하거나 제거하는 과정이다. 이때 low-complexity sequence란 1-2개의 글자가 반복되는 sequence를 말한다 (예를 들어, AAAAATAACAATAAA). 이런 low-complexity sequence는 searching이나 clustering 과정에서 문제가 될 수 있다. 그래서 masking 과정을 거치는 것이 추천된다. 이때 soft masking과 hard masking이 구분되는데, 전자는 low-complexity sequence를 소문자로 표시하는 방식이다 (예를 들어, AAAATAA를 aaaataa로). 한편, 후자는 wildcard 글자로 아예 대체해버리는 방식으로, ..

Bioinformatics/etc. 2021.10.02

[QIIME 2] 마이크로바이옴 분석에서 사용되는 파일 종류 (Import, Export)

Amplicon data를 분석할 때 주로 사용되는 Data type의 종류 및 import/export를 정리하였다. 위의 Data types가 amplicon data 분석에서 생성되는데, taxonomic analysis 및 diversity analysis에서 사용될 수 있다. 이 파일들을 하나씩 어떤 형식으로 되어 있으며, 어떻게 export/import할 수 있는지 알아보았다. 1. FeatureTable[Frequency] # Denoising $ qiime deblur denoise-16S --p-sample-stats --i-demultiplexed-seqs demux.qza --o-representative-sequences repSeqs.qza --o-table table.qza --..

Metagenomic Taxonomic Profiling | 관련 툴의 종류 (MetaPhlAn, Kraken, Kaiju)

Shotgun metagenomic samples을 분석하여 어떤 세균 구성으로 되어있는지(metagenomic taxonomic profiling) 알아내는 여러 종류의 툴이 존재한다. 이를 각각 알아보고자 한다. 참고로 NBCI에서 raw data를 받은 이후에 quality control (QC)은 일반적으로 필요하다 (Trimmomatic 등으로 human reads 제거 등). 한편 paired-end joining 단계는 보통 필요 없는데, 이는 profling tool 자체가 joining이 되지 않은 두 파일을 각각 받을 수 있기 때문에 생략 가능하다. MetaPhlAn 3 MetaPhlAn 3는 bioBakery 3에 포함된 abundance estimation program이다. Met..

[NCBI SRA] 마이크로바이옴 데이터 다운로드 | fastq-dump 설치 및 실행

NCBI Sequence Read Archive (SRA)는 마이크로바이옴 데이터(raw sequencing data 및 alignment information)가 저장된 데이터베이스이다. 웹페이지에서 Experiment Accession을 검색하면 해당 실험에 포함된 run file을 다운로드 받을 수 있다. FASTA/FASTQ : Download : Sequence Read Archive : NCBI/NLM/NIH trace.ncbi.nlm.nih.gov fastq-dump 한편, Linux 환경에서 특정 프로그램을 사용하여 다운로드 받을 수도 있는데, 그때 사용하는 프로그램이 fastq-dump이다. 그를 위해서는 SRA Toolkit을 설치해야한다. Linux 안에서 환경에 맞는 버전(아래 페이..

[HMP] Human microbiome project란? | 개념 정리

NIH Human Microbiome Project Human Microbiome Project (HMP)은 National Institutes of Health (NIH) Common Fund의 지원을 받아 진행된 프로젝트로, 마이크로바이옴과 사람 건강의 연관성을 이해하기 위해 다량의 human microbiome samples를 생성하였다. 크게 두 단계로 진행되었다. HMP1: 300명의 건강한 성인에서 다섯 군데 신체 부위(nasal passages, oral cavity, skin, gastrointestinal tract, urogenital tract)를 16S rRNA sequencing 및 shotgun sequencing으로 알아본 프로젝트. 16S rRNA sequencing을 바탕으..

KEGG 데이터베이스에서 유전자 검색 | KEGG 데이터베이스 구조

KEGG 데이터베이스에서는 유전자의 다양한 정보를 얻을 수 있다. 예를 들어, 사람의 GCLM 유전자에 대해 관심이 있다고 해보자. KEGG 홈페이지에서 해당 유전자를 검색하면 아래와 같은 결과를 얻을 수 있다. 검색 결과는 KEGG GENES와 KEGG ORTHOLOGY로 나뉘어진다. KEGG GENES는 여러 종(사람, 쥐 등)에서 존재하는 각각의 유전자들을 의미하고, KEGG ORTHOLOGY는 그러한 유전자들의 집단인 ortholog (한 조상으로부터 유래한 같은 기능의 유전자 집단)를 나타낸다. 즉, 사람에 존재하는 GCLM 유전자의 KEGG ID는 hsa:2730이며, 유전자가 속하는 ortholog의 KEGG ID는 K11205이다. 이때 KEGG GENES 중에 속하는 ortholog가 없..

728x90
반응형