Bioinformatics/etc.

[생물정보학] 특정 작업 별 사용 가능한 프로그램 목록

2021. 2. 15. 10:00

Sequence Analysis

Sequence quality control

  • BBDuk (BBTools): Trimming and quality filtering.

 

Assembly

  • SPAdes
$ spades.py -1 read_1.fastq.gz -2 read_2.fastq.gz -o ./assembled --only-assembler
  • MEGAHIT

 

Coverage calculation

  • BBMap: final assembly에 reads를 mapping하여 depth of coverage를 계산.

 

SNP calling

  • MUMMER
# Align two genomes with MUMMER.
mummer reference.fasta assembled/scaffolds.fasta > result/aligned.mums

# Visualize the alignment result with mummerplot.
mummerplot -t 'png' -p result/aligned result/aligned.mums

# SNP calling
nucmer -p result/nucmer reference.fasta assembled/scaffolds.fasta
show-snps result/nucmer.delta > result/result.snps

 

K-mer counting

  • Jellyfish: multithreaded k-mer counter

 

Amplicon Data Analysis

Paired-end joining

  • VSEARCH (QIIME2 vsearch join-pairs)
  • USEARCH
  • pandaseq

 

De-multiplexing (raw sequencing data into samples)

  • QIIME2 (demux)

 

Sequence quality control

  • QIIME2 (quality-filter q-score)

 

Sequence quality check

  • QIIME2 (demux summarize)

 

Identifying OTUs

  • QIIME-uclust
  • USEARCH-UPARSE: UCLUST와 동일하지만, cluster inference 이전에 quality filtering 과정이 좀 더 엄격하다.
  • VSEARCH: clustering & dereplication

 

Identifying ASVs

  • DADA2: Sensitivity가 높다.
  • Deblur (QIIME2): Specificity가 높다. Chimera detection도 해준다.
  • USEARCH-UNOISE3: DADA2와 Deblur보다 성능은 좋지만 유료
  • MED (Minimum Entropy Decomposition)

 

Chimera detection

  • UCHIME: native chimera-removal tool이 없을 때 사용 가능.
  • VSEARCH

 

Taxonomy assingment

  • GAST: Global Alignment for Sequence Taxonomy
  • BLAST: searching based on local alignment
  • VSEARCH (QIIME2): searching based on global alignment, USEARCH의 무료 대안.

 

Normalization

  • vegan rrarefy (R package): Rarefying

 

Alpha diversity estimation

  • QIIME2
  • vegan (R package)

 

Beta diversity estimation

  • QIIME2
  • vegan (R package)

 

Visualization

  • phyloseq (R package): PCoA (Principal coordinate analysis)
  • anvi'o v3: Heat map visualizations of relative abundances

 

Biomarker discovery

  • LEfSe: 그룹을 비교할 때 각 그룹에서 특징적인 미생물은 무엇이 있는지 알아냄.

 

Funtional profile prediction

  • PICRUSt: Amplicon data는 shotgun metagenomic data와 달리 데이터로부터 gene sequence를 바로 알 수는 없다. 그래도 어떤 세균이 존재하는지를 통해 어떤 유전자가 샘플에 존재했었을 것이라는 예측은 가능하다 (indirect).

 

Metagenomic Data Analysis

Quality control

  • Trimmomatic: human read 제거 등
  • KneadData: sequence read-level quality control and contaminant depletion

 

Taxonomic profiling

Metagenomic data가 paired end set일 때, read joining을 보통 생략하고 진행한다. 이는 대부분의 파이프라인이 forward와 reverse를 한번에 받을 수 있게 설계되어 있기 때문이다 (한번에 받은 후 각각 mapping을 진행하여, 동시에 mapping된 결과만 취급하는 등). 또 보통 forward 및 reverse의 결과가 보통 동일해서 forward만 사용할 수도 있다 (빠른 분석 가능). 굳이 merging을 한 이후에 사용하겠다면, read가 서로 떨어져있지는 않은지(Overlap이 있거나, overlap이 없더라도 read가 붙어있어야 함) 확인한 이후 amplicon data 분석에서 서술한 paired-end joining 툴을 사용할 수 있다.

  • MetaPhlAn 3: species profiling
  • StrainPhlAn 3: nucleotide-variant-based strain profiling (MetaPhlAn 3 이후 분석), 각 샘플에서 특정 species에 해당하는 strain의 consensus sequence만 모아놓고 phylogenetic tree를 생성한다 (각각의 샘플이 leaves)
  • Kraken: profiling
  • Bracken: abundance estimation

 

Functional profiling

  • HUMAnN 3
  • PanPhlAn 3: gene-variant-based strain profiling (HUMAnN 3 이후 분석), gene presence-absence genotypes 생성

 

Metagenome-assembled genome (MAG)

  • MetaBAT2, MaxBin2: Assembled contig를 input으로 받아서 binning (유사한 contigs끼리 그룹으로 묶어줌)
  • Bowtie2: mapping reads into contigs + coverage 정보 제공
  • SAMtools: mapping 결과를 BAM format으로 바꿔줌
  • CheckM: Marker gene (ex. UBCG)을 바탕으로 genome의 completeness와 contamination을 측정 가능 -> MAG 선별

 

Test data

  • InSilicoSeq: creating synthetic samples

 

Database

  • ChocoPhlAn 3: data resource of genomes and genes (pangenomes)

 

Overall Genome Relatedness Indices (OGRIs) Calculation

Average nucelotide identity (ANI)

 

Average amino acid indentity (AAI)

 

Percentage of conserved proteins (POCP)

 

Gene Identification

Gene prediction

Genome에서 어느 부분이 CDS인지

  • Prodigal: for prokaryote, intrinsic method, log-likelihood based
  • AUGUSTUS: for eukaryotes, extrinsic method, HMM based

 

Sequence clustering

  • Linclust: CDSs를 orthologous groups로 clustering이 가능하다.

 

Gene annotation tool

CDS가 어느 gene에 해당하는지

  • BLAST: Annotation tool (Homology를 찾을 수는 없다) [참조].
  • MMseqs2: Annotation tool (Homology를 찾을 수는 없다) [참조].
  • PSI-BLAST: sequence profiles을 바탕으로 어느 유전자인지 판단. profile hidden Markov Model (HMM)을 바탕으로 한 방법보다 sensitivity가 떨어짐 [참조].
  • HMMER: profile HMM를 바탕으로 어느 유전자인지 판단.
  • ✨ HH-suite3 (HHblits / HHsearch): profile HMM를 바탕으로 어느 유전자인지 판단 (Similarity 계산, Homology detection, 단백질 기능 및 구조 예측). PSI-BLAST 및 HMMER보다 훨씬 빠르다고 한다 [참조].
  • eggNOG-mapper: eggNog database 정보를 mapping 시켜주는 도구
  • USEARCH
  • DIAMOND: BLASTX보다 속도가 더 빠르다고 한다 (protein sequence를 protein database에 alignment).

 

Gene annotation database

  • Pfam, TIGRFAMs: profile HMM database
  • eggNog 5.0: 세균 (COGs), 고세균(arCOGs), 진핵생물(KOGs), 바이러스(viral OGs)의 데이터를 통합하여 orthologous groups (OGs)를 제공하는 데이터베이스. 이를 통해 각 유전자가 어떤 역할을 수행할지, 해당하는 category는 무엇일지 등을 예측할 수 있다.

 

Phylogenetic Tree

Core gene

  • UBCG2: a defined set of core genes of bacteria + Genome에서 찾는 기능 포함.
  • Roary: extract core genes from the genome set (accessory genes도 확인하여 pan genome을 생성하는 것도 가능)
  • PhyloPhlAn 3: Clade-specific markers를 사용하여 내가 가진 genome (MAGs도 가능)이 phylogenetic tree의 어디에 위치해있는지 알아냄 (phylogenetic profiling, phylogenetic placement, taxonomic assignment).

 

Alignment against reference genome

  • MUMmer

 

Multiple sequence alignment (MSA)

  • MAFFT

 

Contructing tree

  • RAxML: multiple sequence alignment (MSA) to a maximum likelihood tree.
  • FastTree: MSA에서 tree로.
  • MEGA: FASTA-formatted alignment fies에서 tree를 생성한다.
  • phangorn (R library): matrix로부터 UPGMA tree 생성 (hierarchical clustering)

 

Visualizing tree

  • MEGA
  • iTOL: Browser에서 tree 확인 가능.

 

 

 

 

 

# tools

 

728x90
반응형