Sequence Analysis
Sequence quality control
- BBDuk (BBTools): Trimming and quality filtering.
Assembly
- SPAdes
$ spades.py -1 read_1.fastq.gz -2 read_2.fastq.gz -o ./assembled --only-assembler
- MEGAHIT
Coverage calculation
- BBMap: final assembly에 reads를 mapping하여 depth of coverage를 계산.
SNP calling
- MUMMER
# Align two genomes with MUMMER.
mummer reference.fasta assembled/scaffolds.fasta > result/aligned.mums
# Visualize the alignment result with mummerplot.
mummerplot -t 'png' -p result/aligned result/aligned.mums
# SNP calling
nucmer -p result/nucmer reference.fasta assembled/scaffolds.fasta
show-snps result/nucmer.delta > result/result.snps
K-mer counting
- Jellyfish: multithreaded k-mer counter
Amplicon Data Analysis
Paired-end joining
- VSEARCH (QIIME2 vsearch join-pairs)
- USEARCH
- pandaseq
De-multiplexing (raw sequencing data into samples)
- QIIME2 (demux)
Sequence quality control
- QIIME2 (quality-filter q-score)
Sequence quality check
- QIIME2 (demux summarize)
Identifying OTUs
- QIIME-uclust
- USEARCH-UPARSE: UCLUST와 동일하지만, cluster inference 이전에 quality filtering 과정이 좀 더 엄격하다.
- VSEARCH: clustering & dereplication
Identifying ASVs
- DADA2: Sensitivity가 높다.
- Deblur (QIIME2): Specificity가 높다. Chimera detection도 해준다.
- USEARCH-UNOISE3: DADA2와 Deblur보다 성능은 좋지만 유료
- MED (Minimum Entropy Decomposition)
Chimera detection
- UCHIME: native chimera-removal tool이 없을 때 사용 가능.
- VSEARCH
Taxonomy assingment
- GAST: Global Alignment for Sequence Taxonomy
- BLAST: searching based on local alignment
- VSEARCH (QIIME2): searching based on global alignment, USEARCH의 무료 대안.
Normalization
- vegan rrarefy (R package): Rarefying
Alpha diversity estimation
- QIIME2
- vegan (R package)
Beta diversity estimation
- QIIME2
- vegan (R package)
Visualization
- phyloseq (R package): PCoA (Principal coordinate analysis)
- anvi'o v3: Heat map visualizations of relative abundances
Biomarker discovery
- LEfSe: 그룹을 비교할 때 각 그룹에서 특징적인 미생물은 무엇이 있는지 알아냄.
Funtional profile prediction
- PICRUSt: Amplicon data는 shotgun metagenomic data와 달리 데이터로부터 gene sequence를 바로 알 수는 없다. 그래도 어떤 세균이 존재하는지를 통해 어떤 유전자가 샘플에 존재했었을 것이라는 예측은 가능하다 (indirect).
Metagenomic Data Analysis
Quality control
- Trimmomatic: human read 제거 등
- KneadData: sequence read-level quality control and contaminant depletion
Taxonomic profiling
Metagenomic data가 paired end set일 때, read joining을 보통 생략하고 진행한다. 이는 대부분의 파이프라인이 forward와 reverse를 한번에 받을 수 있게 설계되어 있기 때문이다 (한번에 받은 후 각각 mapping을 진행하여, 동시에 mapping된 결과만 취급하는 등). 또 보통 forward 및 reverse의 결과가 보통 동일해서 forward만 사용할 수도 있다 (빠른 분석 가능). 굳이 merging을 한 이후에 사용하겠다면, read가 서로 떨어져있지는 않은지(Overlap이 있거나, overlap이 없더라도 read가 붙어있어야 함) 확인한 이후 amplicon data 분석에서 서술한 paired-end joining 툴을 사용할 수 있다.
- MetaPhlAn 3: species profiling
- StrainPhlAn 3: nucleotide-variant-based strain profiling (MetaPhlAn 3 이후 분석), 각 샘플에서 특정 species에 해당하는 strain의 consensus sequence만 모아놓고 phylogenetic tree를 생성한다 (각각의 샘플이 leaves)
- Kraken: profiling
- Bracken: abundance estimation
Functional profiling
- HUMAnN 3
- PanPhlAn 3: gene-variant-based strain profiling (HUMAnN 3 이후 분석), gene presence-absence genotypes 생성
Metagenome-assembled genome (MAG)
- MetaBAT2, MaxBin2: Assembled contig를 input으로 받아서 binning (유사한 contigs끼리 그룹으로 묶어줌)
- Bowtie2: mapping reads into contigs + coverage 정보 제공
- SAMtools: mapping 결과를 BAM format으로 바꿔줌
- CheckM: Marker gene (ex. UBCG)을 바탕으로 genome의 completeness와 contamination을 측정 가능 -> MAG 선별
Test data
- InSilicoSeq: creating synthetic samples
Database
- ChocoPhlAn 3: data resource of genomes and genes (pangenomes)
Overall Genome Relatedness Indices (OGRIs) Calculation
Average nucelotide identity (ANI)
- OrthoANIu (www.ezbiocloud.net/tools/orthoaniu)
Average amino acid indentity (AAI)
Percentage of conserved proteins (POCP)
- Script available at http://dx.doi.org/10.6084/m9.figshare.4577953.v1 (Harris, Bourin, Claesson, & O'Toole, 2017)
Gene Identification
Gene prediction
Genome에서 어느 부분이 CDS인지
- Prodigal: for prokaryote, intrinsic method, log-likelihood based
- AUGUSTUS: for eukaryotes, extrinsic method, HMM based
Sequence clustering
- Linclust: CDSs를 orthologous groups로 clustering이 가능하다.
Gene annotation tool
CDS가 어느 gene에 해당하는지
- BLAST: Annotation tool (Homology를 찾을 수는 없다) [참조].
- MMseqs2: Annotation tool (Homology를 찾을 수는 없다) [참조].
- PSI-BLAST: sequence profiles을 바탕으로 어느 유전자인지 판단. profile hidden Markov Model (HMM)을 바탕으로 한 방법보다 sensitivity가 떨어짐 [참조].
- HMMER: profile HMM를 바탕으로 어느 유전자인지 판단.
- ✨ HH-suite3 (HHblits / HHsearch): profile HMM를 바탕으로 어느 유전자인지 판단 (Similarity 계산, Homology detection, 단백질 기능 및 구조 예측). PSI-BLAST 및 HMMER보다 훨씬 빠르다고 한다 [참조].
- eggNOG-mapper: eggNog database 정보를 mapping 시켜주는 도구
- USEARCH
- DIAMOND: BLASTX보다 속도가 더 빠르다고 한다 (protein sequence를 protein database에 alignment).
Gene annotation database
- Pfam, TIGRFAMs: profile HMM database
- eggNog 5.0: 세균 (COGs), 고세균(arCOGs), 진핵생물(KOGs), 바이러스(viral OGs)의 데이터를 통합하여 orthologous groups (OGs)를 제공하는 데이터베이스. 이를 통해 각 유전자가 어떤 역할을 수행할지, 해당하는 category는 무엇일지 등을 예측할 수 있다.
Phylogenetic Tree
Core gene
- UBCG2: a defined set of core genes of bacteria + Genome에서 찾는 기능 포함.
- Roary: extract core genes from the genome set (accessory genes도 확인하여 pan genome을 생성하는 것도 가능)
- PhyloPhlAn 3: Clade-specific markers를 사용하여 내가 가진 genome (MAGs도 가능)이 phylogenetic tree의 어디에 위치해있는지 알아냄 (phylogenetic profiling, phylogenetic placement, taxonomic assignment).
Alignment against reference genome
- MUMmer
Multiple sequence alignment (MSA)
- MAFFT
Contructing tree
- RAxML: multiple sequence alignment (MSA) to a maximum likelihood tree.
- FastTree: MSA에서 tree로.
- MEGA: FASTA-formatted alignment fies에서 tree를 생성한다.
- phangorn (R library): matrix로부터 UPGMA tree 생성 (hierarchical clustering)
Visualizing tree
- MEGA
- iTOL: Browser에서 tree 확인 가능.
# tools
728x90
반응형