Bioinformatics 51

[QIIME2] 숙련된 연구자들을 위한 QIIME2 Overview

해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다. Pro-tips QIIME2 artifacts는 zip files이기 때문에 export하거나 unzip -k file.qza로 무엇이 들었는지 확인 가능. QIIME2를 command line에서 돌리면 느리다 (압축 과정이 들어있기 때문): Python API를 사용하면 빠르게 분석 가능. 데이터 분석 과정 1. Raw sequence (FASTQ) importing (qiime tools import) 2. Demultiplexing (q2-dmux, cutadapt) q2-dmux: barcodes가 이미 sequence에서 제거되어 분리된 파일에 있는 경우 사용 c..

[ASV] Amplicon Sequence Variant (ASV)의 특징과 Operational Taxonomic Unit (OTU)와의 차이점

Amplicon data는 PCR이나 Sequencing 과정 중에서 발생한 error reads를 포함한다. 우리는 그중에서 correct한 sequence만을 뽑아내서 샘플이 어떻게 구성되어 있는지 파악하기를 원한다. 전통적인 방법으로는 Opertaional taxonomic unit (OTU) picking이 있는데, 최근 들어 Amplicon sequence variant (ASV) pipeline이 각광을 받고 있다. 그러면 OTU는 무엇이고 ASV는 무엇인지, 어떤 차이가 있는지 본 포스팅에서 살펴보고자 한다. Operational Taxonomic Unit (OTU) Reads를 97% similarity를 기준으로 묶는 방법(clustering)을 OTU picking이라고 하고, 묶여진 ..

[QIIME2] QIIME2의 workflow 설명 (일반적인 Amplicon data 분석 과정)

해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다. 유용한 팁 모음 --help로 plugins, actions을 확인하고 action에 대한 설명을 볼 수 있다. qiime --help # Plugins 종류 확인 qiime demux --help # demux plugin에 포함된 actions 종류 확인 qiime demux emp-single --help # emp-single method에 대한 설명 확인 인용은 --help 대신 --citations를 치면 인용해야할 목록을 확인할 수 있다. 혹은 https://view.qiime2.org/에 파일을 업로드하고, "citations" 탭을 확인하면 그 파일 생성과 ..

[QIIME2] QIIME2의 핵심 개념 소개

Data files (Artifacts와 Visualizations) 데이터 파일은 Artifacts(.qza)와 Visualizations(.qzv)로 구분됨. Artifacts는 data와 metadata를 포함하는 것으로, 일반적인 data에서 artifacts로의 importing, artifacts에서 data로의 exporting이 가능함. Visualizations는 최종 결과물로서, 시각적으로 데이터를 확인할 수 있는 파일이다. https://view.qiime2.org에서 데이터를 쉽게 확인해볼 수 있다. Semantic types Artifiacts는 고유의 semantic types를 가지고 있는데, 어떤 분석에 사용되는 artifacts인지 나타내주는 라벨이라고 생각하면 된다. 예를..

[Newick] 계통수 표현에 사용되는 Newick tree format

Newick tree format은 괄호와 쉼표를 사용하여 계통수를 표현하는 방법이다. 즉, 계통수 그림을 텍스트화 시킨 것으로 Newick file의 확장자는 .nwk이다. 예제 아래와 같이 다양한 방법으로 나타낼 수 있다. (,,(,)); no nodes are named (A,B,(C,D)); leaf nodes are named (A,B,(C,D)E)F; all nodes are named (:0.1,:0.2,(:0.3,:0.4):0.5); all but root node have a distance to parent (:0.1,:0.2,(:0.3,:0.4):0.5):0.0; all have a distance to parent (A:0.1,B:0.2,(C:0.3,D:0.4):0.5); dista..

[생물정보학] 특정 작업 별 사용 가능한 프로그램 목록

Sequence Analysis Sequence quality control BBDuk (BBTools): Trimming and quality filtering. Assembly SPAdes $ spades.py -1 read_1.fastq.gz -2 read_2.fastq.gz -o ./assembled --only-assembler MEGAHIT Coverage calculation BBMap: final assembly에 reads를 mapping하여 depth of coverage를 계산. SNP calling MUMMER # Align two genomes with MUMMER. mummer reference.fasta assembled/scaffolds.fasta > result/aligne..

Bioinformatics/etc. 2021.02.15

[sORF] 장내미생물이 만드는 Small proteins의 기능 연구

Microbes는 small molecule 및 protein을 만들고 이를 이용한다. 대표적인 예로 Quorum sensing, Spore formation, Multidrug efflux pumps regulation 등이 있다. 장내미생물이 Host에 미치는 영향을 연구할 때 이러한 small protein에 대한 연구의 중요성이 높은 반면에, 이를 연구하기는 쉽지 않다. Small open reading frames (sORFs)는 길이가 짧아서 보통 annotation되지 않고 무시되고, 실험적으로 발견하기도 어렵기 때문이다. Comparative genomics to annotate sORFs 그래서 Human의 약 2000 metagenome을 모든 짧은 유전자를 찾아내는 연구가 수행되었다 ..

[MAG] Metagenome-Assembled Genome이란? 개념과 현황

Metagenome-assembled genome (MAG)이란, metagenome data에서 확인한 genome을 의미한다. 세균의 종류는 굉장히 다양하여 배양만으로는 알 수 없는 세균들도 존재하는데, metagenome에서 sequence를 de novo assembly하여 알 수 없었던 세균의 genome을 알아낼 수 있다. De novo assembly와 MAG De novo assembly는 아래와 같은 방식으로 진행된다. Sequence reads에서 시작하여 최종적으로는 continuous sequence를 만들어 낼 수 있다. 위의 방식으로 metagenome 데이터에서 새로운 세균의 genome을 알아낼 수 있고, 이것이 MAG이다. 그런데 실제로는 metagenome 데이터에서 En..

[QIIME] Alpha rarefaction plotting

Alpha rarefaction curves 위 그래프는 다양성 분석시 적절한 sampling depth를 결정하기 위해 그려볼 필요가 있는 그래프이다. 2021/02/08 - [Bioinformatics/Microbiome] - [Diversity Analysis] Sampling depth를 결정하는 기준 본 포스팅에서는 QIIME을 이용하여 어떻게 위 그래프를 그리는지 알아보겠다. Data set 먼저 다음의 임의의 데이터 셋을 준비한다 (Python 코드로 작성). import csv with open('test.tsv', 'wt') as out_file: tsv_writer = csv.writer(out_file, delimiter='\t') tsv_writer.writerow(['Counts'..

[Diversity Analysis] Sampling depth를 결정하는 기준

다양성 분석(alpha diversity, beta diversity)을 할 때, sampling depth를 맞춰야할 필요성이 있다. 이는 대부분의 diversity metrics가 서로 다른 sampling depths에 민감하기 때문이다. 그래서 균일한 sampling depth를 설정하여 다양성 분석을 하면, 설정한 depth보다 read 수가 더 적은 샘플은 제외되고, read 수가 더 많은 샘플은 설정한 depth로 random하게 subsampling되어 분석에 이용된다 (각 분석의 결과가 조금씩 달라질 수 있음). 그러면 이때 sampling depth를 얼마로 설정해야할 것인지가 중요한 문제가 된다. 하지만 정확한 기준이 없는데, QIIME tutorial에서는 아래와 같이 이야기한다. ..

728x90
반응형