전체 글 231

[ASV] Amplicon Sequence Variant (ASV)의 특징과 Operational Taxonomic Unit (OTU)와의 차이점

Amplicon data는 PCR이나 Sequencing 과정 중에서 발생한 error reads를 포함한다. 우리는 그중에서 correct한 sequence만을 뽑아내서 샘플이 어떻게 구성되어 있는지 파악하기를 원한다. 전통적인 방법으로는 Opertaional taxonomic unit (OTU) picking이 있는데, 최근 들어 Amplicon sequence variant (ASV) pipeline이 각광을 받고 있다. 그러면 OTU는 무엇이고 ASV는 무엇인지, 어떤 차이가 있는지 본 포스팅에서 살펴보고자 한다. Operational Taxonomic Unit (OTU) Reads를 97% similarity를 기준으로 묶는 방법(clustering)을 OTU picking이라고 하고, 묶여진 ..

[QIIME2] QIIME2의 workflow 설명 (일반적인 Amplicon data 분석 과정)

해당 내용은 QIIME 2 Tutorial을 바탕으로 작성된 글로, Reference의 URL에서 원본 내용을 확인할 수 있습니다. 유용한 팁 모음 --help로 plugins, actions을 확인하고 action에 대한 설명을 볼 수 있다. qiime --help # Plugins 종류 확인 qiime demux --help # demux plugin에 포함된 actions 종류 확인 qiime demux emp-single --help # emp-single method에 대한 설명 확인 인용은 --help 대신 --citations를 치면 인용해야할 목록을 확인할 수 있다. 혹은 https://view.qiime2.org/에 파일을 업로드하고, "citations" 탭을 확인하면 그 파일 생성과 ..

[QIIME2] QIIME2의 핵심 개념 소개

Data files (Artifacts와 Visualizations) 데이터 파일은 Artifacts(.qza)와 Visualizations(.qzv)로 구분됨. Artifacts는 data와 metadata를 포함하는 것으로, 일반적인 data에서 artifacts로의 importing, artifacts에서 data로의 exporting이 가능함. Visualizations는 최종 결과물로서, 시각적으로 데이터를 확인할 수 있는 파일이다. https://view.qiime2.org에서 데이터를 쉽게 확인해볼 수 있다. Semantic types Artifiacts는 고유의 semantic types를 가지고 있는데, 어떤 분석에 사용되는 artifacts인지 나타내주는 라벨이라고 생각하면 된다. 예를..

[Linux] 파일 압축 및 풀기 명령어 모음 (gzip, zip, xz, bzip2, tar)

gzip 예제 (.gz) gzip 파일이름 #gzip으로 압축하기 gzip -d 파일이름.gz #gzip 압축풀기 혹은 gunzip을 사용하여 압축을 풀 수 있다. gunzip 파일이름.gz #gunzip으로 압축풀기 gunzip -c 파일이름.gz #압축을 풀지 않은 상태에서 파일 출력 그런데 gzip은 굉장히 느리다. 대신에 더 많은 threads 사용하여 빠른 속도로 gz 압축을 할 수 있는 pigz가 있다. 굉장히 유용해서 요즘은 이것만 사용하는 느낌... pigz -p 20 file # threads: 20, returns fize.gz (delete the original file) zip 예제 zip -r directory.zip directory/ # zip 압축 unzip director..

[Article] UNOISE 논문 (알고리즘, 특징)

내용 구성 Illumina denoisers는 두 단계로 구성됨. 1) Denoising, 2) Filtering of chimeric amplicons. Denoising은 high-abundance sequence와 유사한 low-abundance sequence는 error일 것이라는 전제를 바탕으로 한다. 이때 correct sequence와 error를 구분하는 threshold를 정하는 것이 주요 challenge이다. 여러 방법을 같이 쓰는 것이 하나만 쓰는 것보다 낫다고 이야기함. 알고리즘: Reads를 abundance를 기준으로 정렬함. Abundance가 높은 read를 centroid sequence로 잡고, 다른 read들과 abundance를 비교하여 그 비율이 특정 thresh..

Study/Paper Summary 2021.02.17

[Newick] 계통수 표현에 사용되는 Newick tree format

Newick tree format은 괄호와 쉼표를 사용하여 계통수를 표현하는 방법이다. 즉, 계통수 그림을 텍스트화 시킨 것으로 Newick file의 확장자는 .nwk이다. 예제 아래와 같이 다양한 방법으로 나타낼 수 있다. (,,(,)); no nodes are named (A,B,(C,D)); leaf nodes are named (A,B,(C,D)E)F; all nodes are named (:0.1,:0.2,(:0.3,:0.4):0.5); all but root node have a distance to parent (:0.1,:0.2,(:0.3,:0.4):0.5):0.0; all have a distance to parent (A:0.1,B:0.2,(C:0.3,D:0.4):0.5); dista..

[Article] ASV method 중 하나인 Deblur에 대한 참조 논문

내용 구성 Deblur 알고리즘: 1) Sequence를 abundance로 sorting. 2) Predicted error-derived reads의 수를 제외. 3) 수가 0 이하로 되는 sequence는 output에서 제외. 4) UCHIME으로 chimeras 제거. 참고 Deblur의 인용수는 425회, UNOISE의 인용수는 410회 (2021-02-15) github.com/biocore/deblur Illumina 장비의 경우 nucleotide 당 error rate가 0.1% 정도이다. AmpliconNoise라는 denoising method도 존재 (for pyrosequencing) Deblur는 DADA2 및 UNOISE2와 다르게 각 샘플에 대하여 독립적으로 작동한다 (fu..

Study/Paper Summary 2021.02.15

[Article] 마이크로바이옴 샘플 상온 보관 시 적용할 수 있는 방법

내용 구성 Gammaproteobacteria (class) 등에 속하는 세균(IBD와도 연관)은 상온에서 더 쉽게 자라며, 상온 보관한 샘플에 영향을 미칠 수 있다. 위 논문에서는 상온에서 쉽게 자라는 세균의 리스트를 구하고, 그 세균을 profile에서 제외시킴으로써 correcting할 수 있다고 한다 (몇몇만 제거해도 충분하다고 설명함). 급냉동한 샘플과 상온에 두었던 샘플을 비교하여 세균 리스트를 구하였다. Type 1과 type 2 error 사이의 balance가 중요함 (Noisy data와 loss of data). 어느 정도로 candidate blooming bacterial taxa를 제거할지는 추가 분석하여 구해볼 수 있다: 어느 정도 제거했을 때 나이에 따라 다양성이 구분되는지 ..

Study/Paper Summary 2021.02.15

[Article] AmpliCI: 새로운 ASV method

정리 Model에 대한 설명은 Materials and Methods에 수식과 함께 정리되어 있다 (이해 못함...) DADA2, Deblur, UNOISE3와 같은 ASV method로 개발된 방법인데, 위 3가지 방법보다 더 나은 퍼포먼스를 보인다고 소개함. UNOISE3와 Deblur는 quality information을 무시하는 반면, DADA2와 AmpliCI는 quality information을 사용한다. Reference Peng, Xiyu, and Karin Dorman. "AmpliCI: a high-resolution model-based approach for denoising Illumina amplicon data." Bioinformatics (2020).

Study/Paper Summary 2021.02.15
728x90
반응형