Study/Paper Summary

[Article] UNOISE 논문 (알고리즘, 특징)

2021. 2. 17. 11:37

내용 구성

  • Illumina denoisers는 두 단계로 구성됨. 1) Denoising, 2) Filtering of chimeric amplicons.
  • Denoising은 high-abundance sequence와 유사한 low-abundance sequence는 error일 것이라는 전제를 바탕으로 한다.
  • 이때 correct sequence와 error를 구분하는 threshold를 정하는 것이 주요 challenge이다.
  • 여러 방법을 같이 쓰는 것이 하나만 쓰는 것보다 낫다고 이야기함.
  • 알고리즘: Reads를 abundance를 기준으로 정렬함. Abundance가 높은 read를 centroid sequence로 잡고, 다른 read들과 abundance를 비교하여 그 비율이 특정 threshold 아래인 read는 centroid sequence에 속한다고 여김 (error). 위 과정을 반복하여 얻은 centroid sequences 집합을 predicted amplicons로 여김.
  • Profile table을 만들 때는 위의 denoising step에서 버렸던 reads들도 모두 포함하여 수를 셈.
  • Sample pooling: 분석 시 사용한 샘플을 pooling해서 분석하는 것을 추천. 특정 샘플에만 많이 존재하는 (전체적으로는 굉장히 적은) reads는 잡아내기 어렵다는 단점이 있지만, rare reads를 잘 찾아내고 서로 다른 샘플에서 다른 실수를 저지를 위험이 적다는 장점이 있다 (ex. 같은 sequence가 한 샘플에서는 error, 다른 샘플에서는 biological).
  • Reads의 길이가 서로 다를 경우, 애매한 점이 많아진다. 그래서 UNOISE에서는 global trimming을 사용함.
  • Chimera detection에서 UCHIME2와 DADA2를 비교할 때, DADA2가 더 많은 sequence를 drop한다.
  • Low-divergence chimeras와 point error는 구분하기 쉽지 않고, mock 데이터를 이용하여 chimeras를 simulating하기도 어렵다.
  • 그 외에 Chimera detection에 대해 이야기를 많이 했는데, 이해하기가 어려웠다 ㅎ
  • 같은 ZOTU에 d=1이나 d=2 varinats를 같이 묶는 것이 97% identity로 묶는 것(~250nt 기준으로 d<=7)보다 훨씬 더 낫다고 이야기한다.

 

참고

  • Sequence errors는 PCR error와 Sequencing error로 나눌 수 있다.
  • PCR error: PCR chimeras, Amplification 과정 중의 substitution 및 gap errors (point errors). Substitution은 incorrect base pairing에 의해, gap error는 polymerase slippage에 의해 각각 일어난다.
  • Sequencing error: Substitution 및 gap errors (point errors). Substitution은 incorrect base calls에 의해, gap error는 omitted or spurious base calls에 의해 각각 일어난다.
  • Error frequency는 1) biases를 정확히 예측할 수 없고, 2) sampling effects에 의한 fluctuations이 존재하기 때문에 굉장히 다양하다.
  • llumina denoisers는 Illumina data에 대해서만 사용하는 것이 정확하다 [참조].

Reference

  • Edgar, Robert C. "UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing." BioRxiv (2016): 081257.

 

728x90
반응형