내용 구성
- OTU Methods (UCLUST, UPARSE) / ASV methods (UNOISE, Deblur, DADA2) / Entropy method (MED)
- 4종류의 Mock dataset을 사용함 (어떤 세균이나 고세균으로 구성되어 있는지 알고 있음).
- Recall, Overall precision, Technical precision 측면에서 방법들을 비교함. Recall(%)은 실제 존재하는 세균을 얼마나 잘 catch했는지에 대한 지표. Overall precision(%)는 추론한 전체 Sequence의 종류 중에서 실제로 존재하는 sequence 종류의 수. Technical precision(%)은 '실제로 존재하는 sequence의 종류의 수와 그로부터 10nt 이하로 차이나는 Error sequence의 합'으로 '실제로 존재하는 sequence의 종류의 수'를 나눈 것.
- ASV/OTU abundance 측면에서도 확인함: 위의 것이 종류의 수였다면, 이것은 read count에 대해서 이야기하는 것. High-biomass environment에 대해서는 실제 sequence의 count 비중이 모든 method에서 다 높았다.
- Alpha diversity 측면에서도 확인함: 예측값과 method에서 구한 값을 비교
- ASV methods가 다른 방법들보다 sensitivity나 precision 측면에서 더 좋다. 저자들은 16S rRNA sequence data를 다룰 때 ASV method의 사용을 추천한다.
- ASV methods 중 DADA2가 가장 sensitive하고, Deblur가 가장 specific하다. 이는 (Nearing, 2018)에서도 이야기된 내용.
- 어떤 ASV methods를 사용할지는 연구 목적에 따라 달라진다: 1) spurious ASV를 줄이는 것에 중점을 둔다면 Deblur, 2) true community members를 최대한 찾아내고자 한다면 DADA2나 UNOISE.
- 여전히 완벽한 방법은 없고 (특히 low-biomass에서), contamination을 제거할 수 있는 더 적절한 기술의 도입이 필요하다.
- 분석 Script는 다음 주소에서 확인 가능: github.com/lakarstens/noisy-microbes
참고
- Low-biomass environments: 피나 폐와 같이 세균 DNA가 굉장히 적은 양으로 존재하는 곳. PCR starting template이 적고, PCR cycle이 많이 필요하다 (이는 contaminant sequences의 불균형을 가져올 수 있음).
- in silico: 컴퓨터 상으로 확인하는 실험 기법.
- MED의 결과는 consistent하지 않았다.
- OTU methods는 recall과 specificity 측면에서 가장 성능이 떨어졌다.
- Sequence preprocessing: 1) Trimmed (5' end 처음 15nt는 일반적으로 pathological errors를 가지고 있고, 3' end 쪽은 quality가 나쁠 수 있다), 2) Merged (USEARCH fastq_mergepairs 이용), 3) Filtered (Primer 사이 길이를 넘거나, USEARCH로 계산한 posterior Q-scores가 낮을 때 drop).
- 각각의 methods(6개)에 대한 간략한 설명이 Materials and methods > Sequence Inference methods 란에 설명되어 있다.
Reference
- Caruso, Vincent, et al. "Performance of microbiome sequence inference methods in environments with varying biomass." MSystems 4.1 (2019).
728x90
반응형