
[Diversity Analysis] Sampling depth를 결정하는 기준

2021. 2. 8. 14:50

  다양성 분석(alpha diversity, beta diversity)을 할 때, sampling depth를 맞춰야할 필요성이 있다.


  이는 대부분의 diversity metrics가 서로 다른 sampling depths에 민감하기 때문이다.


  그래서 균일한 sampling depth를 설정하여 다양성 분석을 하면, 설정한 depth보다 read 수가 더 적은 샘플은 제외되고, read 수가 더 많은 샘플은 설정한 depth로 random하게 subsampling되어 분석에 이용된다 (각 분석의 결과가 조금씩 달라질 수 있음).


  그러면 이때 sampling depth를 얼마로 설정해야할 것인지가 중요한 문제가 된다.


  하지만 정확한 기준이 없는데, QIIME tutorial에서는 아래와 같이 이야기한다.


"Choosing this value is tricky.
 Choose a value that is as high as possible (so you retain more sequences per sample) while excluding as few samples as possible."


  한편, 이 논문에서는 rarefaction curves를 그려 saturation되는 경향을 확인함으로써 충분한 sequencing depth로 샘플을 rarefy했다고 설명한다 (Manor, Ohad, et al. "Health and disease markers correlate with gut microbiome composition across thousands of people." Nature communications 11.1 (2020): 1-12.)


  결론적으로 간단하게는 QIIME에서 이야기하듯이 최대한 샘플을 살릴 수 있는 한도 내에서 depth를 최대로 설정할 수 있다. 혹은 먼저 rarefaction curves를 그리고, 대부분의 샘플에 대하여 saturation 되는 지점에서 sampling depth를 '적당히' 정하면 될 것 같다.


  즉, 아래와 같은 상황에서 sampling depth를 A로 하는 거보다 B로 하는 것이 나을 수 있지만, 그렇다고 해서 B가 절대적인 답인 것은 아니다.






# Alpha diversity, # Rarefying

