내용 구성
- 마이크로바이옴 분석 시 몇몇 통계 기법이나 diversity index 계산은 sample size를 고려하지 않는다. 그래서 data normalization을 통해 sample size를 맞추는 것이 중요하다.
- Normalization에 유명한 방법으로는 내가 원하는 sample size가 될 때까지 replacement 없이 random하게 뽑는 rarefying이 있다. 하지만 이 논문에서는 그보다 scaling with ranked subsampling (SRS)가 있다고 주장한다.
- SRS는 rarefying보다 정확도(preservation of the original community structure)와 재현성(reproducibility of data normalization) 측면에서 더 낫다고 이야기한다: preserves the original community structure by minimizing subsampling errors.
- SRS는 proportion을 쓰는 것과 유사하다. 즉, 내가 원하는 scale로 count를 맞춰준 후, 소수점에 대해서만 약간의 correction을 더하는 방법이다.
참고
- 위 논문은 하나의 데이터에 대해서만 rarefying과 비교를 했다. 일반성이 좀 떨어지는 느낌... 그리고 여러 종류의 데이터를 썼으면 어땠을까 라는 아쉬움이 있다. 그리고 위 방법의 단점도 존재할 것 같은데 정말 없어서 위 논문이 다르지 않은 것인지, 있는 데도 서술이 안된 것인지 알 수 없다.
- Rarefying은 재현성이 떨어지고, 기존 community structure를 변형시킨다는 점에서 비판받는다. 물론 논쟁의 여지가 있다.
- 물론 어떤 종류의 normalization이라도 정보의 손실을 피할 순 없다.
- Scaling은 rarefying과 반대로 기존 개수보다 더 많은 수로 맞춰주는 방법이다. 이는 diversity 자체를 변화시키지 않기 때문에 small library와 large library를 비교할 때 의미가 없다.
Reference
- Beule, Lukas, and Petr Karlovsky. "Improved normalization of species count data in ecology by scaling with ranked subsampling (SRS): application to microbial communities." PeerJ 8 (2020): e9593.
728x90
반응형
'Study > Paper Summary' 카테고리의 다른 글
[Article] SARS-CoV-2에 대한 굉장히 효율적인 진단 및 Genotyping을 위한 실험 방법 (0) | 2021.05.17 |
---|---|
[Perspective] Alpha diversity를 측정할 때의 문제점 및 개선 방향 (0) | 2021.05.14 |
[Article] Resampling methods를 활용한 prediction assessment (0) | 2021.05.05 |
[Article] UNOISE 논문 (알고리즘, 특징) (0) | 2021.02.17 |
[Article] ASV method 중 하나인 Deblur에 대한 참조 논문 (0) | 2021.02.15 |