Study/Paper Summary

[Article] Data normalization 방법으로 rarefying보다 SRS가 더 낫다?

2021. 5. 7. 15:31

내용 구성

  • 마이크로바이옴 분석 시 몇몇 통계 기법이나 diversity index 계산은 sample size를 고려하지 않는다. 그래서 data normalization을 통해 sample size를 맞추는 것이 중요하다.
  • Normalization에 유명한 방법으로는 내가 원하는 sample size가 될 때까지 replacement 없이 random하게 뽑는 rarefying이 있다. 하지만 이 논문에서는 그보다 scaling with ranked subsampling (SRS)가 있다고 주장한다.
  • SRS는 rarefying보다 정확도(preservation of the original community structure)와 재현성(reproducibility of data normalization) 측면에서 더 낫다고 이야기한다: preserves the original community structure by minimizing subsampling errors.
  • SRS는 proportion을 쓰는 것과 유사하다. 즉, 내가 원하는 scale로 count를 맞춰준 후, 소수점에 대해서만 약간의 correction을 더하는 방법이다.

 

참고

  • 위 논문은 하나의 데이터에 대해서만 rarefying과 비교를 했다. 일반성이 좀 떨어지는 느낌... 그리고 여러 종류의 데이터를 썼으면 어땠을까 라는 아쉬움이 있다. 그리고 위 방법의 단점도 존재할 것 같은데 정말 없어서 위 논문이 다르지 않은 것인지, 있는 데도 서술이 안된 것인지 알 수 없다.
  • Rarefying은 재현성이 떨어지고, 기존 community structure를 변형시킨다는 점에서 비판받는다. 물론 논쟁의 여지가 있다.
  • 물론 어떤 종류의 normalization이라도 정보의 손실을 피할 순 없다.
  • Scaling은 rarefying과 반대로 기존 개수보다 더 많은 수로 맞춰주는 방법이다. 이는 diversity 자체를 변화시키지 않기 때문에 small library와 large library를 비교할 때 의미가 없다.

 

Reference

  • Beule, Lukas, and Petr Karlovsky. "Improved normalization of species count data in ecology by scaling with ranked subsampling (SRS): application to microbial communities." PeerJ 8 (2020): e9593.

 

 

728x90
반응형