Study/Paper Summary

[Article] Resampling methods를 활용한 prediction assessment

2021. 5. 5. 21:20

정리

  • 보통 데이터 사이즈가 크면 split sample, 데이터 사이즈가 작으면 10-fold cross validation을 사용한다.
  • 이 논문을 통해 classifier를 만든다면 prediction assesssment에 왜 10-fold cross validation이 주로 사용되는지 알 수 있다 (추후 인용도 가능)
  • Classifier: '데이터-라벨'의 쌍으로부터 생성 가능. 추후 새로운 데이터가 들어왔을 때 어떤 라벨일지 알아맞추는 것
  • Classifier 생성에는 크게 3가지 단계가 존재: 1) feature selection, 2) model selection, 3) prediction assessment.
  • Feature selection은 어떤 유전자(feature)를 prediction 과정에 포함할지 정하는 것이다.
  • Model selection은 다양한 classfier model (or algorithm) 중 하나를 선택하는 것이다.
  • Prediction assessment는 내 결과가 얼마나 신뢰할 수 있는 정도인지 파악함에 있어서 중요하다. 또한 더 나은 classifier를 선택할 수 있게 해준다. MSE나 bias를 계산하여 평가할 수 있다. 이때 문제는 independent validation data가 없다는 것이다. 이를 해결하기 위해 resampling methods를 적용할 수 있다.
  • 즉, prediction assessment는 resampling methods를 이용한 준비 과정을 거친 후 할 수 있으며, resampling methods에는 cross-validation이나 boostrap 등이 존재한다.
  • Cross-validation은 데이터를 learning set과 test set으로 나누는 방법이다. Learning set은 model selection의 목적으로 training set과 validation set으로 나눠질 수 있다.
  • 연구는 feature selection이 있을 때와 없을 때, 여러 classfication model과 여러 resampling methods (for prediction assessment)의 조합에서 어떤 resampling methods를 적용했을 때 MSE나 bias가 가장 적은지 알아보았다.
  • 그 결과, 10-fold cross-validation과 Leave-one-out cross-validation (LOOCV)가 가장 성능이 좋았다.

 

Reference

  • Molinaro, Annette M., Richard Simon, and Ruth M. Pfeiffer. "Prediction error estimation: a comparison of resampling methods." Bioinformatics 21.15 (2005): 3301-3307.

 

 

728x90
반응형