[Article] Resampling methods를 활용한 prediction assessment

Study/Paper Summary

[Article] Resampling methods를 활용한 prediction assessment

⛅ 2021. 5. 5. 21:20

정리

보통 데이터 사이즈가 크면 split sample, 데이터 사이즈가 작으면 10-fold cross validation을 사용한다.
이 논문을 통해 classifier를 만든다면 prediction assesssment에 왜 10-fold cross validation이 주로 사용되는지 알 수 있다 (추후 인용도 가능)
Classifier: '데이터-라벨'의 쌍으로부터 생성 가능. 추후 새로운 데이터가 들어왔을 때 어떤 라벨일지 알아맞추는 것
Classifier 생성에는 크게 3가지 단계가 존재: 1) feature selection, 2) model selection, 3) prediction assessment.
Feature selection은 어떤 유전자(feature)를 prediction 과정에 포함할지 정하는 것이다.
Model selection은 다양한 classfier model (or algorithm) 중 하나를 선택하는 것이다.
Prediction assessment는 내 결과가 얼마나 신뢰할 수 있는 정도인지 파악함에 있어서 중요하다. 또한 더 나은 classifier를 선택할 수 있게 해준다. MSE나 bias를 계산하여 평가할 수 있다. 이때 문제는 independent validation data가 없다는 것이다. 이를 해결하기 위해 resampling methods를 적용할 수 있다.
즉, prediction assessment는 resampling methods를 이용한 준비 과정을 거친 후 할 수 있으며, resampling methods에는 cross-validation이나 boostrap 등이 존재한다.
Cross-validation은 데이터를 learning set과 test set으로 나누는 방법이다. Learning set은 model selection의 목적으로 training set과 validation set으로 나눠질 수 있다.
연구는 feature selection이 있을 때와 없을 때, 여러 classfication model과 여러 resampling methods (for prediction assessment)의 조합에서 어떤 resampling methods를 적용했을 때 MSE나 bias가 가장 적은지 알아보았다.
그 결과, 10-fold cross-validation과 Leave-one-out cross-validation (LOOCV)가 가장 성능이 좋았다.

Reference

Molinaro, Annette M., Richard Simon, and Ruth M. Pfeiffer. "Prediction error estimation: a comparison of resampling methods." Bioinformatics 21.15 (2005): 3301-3307.

728x90

저작자표시 (새창열림)

'Study > Paper Summary' 카테고리의 다른 글

[Perspective] Alpha diversity를 측정할 때의 문제점 및 개선 방향 (0)	2021.05.14
[Article] Data normalization 방법으로 rarefying보다 SRS가 더 낫다? (0)	2021.05.07
[Article] UNOISE 논문 (알고리즘, 특징) (0)	2021.02.17
[Article] ASV method 중 하나인 Deblur에 대한 참조 논문 (0)	2021.02.15
[Article] 마이크로바이옴 샘플 상온 보관 시 적용할 수 있는 방법 (0)	2021.02.15

현재글[Article] Resampling methods를 활용한 prediction assessment

BLOG

[Article] Resampling methods를 활용한 prediction assessment

정리

Reference

'Study > Paper Summary' 카테고리의 다른 글

'Study/Paper Summary'의 다른글

티스토리툴바

[Article] Resampling methods를 활용한 prediction assessment

정리

Reference

'Study > Paper Summary' 카테고리의 다른 글

'Study/Paper Summary'의 다른글

관련글

티스토리툴바