정리
- 보통 데이터 사이즈가 크면 split sample, 데이터 사이즈가 작으면 10-fold cross validation을 사용한다.
- 이 논문을 통해 classifier를 만든다면 prediction assesssment에 왜 10-fold cross validation이 주로 사용되는지 알 수 있다 (추후 인용도 가능)
- Classifier: '데이터-라벨'의 쌍으로부터 생성 가능. 추후 새로운 데이터가 들어왔을 때 어떤 라벨일지 알아맞추는 것
- Classifier 생성에는 크게 3가지 단계가 존재: 1) feature selection, 2) model selection, 3) prediction assessment.
- Feature selection은 어떤 유전자(feature)를 prediction 과정에 포함할지 정하는 것이다.
- Model selection은 다양한 classfier model (or algorithm) 중 하나를 선택하는 것이다.
- Prediction assessment는 내 결과가 얼마나 신뢰할 수 있는 정도인지 파악함에 있어서 중요하다. 또한 더 나은 classifier를 선택할 수 있게 해준다. MSE나 bias를 계산하여 평가할 수 있다. 이때 문제는 independent validation data가 없다는 것이다. 이를 해결하기 위해 resampling methods를 적용할 수 있다.
- 즉, prediction assessment는 resampling methods를 이용한 준비 과정을 거친 후 할 수 있으며, resampling methods에는 cross-validation이나 boostrap 등이 존재한다.
- Cross-validation은 데이터를 learning set과 test set으로 나누는 방법이다. Learning set은 model selection의 목적으로 training set과 validation set으로 나눠질 수 있다.
- 연구는 feature selection이 있을 때와 없을 때, 여러 classfication model과 여러 resampling methods (for prediction assessment)의 조합에서 어떤 resampling methods를 적용했을 때 MSE나 bias가 가장 적은지 알아보았다.
- 그 결과, 10-fold cross-validation과 Leave-one-out cross-validation (LOOCV)가 가장 성능이 좋았다.
Reference
- Molinaro, Annette M., Richard Simon, and Ruth M. Pfeiffer. "Prediction error estimation: a comparison of resampling methods." Bioinformatics 21.15 (2005): 3301-3307.
728x90
반응형
'Study > Paper Summary' 카테고리의 다른 글
[Perspective] Alpha diversity를 측정할 때의 문제점 및 개선 방향 (0) | 2021.05.14 |
---|---|
[Article] Data normalization 방법으로 rarefying보다 SRS가 더 낫다? (0) | 2021.05.07 |
[Article] UNOISE 논문 (알고리즘, 특징) (0) | 2021.02.17 |
[Article] ASV method 중 하나인 Deblur에 대한 참조 논문 (0) | 2021.02.15 |
[Article] 마이크로바이옴 샘플 상온 보관 시 적용할 수 있는 방법 (0) | 2021.02.15 |