[Perspective] 두 가지 통계적 분석 방법: "Data Modeling" VS "Algorithmic Modeling"

Study/Paper Summary

⛅ 2021. 6. 2. 20:26

정리

데이터를 분석할 때의 목표는 두 가지가 있다: 1) 예측, 2) 정보 획득
이러한 목표를 이루기 위해 두 가지 접근을 시도할 수 있다: 1) Data modeling, 2) Algorithmic modeling.
Data modeling은 데이터를 바탕으로 linear regression 등의 통계 모델을 생성하여 분석하는 방법이다.
Algorithmic modeling은 통계 모델을 생성하지 않고, 머신러닝 방법을 사용하여 분석하는 방법이다.
일반적으로 통계학자들은 데이터를 보면 통계 모델부터 먼저 생성하려고 한다: 1) 익숙해서, 혹은 2) (통계 모델을 통한) "해석"을 위해
하지만 저자는 그러한 관점에서 벗어나여 데이터 분석의 목표("정보"를 얻는 것, 해석은 정보를 얻기위한 수단에 불과)를 이루기 위해 다양한 tools를 사용할 필요성이 있다고 저자는 말한다 (Data modeling이든, Algorithmic modeling이든).
특히 data modeling은 model이 잘못된 경우 잘못된 결론을 도출할 수 있는데, 좋은 모델인지에 대한 검정이 신뢰할 수 없을 때가 있다.
반면 algorithmic modeling은 가능한 모든 정보를 이용하여 더 나은 예측과 정보를 제공할 수 있다.

Rashomon 이라는 영화에는 같은 사건에 대해 서로 다른 이야기를 하는 증인들이 등장한다. 이처럼 거의 같은 minimum error rate 를 보이는 서로 다른 모델이 굉장히 많을 수 있다는 것을 Rashomon Effect 라고 한다. 즉, good model이라고 여겨지는 것들이 여러 개가 있을 수 있는데, 이들은 서로 다른 이야기를 가질 수 있다 (Multiplicity of good models).
Occam's Razor란 "simpler is better"의 의미로 해석된다. 하지만 prediction에서는 accuracy와 simplicity (해석에 있어서 간결함)은 상충하게 된다. 일반적으로 복잡한 neural nets의 경우 정확도가 더 높다.
Richard Bellman의 유명한 구절로 "the curse of dimensionality"가 있다. 이 역시 accuracy 관점에서 다시 생각해볼 수 있는데 dimensionality가 오히려 좋을 수 있다.
Data modeling의 예로는 linear regression, logistic regression, CART 등이 있고, algorithmic modeling의 예로는 random forest, neural net 등이 있다.

Breiman, Leo. "Statistical modeling: The two cultures (with comments and a rejoinder by the author)." Statistical science 16.3 (2001): 199-231.

728x90

[Article] Peryton \| microbe와 disease 간의 연관성을 검색할 수 있는 데이터베이스 (0)	2021.06.28
[Perspective] Nucleic Acids Research (NAR) 저널 Database Issue의 기준 (0)	2021.06.16
[Resource] Human gut microbiome 내부 uncultured species의 정보 집합소 (Genome: UHGG, Protein: UHGP) (0)	2021.05.31
[Article] SARS-CoV-2에 대한 굉장히 효율적인 진단 및 Genotyping을 위한 실험 방법 (0)	2021.05.17
[Perspective] Alpha diversity를 측정할 때의 문제점 및 개선 방향 (0)	2021.05.14