정리
- 데이터를 분석할 때의 목표는 두 가지가 있다: 1) 예측, 2) 정보 획득
- 이러한 목표를 이루기 위해 두 가지 접근을 시도할 수 있다: 1) Data modeling, 2) Algorithmic modeling.
- Data modeling은 데이터를 바탕으로 linear regression 등의 통계 모델을 생성하여 분석하는 방법이다.
- Algorithmic modeling은 통계 모델을 생성하지 않고, 머신러닝 방법을 사용하여 분석하는 방법이다.
- 일반적으로 통계학자들은 데이터를 보면 통계 모델부터 먼저 생성하려고 한다: 1) 익숙해서, 혹은 2) (통계 모델을 통한) "해석"을 위해
- 하지만 저자는 그러한 관점에서 벗어나여 데이터 분석의 목표("정보"를 얻는 것, 해석은 정보를 얻기위한 수단에 불과)를 이루기 위해 다양한 tools를 사용할 필요성이 있다고 저자는 말한다 (Data modeling이든, Algorithmic modeling이든).
- 특히 data modeling은 model이 잘못된 경우 잘못된 결론을 도출할 수 있는데, 좋은 모델인지에 대한 검정이 신뢰할 수 없을 때가 있다.
- 반면 algorithmic modeling은 가능한 모든 정보를 이용하여 더 나은 예측과 정보를 제공할 수 있다.
참고
- Rashomon 이라는 영화에는 같은 사건에 대해 서로 다른 이야기를 하는 증인들이 등장한다. 이처럼 거의 같은 minimum error rate 를 보이는 서로 다른 모델이 굉장히 많을 수 있다는 것을 Rashomon Effect 라고 한다. 즉, good model이라고 여겨지는 것들이 여러 개가 있을 수 있는데, 이들은 서로 다른 이야기를 가질 수 있다 (Multiplicity of good models).
- Occam's Razor란 "simpler is better"의 의미로 해석된다. 하지만 prediction에서는 accuracy와 simplicity (해석에 있어서 간결함)은 상충하게 된다. 일반적으로 복잡한 neural nets의 경우 정확도가 더 높다.
- Richard Bellman의 유명한 구절로 "the curse of dimensionality"가 있다. 이 역시 accuracy 관점에서 다시 생각해볼 수 있는데 dimensionality가 오히려 좋을 수 있다.
- Data modeling의 예로는 linear regression, logistic regression, CART 등이 있고, algorithmic modeling의 예로는 random forest, neural net 등이 있다.
Reference
- Breiman, Leo. "Statistical modeling: The two cultures (with comments and a rejoinder by the author)." Statistical science 16.3 (2001): 199-231.
728x90
반응형