Statistics

[통계 기초] 상관 계수의 구분: 피어슨 (Pearson), 스피어먼 (Spearman)

2021. 10. 13. 21:56

상관 계수(Correlation Coefficient)는 두 변수 간의 어떤 관계가 있는지 알아볼 때 사용할 수 있다. 일반적으로 상관 계수는 피어슨 상관 계수(Pearson Correlation Coefficient)를 의미하는데 [1], 이는 스피어먼 상관 계수 (Spearman Correlation Coefficient)와 구분된다. 정리하면 아래와 같다 [3].

  • 피어슨 상관 계수(Pearson Correlation Coefficient): 두 변수 사이의 linear relationship이 있는지 확인
  • 스피어먼 상관 계수 (Spearman Correlation Coefficient): 두 변수 사이의 monotonic relationship이 있는지 확인

예를 들어, 선형 관계가 아니면서 증가하는 모양인 경우 (e.g., 이차식으로 증가), 피어슨 상관 계수는 +1이 아니지만, 스피어먼 상관 계수는 +1이 된다.
 
데이터가 뚜렷한 경향성이 없는 경우에는 피어슨과 스피어먼 값이 비슷하게 0에 가깝다. 또한 스피어먼이 피어슨보다 덜 민감한데, 이는 값을 다루는 피어슨과 달리 스피어먼은 순위만 고려하기 때문이다 [2].
 
만약 데이터가 선형관계라고 생각되면 피어슨 상관 계수가, 그 외의 경우에는 스피어먼 상관 계수가 추천된다 [3].
 

R 코드 예시는 아래와 같다.

# Sample data
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 1, 3, 5)

# Create a scatter plot with a regression line and correlation coefficient
ggscatter(data = data.frame(x = x, y = y), x = 'x', y = 'y',
          add = "reg.line",
          conf.int = TRUE,
          add.params = list(color = "blue", fill = "lightgray")
          ) +
stat_cor(method = "spearman")

# Calculate the Spearman correlation coefficient using cor.test
cor.test(x, y, method = "spearman")

 

Reference

  1. https://ko.wikipedia.org/wiki/%ED%94%BC%EC%96%B4%EC%8A%A8_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98
  2. https://ko.wikipedia.org/wiki/%EC%8A%A4%ED%94%BC%EC%96%B4%EB%A8%BC_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98
  3. https://stats.stackexchange.com/questions/8071/how-to-choose-between-pearson-and-spearman-correlation

 
 

728x90
반응형