상관 계수(Correlation Coefficient)는 두 변수 간의 어떤 관계가 있는지 알아볼 때 사용할 수 있다. 일반적으로 상관 계수는 피어슨 상관 계수(Pearson Correlation Coefficient)를 의미하는데 [1], 이는 스피어먼 상관 계수 (Spearman Correlation Coefficient)와 구분된다. 정리하면 아래와 같다 [3].
- 피어슨 상관 계수(Pearson Correlation Coefficient): 두 변수 사이의 linear relationship이 있는지 확인
- 스피어먼 상관 계수 (Spearman Correlation Coefficient): 두 변수 사이의 monotonic relationship이 있는지 확인
예를 들어, 선형 관계가 아니면서 증가하는 모양인 경우 (e.g., 이차식으로 증가), 피어슨 상관 계수는 +1이 아니지만, 스피어먼 상관 계수는 +1이 된다.
데이터가 뚜렷한 경향성이 없는 경우에는 피어슨과 스피어먼 값이 비슷하게 0에 가깝다. 또한 스피어먼이 피어슨보다 덜 민감한데, 이는 값을 다루는 피어슨과 달리 스피어먼은 순위만 고려하기 때문이다 [2].
만약 데이터가 선형관계라고 생각되면 피어슨 상관 계수가, 그 외의 경우에는 스피어먼 상관 계수가 추천된다 [3].
R 코드 예시는 아래와 같다.
# Sample data
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 1, 3, 5)
# Create a scatter plot with a regression line and correlation coefficient
ggscatter(data = data.frame(x = x, y = y), x = 'x', y = 'y',
add = "reg.line",
conf.int = TRUE,
add.params = list(color = "blue", fill = "lightgray")
) +
stat_cor(method = "spearman")
# Calculate the Spearman correlation coefficient using cor.test
cor.test(x, y, method = "spearman")
Reference
- https://ko.wikipedia.org/wiki/%ED%94%BC%EC%96%B4%EC%8A%A8_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98
- https://ko.wikipedia.org/wiki/%EC%8A%A4%ED%94%BC%EC%96%B4%EB%A8%BC_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98
- https://stats.stackexchange.com/questions/8071/how-to-choose-between-pearson-and-spearman-correlation
728x90
반응형
'Statistics' 카테고리의 다른 글
[통계] Independent filtering의 개념 (DESeq2) (0) | 2023.01.28 |
---|---|
[통계 기초] 표준 편차 (Standard deviation)와 표준 오차 (Standard error) 차이 (0) | 2021.06.29 |
[통계 기초] Linear Regression (선형 회귀분석) & Logistic Regression (로지스틱 회귀분석) (0) | 2021.06.10 |
[통계 기초] Maximum Likelihood Estimation (MLE) (0) | 2021.06.10 |
[통계 기초] Bayesian Inference (베이즈 추론) (0) | 2021.05.25 |