정의
공분산(Covariance)과 상관 계수(Correlation)는 확률 변수 (Random variable)가 두 개일 때, 그들 간의 관계를 summarize해주는 statistics이다.
성질
- 공분산은 X, Y의 scale에 따라서 값이 달라질 수 있다 (ex. 키의 단위에 따라 값이 달라짐: m, cm).
- 상관 계수는 공분산을 각각의 표준 편차(standard deviation)로 나누어 보정한 것이기 때문에 scale에 따라 값이 달라지지 않는다.
- 상관 계수는 -1과 1 사이의 값을 가진다.
- 상관 계수는 X와 Y 사이의 linear relationship의 정도를 나타내준다. 그래서 X, Y 간의 강한 관계가 있더라도 (ex. 이차식) linear relationship이 아니라면 상관 계수로 이를 알 수 없다.
- 상관 계수의 값이 0이라고 독립은 아니지만, 독립이라면 상관 계수의 값이 0이다.
- 아래의 수식들을 만족한다.
Reference
- Wasserman, L. (2004). All of Statistics: A concise course in statistical inference.
728x90
반응형
'Statistics' 카테고리의 다른 글
[통계 기초] Bootstrap (부트스트랩) (0) | 2021.04.21 |
---|---|
[통계 기초] 표본평균의 분포 (sample mean distribution) (0) | 2021.04.20 |
[통계 기초] 신뢰 구간과 가설 검정, 유의 확률 (Confidence interval, Hypothesis testing, P-value) (0) | 2021.04.19 |
[통계 기초] 평균 제곱 오차 (Mean square error, MSE) (0) | 2021.04.19 |
[통계 기초] 헷갈리는 용어 정리: 확률, 확률 변수, 확률 함수 (0) | 2021.04.14 |