상관분석(correlation analysis)
상관분석이란 두 변수 사이의 연관성에 관한 분석이다.
상관계수의 유형
- 피어슨(Pearson) 상관계수 : 연속형의 두 변수들을 상관관계 측정 방식으로 변수가 정규분포를 따른다고 가정할 때 사용. 가장 대표적인 상관계수이다.
- 스피어만(spearman) 상관계수 : 정규분포를 심하게 벗어나는 두 변수들의 상관관계를 측정하는 방식으로 순서 자료의 상관관계를 측정하는 경우에도 이용된다. 자료의 순위를 이용한 상관계수이다.
- 켄달(Kendall)의 타우(Tau) : 스피머만 상관계수와 사용목적은 동일하나 계산방식이 다르다. 자료의 순위를 이용한 상관계수이다.
피어슨 상관계수
공분산을 이용하여 구한다.
가설
- 귀무가설 H0 : 두 변수 간에 모상관계수 p는 0이다.
- 대립가설 H1 : 두 변수 간에 모상관계수 p는 0이 아니다.
검정 통계량
스피어만 상관계수
순위 데이터 + 피어슨 상관계수 = 스피어만 상관계
피어슨 상관계수의 입력값으로 순위데이터를 넣는 샘이다.
가설검정은 피어슨 상관계수와 동일한 방식으로 이루어진다.
켄달 순위상관계수(Kendall Rank Correlation Coefficient, Kendall's 𝛕)
타우도 상관계수의 일종이다.
검정 통계량
C = number of concordant pairs
D = number of discordant pairs
'ML | DL | Big data > Data Science' 카테고리의 다른 글
변수 선택(Feature Selection) - Filter, Wrapper, Embedding 방법 (0) | 2023.03.08 |
---|---|
단순/다중 선형회귀 모형 - 유의성 검정 / 적합도 측정 (1) | 2023.03.06 |
비모수 검정 - Wilcoxon rank-sum(Mann-Whitney U) / Wilcoxon Signed rank test (0) | 2023.03.02 |
범주형 자료 검정 - Chi-Squared Test (0) | 2023.03.02 |
분산 분석 - Analysis of Variance(ANOVA) (0) | 2023.03.02 |
정규성 검정 및 변환 (0) | 2023.02.28 |
댓글