본문 바로가기
ML | DL | Big data/Data Science

상관계수 검정 - Pearson, Spearman, Kendall

by 썽하 2023. 3. 8.

상관분석(correlation analysis)

상관분석이란 두 변수 사이의 연관성에 관한 분석이다.

 

상관계수의 유형

  • 피어슨(Pearson) 상관계수 : 연속형의 두 변수들을 상관관계 측정 방식으로 변수가 정규분포를 따른다고 가정할 때 사용. 가장 대표적인 상관계수이다.
  • 스피어만(spearman) 상관계수 : 정규분포를 심하게 벗어나는 두 변수들의 상관관계를 측정하는 방식으로 순서 자료의 상관관계를 측정하는 경우에도 이용된다. 자료의 순위를 이용한 상관계수이다.
  • 켄달(Kendall)의 타우(Tau) : 스피머만 상관계수와 사용목적은 동일하나 계산방식이 다르다. 자료의 순위를 이용한 상관계수이다.

 

피어슨 상관계수

공분산을 이용하여 구한다.

가설

- 귀무가설 H0 : 두 변수 간에 모상관계수 p는 0이다.

- 대립가설 H1 : 두 변수 간에 모상관계수 p는 0이 아니다.

 

검정 통계량

 

스피어만 상관계수

순위 데이터 + 피어슨 상관계수 = 스피어만 상관계

피어슨 상관계수의 입력값으로 순위데이터를 넣는 샘이다.

 

가설검정은 피어슨 상관계수와 동일한 방식으로 이루어진다.

 

켄달 순위상관계수(Kendall Rank Correlation Coefficient, Kendall's 𝛕)

타우도 상관계수의 일종이다.

 

검정 통계량

C = number of concordant pairs

D = number of discordant pairs

C, D의 예시(C=6, D=4)

 

 

댓글