본문 바로가기
ML | DL | Big data/Data Science

범주형 자료 검정 - Chi-Squared Test

by 썽하 2023. 3. 2.

카이제곱 검정(Chi-Squared Test)

카이제곱검정은 주로 범주형인 자료를 분석하는데 활용된다.

범주형 자료 분석은 크게 적합도 검정(goodness of fit test), 독립성 검정(test of independence)으로 나누어진다.

검정방법 종류 설명
적합도 검정(goodness of fit test) 하나의 범주형 변수에 대해 관측 값들이 어떤 분포를 띄는지 검정
독립성 검정(independence test) 서로 다른 두 범주형 변수 간에 연관성이 있는지를 검정

 

적합성 검정(goodness of fit)

각 범주마다 수행해야 한다.

검정 통계량

각 범주별 빈도와 기대빈도의 차이의 크기를 이용한다

* 파이썬의 경우 scipy.stats.chisquare 함수에 관측치와 예측치를 입력하여 구할 수 있다.

가설

- 귀무가설 H0 : 각 범주별로 주어진 확률이 사실이다.

- 대립가설 H1 : 각 범주별로 주어진 확률 중 하나 이상은 사실이 아니다.

 

독립성 검정(Test of independence)

검정 통계량

각 범주별 빈도와 기대빈도의 차이의 크기를 이용한다.

가설

귀무가설 H0 : 두 범주형 변수는 서로 독립이다(연관성이 없다)

대립가설 H1 : 두 범주형 변수는 독립적인 관계가 아니다(연관성이 있다)

 

python에서는 scipy.stats.chi2_contingency를 사용하여 각 발생값의 contingency table(confusion matrix)를 입력으로 하여 구할 수 있다.

동질성 검정

절차는 독립성 검정과 동일하다. (그럼 왜 두 개를 따로 설명해 둔 거지??)

가설

귀무가설 H0 : 각범주별 비율은 같다.

대립가설 H1 : 각 범주별 비율은 같지 않다.

댓글