본문 바로가기
ML | DL | Big data/Data Science

단순/다중 선형회귀 모형 - 유의성 검정 / 적합도 측정

by 썽하 2023. 3. 6.

회귀분석의 종류

종류 특징 모형식
선형회귀 단순회귀(simple regression) 독립변수가 1개
종속수와의 관계가 직선

다중회귀(multiple regression) 독립변수가 k개
종속변수와의 관계가 선형(1차함수)

다항회귀(polynomial regression) 독립변수가 k개
종속변수와의 관계가 1차함수 이상
비선형 회귀(Non-Linear regression) 회귀식의 모양이 미지의 모수들의 선형관계가 아닌 경우

 

단순선형회귀모형

유의성 검정

가정

  1. 표본이 정규 분포를 따른다
  2. 등분산성을 가진다.

가설

귀무가설 H0 : 회귀계수는(기울기)는 0이다.

종속가설 H1 : 회귀계수는 0이 아니다.

 

모집단의 기울기가 0이라면 X변수는 무의미한 변수임을 뜻한다.

즉, 귀무가설 H0이 사실일 때 회귀모형의 의미가 퇴색된다고 볼 수 있다.

P-value가 유의수준 이하일 때 모형이 의미가 있다는 뜻이다.

 

적합도 검정(goodness of fit of model)

R2(결정계수)로 표현한다.

0~1 사이의 값을 갖는다.

1에 가까울수록 더 좋은 모델이다.

 

다중 선형 회귀모형

유의성 검정

가정

  1. 표본이 정규 분포를 따른다
  2. 등분산성을 가진다.
  3. 독립 변수들이 서로 독립이다.

가설 

귀무가설 H0 : 회귀계수는(기울기)는 모두 0이다.

종속가설 H1 : 회귀계수는 중 하나라도 0이 아니다.(= 독립변수 중 하나라도 유의성이 있다.)

 

적합도 검정(goodness of fit of model)

단순 회귀모모형 결정계수 R2와는 달리 독립변수가 여러개인 다중회귀모형에서는 결정계수 R2의 해석에 유의해야 한다.

모형에 포함된 독립변수의 수가 많을수록(엉터리 변수라고 해도) 결정계수 R2는 언제나 증가한다.

수정된 결정계수(adjusted R2)

정의

SST와 SSE를 각각 자유도로 나눈 값을 사용한다. 

* k = 독립 변수 개수, n = 관측치 수

 

 

*pyhthon statsmodel의 ols와 summary를 통해 R-Squared, Adj R-squared, P-value와 신뢰구간 기울기(odometer), 절편(Intercept) 등을 확인할 수 있다.

댓글