본문 바로가기
ML | DL | Big data/Data Science

정규성 검정 및 변환

by 썽하 2023. 2. 28.

정규성 검정

검정 대상 검정 방법 검정/변환식 Python 라이브러리 비고
정규성 검정 Q-Q Plot 표준 정규 분포의 백분위수 statsmodels.api.qqplot 시각적 확인만 가능
직선형태일수록 정규성을 가짐
Shapiro-Wilks
scipy.stats.shapiro  
Kilmogorov-Smirnov
(ks test)

 
* sup = max
scipy.stats.kstest 누적분포함수와의 가장 큰 차이를 측정
python 라이브러리 사용시 표준화를 먼저 진행해야한다.

 

(유사) 정규 분포로 변환

skewness 를 제거하여 정규성을 가지도록 변환하는 방법들.

* 정규화(normalize)와는 다르다. 정규화란? 변수값을 최소 0과 최대 1구간으로 치환하는 것

1. Box-Cox

변환을 모두 해보고 가장 적절한 람다값을 찾는다.

 

2. Power Transformation

값에 람다만큼의 지수승을 하여 변환한다.

 


자세한 변환 방법은 아래글 참고

 

비대칭(skewed) 데이터를 처리하는 3가지 방법 / Skewed Data

실세계의 데이터는 복잡하다. 완벽하지도 않다. 그렇기 때문에 일부 학습 데이터셋은 모델링에 사용되기 전에 전처리가 필요하다. Linear regression 모델을 예로 들어 보자. Linearity : 선형성. 예측

dining-developer.tistory.com

 

댓글