정규성 검정
검정 대상 | 검정 방법 | 검정/변환식 | Python 라이브러리 | 비고 |
정규성 검정 | Q-Q Plot | 표준 정규 분포의 백분위수 | statsmodels.api.qqplot | 시각적 확인만 가능 직선형태일수록 정규성을 가짐 |
Shapiro-Wilks | ![]() ![]() |
scipy.stats.shapiro | ||
Kilmogorov-Smirnov (ks test) |
![]() * sup = max |
scipy.stats.kstest | 누적분포함수와의 가장 큰 차이를 측정 python 라이브러리 사용시 표준화를 먼저 진행해야한다. |
(유사) 정규 분포로 변환
skewness 를 제거하여 정규성을 가지도록 변환하는 방법들.
* 정규화(normalize)와는 다르다. 정규화란? 변수값을 최소 0과 최대 1구간으로 치환하는 것
1. Box-Cox
변환을 모두 해보고 가장 적절한 람다값을 찾는다.
2. Power Transformation
값에 람다만큼의 지수승을 하여 변환한다.
자세한 변환 방법은 아래글 참고
비대칭(skewed) 데이터를 처리하는 3가지 방법 / Skewed Data
실세계의 데이터는 복잡하다. 완벽하지도 않다. 그렇기 때문에 일부 학습 데이터셋은 모델링에 사용되기 전에 전처리가 필요하다. Linear regression 모델을 예로 들어 보자. Linearity : 선형성. 예측
dining-developer.tistory.com
'ML | DL | Big data > Data Science' 카테고리의 다른 글
비모수 검정 - Wilcoxon rank-sum(Mann-Whitney U) / Wilcoxon Signed rank test (0) | 2023.03.02 |
---|---|
범주형 자료 검정 - Chi-Squared Test (0) | 2023.03.02 |
분산 분석 - Analysis of Variance(ANOVA) (0) | 2023.03.02 |
표본/분산 차이에 대한 가설 검정 방법 (0) | 2023.02.28 |
통계적 가설 검정 방법 (0) | 2023.02.28 |
빅데이터 개요 (0) | 2023.02.28 |
댓글