Artificial Intelligence1 비대칭(skewed) 데이터를 처리하는 3가지 방법 / Skewed Data 실세계의 데이터는 복잡하다. 완벽하지도 않다. 그렇기 때문에 일부 학습 데이터셋은 모델링에 사용되기 전에 전처리가 필요하다. Linear regression 모델을 예로 들어 보자. Linearity : 선형성. 예측 변수와 목표 변수 간의 관계가 선형이라고 가정한다. No noise : 특이치(outlier)가 없어야 한다. No collinearity : 상관관계가 높은 예측 변수가 있는 경우 과적합(overfit)이 될 가능성이 높다. Normal distribution : 예측 변수와 목표 변수가 정규 분포를 따를 때 더 신뢰할 수 있는 예측이 이루어진다. Scale : 거리 기반의 알고리즘이므로 표준 scaler처럼 모델을 스케일링해야 한다. 오늘은 네 번째 요점에 초점을 맞추고자 한다. 예측 .. 2020. 8. 13. 이전 1 다음