본문 바로가기

데이터 과학2

kaggle 주택 가격 예측(2) - Data preprocess / Feature engineering 저번 글에는 데이터를 탐구하기만 했다면, 이번 글에는 탐구했던 내용들을 바탕으로 데이터를 전처리하고 추가적인 feature들을 생성해보자. 이번 글을 다 읽고 나면 머신러닝에서 Feature들이 어떻게 뻥튀기되고, 버려지기도 하며, 역 추산되는지 알게 될 것이다. House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com kaggle 주택 가격 예측(1) - 포괄적인 데이터 탐색 분석 / EDA xgboost를 활용한 실전 실습을 무엇으로 해볼까 kaggle을 구경하다가 많은 사람들의 튜토리얼 compete으로 .. 2020. 8. 17.
Skew(왜도) 와 Kurtosis(첨도) - 데이터 과학에서 알아야 할 두가지 중요한 통계 용어 오늘은 Skew와 Kurtosis, 즉 왜도와 첨도에 대해서 알아보자. Skewness / 왜도 symmetrical bell curve 혹은 normal distribution에서 왜곡 정도를 말한다. 데이터 분포의 대칭성이 얼마나 결핍되었는지를 측정한다. 완전히 대칭인 분포는 skewness가 0이다. 두 가지 종류의 Skewness가 있다. Positive와 Negative Positive Skewness는 오른쪽 꼬리가 왼쪽보다 더 길 때를 의미한다. 평균(Mean)과 중위수(Median)가 Mode보다 크다. Negative Skewness 왼쪽 꼬리가 오른쪽보다 더 길 때를 의미한다. 평균(Mean)과 중위수(Median)가 Mode보다 작다. 그래서, 언제 Skewness(왜도)가 과도하게 .. 2020. 8. 12.