Machine Learning9 VAR(Vector Auto Regression)을 이용한 다변량 시계열 분석 및 예측 너무나 당연한 이야기이지만 일변량 시계열 데이터는 단일 시간 종속 변수만 포함하고, 다변량 시계열 데이터는 다중 시간 종속 변수로 구성된다. 다변량 분석에서 예측할 변수의 과거의 데이터를 고려해야할 뿐만 아니라 여러 변수들 사이의 의존성을 고려해야 한다. 다변량 시계열 모델은 특정 주어진 데이터에 대해 더 신뢰성 있고 정확한 예측을 제공하기 위해 의존성을 이용해야 한다. 이번 글에서는 실제 데이터셋에 VAR(Vector Auto Regression)이라는 다변량 시계열 모델을 다뤄보자. 혼자 공부하고 이해할 때는 영어 그 자체로 충분했던 것들이 글을 쓰기 시작하면서 어떻게 한글로 써야 할까? 라는 의문이 들어서 중요한 용어들만 집고 넘어가고, 애매한 것들은 영어 원문으로 쓰기로 했다. univaritat.. 2020. 9. 26. 시계열 예측을 지도 학습으로 바꾸는 방법 - Time Series to Supervised Learning with Sliding window 슬라이딩 윈도우를 통해 시계열 데이터를 지도학습으로 변형하기 시계열 데이터 예측(Time series forecasting)은 지도 학습(Supervised learning)으로 변형시킬 수 있다. 이번 글에서는 시계열 문제를 시계열 문제를 머신러닝을 위한 지도 학습으로 어떻게 재구성하는지에 다뤄보고자 한다. 이번 글에서 다룰 내용은 다음과 같다. Supervised Learning(지도 학습)은 무엇이고 그것이 어떻게 모든 예측 모델링 머신러닝의 기초가 되는지. 시계열 데이터 집합을 구성하기 위한 슬라이딩 윈도우(Sliding window)를 사용하는 방법 다변량 데이터(multivariate data) 및 다단계 예측(multi-step forecasting)에 슬라이딩 윈도우를 적용하는 방법 자, .. 2020. 9. 11. kaggle 주택 가격 예측(2) - Data preprocess / Feature engineering 저번 글에는 데이터를 탐구하기만 했다면, 이번 글에는 탐구했던 내용들을 바탕으로 데이터를 전처리하고 추가적인 feature들을 생성해보자. 이번 글을 다 읽고 나면 머신러닝에서 Feature들이 어떻게 뻥튀기되고, 버려지기도 하며, 역 추산되는지 알게 될 것이다. House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com kaggle 주택 가격 예측(1) - 포괄적인 데이터 탐색 분석 / EDA xgboost를 활용한 실전 실습을 무엇으로 해볼까 kaggle을 구경하다가 많은 사람들의 튜토리얼 compete으로 .. 2020. 8. 17. 누락 데이터(Missing value)를 처리하는 7가지 방법 / Data Imputation 누락 데이터를 통계적으로 처리하는 유명한 방법들 실세계 데이터는 다양한 원인 때문에 누락 데이터를 포함하고 있다. 데이터에서 None, NaN, 빈칸으로 표시되는 것들이 누락 데이터이다. 이러한 누락된 값이 많은 데이터셋으로 머신러닝 모델을 학습시키면 모델의 품질에 큰 영향을 미친다. Scikit-learn Estimator 같은 일부 알고리즘은 모든 값이 의미 있는 값을 가지고 있다고 가정하기 때문이다. Missing value는 다음과 같은 3가지 타입이 있다. Missing completely at random (MCAR) Missing at random (MAR) Not missing at random (NMAR) 이 글에서는 cross-sectional 데이터셋의 missing value를 처리.. 2020. 8. 14. 비대칭(skewed) 데이터를 처리하는 3가지 방법 / Skewed Data 실세계의 데이터는 복잡하다. 완벽하지도 않다. 그렇기 때문에 일부 학습 데이터셋은 모델링에 사용되기 전에 전처리가 필요하다. Linear regression 모델을 예로 들어 보자. Linearity : 선형성. 예측 변수와 목표 변수 간의 관계가 선형이라고 가정한다. No noise : 특이치(outlier)가 없어야 한다. No collinearity : 상관관계가 높은 예측 변수가 있는 경우 과적합(overfit)이 될 가능성이 높다. Normal distribution : 예측 변수와 목표 변수가 정규 분포를 따를 때 더 신뢰할 수 있는 예측이 이루어진다. Scale : 거리 기반의 알고리즘이므로 표준 scaler처럼 모델을 스케일링해야 한다. 오늘은 네 번째 요점에 초점을 맞추고자 한다. 예측 .. 2020. 8. 13. Skew(왜도) 와 Kurtosis(첨도) - 데이터 과학에서 알아야 할 두가지 중요한 통계 용어 오늘은 Skew와 Kurtosis, 즉 왜도와 첨도에 대해서 알아보자. Skewness / 왜도 symmetrical bell curve 혹은 normal distribution에서 왜곡 정도를 말한다. 데이터 분포의 대칭성이 얼마나 결핍되었는지를 측정한다. 완전히 대칭인 분포는 skewness가 0이다. 두 가지 종류의 Skewness가 있다. Positive와 Negative Positive Skewness는 오른쪽 꼬리가 왼쪽보다 더 길 때를 의미한다. 평균(Mean)과 중위수(Median)가 Mode보다 크다. Negative Skewness 왼쪽 꼬리가 오른쪽보다 더 길 때를 의미한다. 평균(Mean)과 중위수(Median)가 Mode보다 작다. 그래서, 언제 Skewness(왜도)가 과도하게 .. 2020. 8. 12. XGBoost (4) - 머신러닝으로 부동산 가격 예측 실습하기 / Tutorial 지루한 이론과 설치가 끝나고 드디어 실습이다. 이번 글에서는 sklearn에서 제공하는 보스턴 주택 가격 데이터를 이용해 xgboost 모델을 학습시키고 예측하기까지 해 볼 예정이다. 개발 환경 설치가 완료된 이상 대부분 개발환경의 제약은 받지 않으나 내가 개발한 환경은 다음과 같다. AWS Linux python 3.6.10 준비하기 이전 글에서 설치한 xgboost용 python을 활성화해준다. source /bin/activate sklearn, pandas, matplotlib, graphviz를 설치하지 않은 경우 설치해준다. pip install sklearn pandas matplotlib graphviz 앞에 sudo를 붙이거나 가상 환경을 활성화시키지 않은 상태로 설치하는 실수는 하지 말.. 2020. 7. 14. XGBoost (3) - Python 가상 환경에 설치하기 저번 글에서는 파라미터와 개념 등 이론적인 면에 대해서 글을 썼다면 이번 글부터는 실습 위주의 포스팅이다. 나는 sw는 실행해보면서 이해하는 부분이 크기 때문에, 첫 이론 학습은 간략히, 실습은 세세하게, 이후 다시 이론을 학습하는 편을 선호한다. 이번 글은 실습의 시작인 설치 편이다. 각 환경에 따라 모두 설치 과정을 보여주고 싶었으나 너무 귀찮기에, 내 환경에서만 진행한다. 앞으로는 docker를 배워서 사용해볼까 생각 중이다. 20200721 업데이트 잠깐. docker 환경에 익숙하거나 사용해볼 의향이 있다면 아래 글을 참고해서 환경 구축을 하는 것을 추천한다. 사용해보니 너무 간단한다. 3줄로 간단히 머신러닝/딥러닝 환경 구축하기(docker kaggle image 설치/활용하기) 사전 필요 지.. 2020. 7. 13. XGBoost (1) - 입문용 예제로 개념 쉽게 이해하기 요즘 현업에서 자주 사용하는 모델 중 하나가 XGBoost이다. 개인적으로 내 업무는 Data Scientist보다 Data Engineer에 가까워서 모델에 관해 심도 깊은 이해는 필요 없지만, 어느 정도의 이해는 필요하다고 생각된다. 그래서 겉핥는 정도의 이론 부분을 포함하여 사용법 예제, 시행착오 등을 순차적으로 포스팅할 예정이다. 사전 필요 지식 XGBoost 학습을 위해서는 다음에 관한 지식이 필요하다. 추후 기회가 되면 포스팅 할 예정. Gradient Boost Regression Regularization XGBoost란? [XGBoost: A Scalable Tree Boosting System] 논문에서 소개된 "Extreme Gradient Boosting"을 의미하며, 여기서 "Gr.. 2020. 7. 8. 이전 1 다음