본문 바로가기

Kaggle6

kaggle 주택 가격 예측(5) - Stacking과 Blending으로 등수 올리기(상위 6%) 저번 글에는 몇몇 ensemble 모델을 조합해서 상위 13%에 랭크해보았다. 이번 글에서는 모델 stacking과 blending을 이용하여 상위 10% 이내에 랭크해보자. prediction with stacking models¶ 임포팅, 데이터 로딩 In [1]: # Imports import pandas as pd import numpy as np from sklearn.model_selection import cross_val_score, train_test_split, KFold from sklearn.preprocessing import StandardScaler, RobustScaler from sklearn.metrics import mean_squared_error, make_score.. 2020. 8. 24.
kaggle 주택 가격 예측(4) - 모델 앙상블으로 등수 올리기(상위 13%) 저번 글에는 regression 4종으로 예측해보고, 결과가 가장나은 ElasticNet의 결과로 제출 해보았다. 이번글에는 조금더 핫하고 자주쓰이는 모델 중 LightGBM, XGBoost, GradientBoost 그리고 꼽사리로 RandomForest와 앙상블 기법으로 등수를 올려보자. prediction with ensemble algorithms¶ 임포팅, 데이터 로딩 In [1]: # Imports import pandas as pd import numpy as np from sklearn.model_selection import cross_val_score, train_test_split, KFold from sklearn.preprocessing import StandardScaler, R.. 2020. 8. 21.
kaggle 주택 가격 예측(3) - 간단한 regression으로 예측하기(상위 30%) 저번 글에는 데이터를 전처리하고 저장했었다면 이번 글에서는 전처리 데이터로 학습하고 kaggle에 제출해 볼 예정이다. 복잡한 알고리즘 이전에 간단한 머신러닝으로 돌린 성능을 확인하기 위해, 이번 글에서는 우선 Linear regression, ridge regression, rasso regression, elasticnet 네 가지로 실습을 해보자. 그나저나 노트북을 그대로 옮겨오면 사이즈 때문에 별로 예쁘지도 않고, 작성 후 재수정시, html구조가 깨져 노트북 테마가 다 사라져 버린다. 다른 방법을 강구해봐야겠다. 4 kinds of regression¶ In [1]: # Imports import pandas as pd import numpy as np from sklearn.model_sele.. 2020. 8. 20.
kaggle 주택 가격 예측(2) - Data preprocess / Feature engineering 저번 글에는 데이터를 탐구하기만 했다면, 이번 글에는 탐구했던 내용들을 바탕으로 데이터를 전처리하고 추가적인 feature들을 생성해보자. 이번 글을 다 읽고 나면 머신러닝에서 Feature들이 어떻게 뻥튀기되고, 버려지기도 하며, 역 추산되는지 알게 될 것이다. House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com kaggle 주택 가격 예측(1) - 포괄적인 데이터 탐색 분석 / EDA xgboost를 활용한 실전 실습을 무엇으로 해볼까 kaggle을 구경하다가 많은 사람들의 튜토리얼 compete으로 .. 2020. 8. 17.
kaggle 주택 가격 예측(1) - 포괄적인 데이터 탐색 분석 / EDA xgboost를 활용한 실전 실습을 무엇으로 해볼까 kaggle을 구경하다가 많은 사람들의 튜토리얼 compete으로 이용되고 있는 주택 가격 예측으로 진행하기로 결정했다. House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 우선 머신러닝이나 딥러닝을 시작하기 전에는 학습과 예측할 데이터 분석부터 시작해야 한다. 처음부터 모든 데이터 분석을 내가 하면 좋겠지만, 정석으로 불려도 좋을 만큼 좋은 예시가 kaggle에 있기에 몇몇 노트북을 따라 하는 것으로 대체한다. 이번 글에서는 번역한 수준으로 해당 노트북.. 2020. 8. 10.
Docker (4) - 3줄로 간단히 머신러닝/딥러닝 환경 구축하기(docker kaggle image 설치/활용하기) 이번 글은 내가 도커를 학습한 이유이다. 환경이 바뀔 때마다 매번 ML/DL 환경을 구축하는 게 귀찮았고, 타 개발자들이랑 서버를 섞어 쓰다 보면 내 의지가 아니더라도 환경이 꼬이는 경우가 있다. 그런 상황들이 싫어서 docker를 활용하고자 했고, 예상보다 훨씬 간편하게 환경 구축을 할 수 있어서 놀랐다. 이번 글은 내가 진행한 3줄짜리 환경 구축과 간단한 활용까지 진행해 볼 예정이다. 개발환경 Docker가 설치된 리눅스 환경(설치가이드) 왜 Kaggle 이미지를 사용하는가? Kaggle-kernel 전용 대회에서 머신러닝을 진행하고 싶다면 단순히 이미지를 rebuild 함으로써 최신 상태로 유지할 수 있다. GPU 지원이 빵빵하다. XGBoost 등 유명 Boosting 계열의 패키지를 지원한다. .. 2020. 7. 20.