본문 바로가기

Python8

Jupyter 환경에서 pip 패키지 설치하기 같은 질문은 여러 번 받다 보니 남기게 된다. python 은 개발자에 따라서 / 한 개발자의 다양한 프로젝트에 따라서 여러 가지 버전의 파이썬 인터프리터를 사용하게 되는데, 쉘상에서 pip 설치를 했더니 주피터에서는 안된다고 하시는 분들이 종종 있다. 그럴 경우 jupyter에서 사용 중인 인터프리터와 쉘상에서 가리키고 있는 파이썬 인터프리터가 다르기 때문인데, 해당 인터프리터를 찾기 귀찮으니 jupyter 상에서 아래와 같이 입력해서 설치해주면 된다. import sys !{sys.executable} -m pip install 2020. 9. 25.
Seaborn - 데이터를 시각화하는 17가지 방법 데이터 시각화는 데이터 마이닝에서 매우 중요한 역할을 한다. 데이터 과학자는 시각화를 통해 데이터를 탐구하는데 대부분의 시간을 보낸다. 이 과정을 가속화하기 위해서는 모든 플롯에 대한 충분한 이해와 설명서가 필요하다. 이 글을 통해 자주 사용했던 플롯들에 대한 정리해보고자 한다. Seaborn이란? Seaborn은 matplotlib 기반의 시각화 라이브러리이다. 유익한 통계 그래픽을 그리기 위한 고급 인터페이스를 제공한다. seaborn을 설치하기 위해서는 다음 쉘 명령어로 설치할 수 있다. pip install seaborn # pip를 이용한 설치 conda install seaborn # conda를 이용한 설치 그리고 파이썬에서 다음과 같이 임포트 해주면 사용할 준비가 끝난다. import se.. 2020. 9. 15.
불균형 클래스 분류(Imbalanced Classification)를 위한 4가지 방법 머신러닝으로 불균형 데이터를 분류하는 대부분의 예시는 이항 클래스 분류에 초점을 맞추고 있다. 그래서 이번엔 다중 클래스 불균형 데이터(Multi-class imbalanced data)를 처리하는 포스팅을 기록해보고자 한다. 이번 포스팅에서 다뤄볼 분균형 데이터 처리 방법은 다음 네 가지이다. Under Sampling | 언더 샘플링 Simple Over Sampling | 단순 오버 샘플링 Algorithm Over Sampling | 알고리즘을 통한 오버샘플링(SMOTE, ADASYN) Cost-sensitive learning | 뭐라고 번역하지 시작해보자. 개발환경 Python 3.6.11 imblearn 0.7.0 Glass Multi Class Classification Dataset 이 .. 2020. 9. 4.
Python Prophet - 자동차 판매량 시계열 데이터 예측하기(Time Series Forecasting) 이번 글에서는 시계열 예측을 위해 Facebook의 Prophet 라이브러리를 알아보자. 시계열 예측은 사용할 수 있는 방법들이 다양하고 각각의 방법마다 하이퍼 파라미터들이 매우 다양하기 때문에 어려울 수도 있다. Prophet 라이브러리는 일변량 시계열 데이터셋(univariate time series datasets)을 예측하기 위해 설계된 오픈소스 라이브러리이다. 기본 적으로 추세나 계절적 구조를 가진 데이터에 대해 모델에 적합한 하이퍼 파라미터들을 자동으로 찾을 수 있도록 설계되었고 사용하기 쉽다. 이번 글에서는 다룰 내용은 다음과 같다. Prophet의 전반적인 이해 Prophet 모델의 학습 방법, 입출력 형태 Prophet 모델을 평가하는 방법 이제 시작해보자. Prophet Forecast.. 2020. 8. 28.
Data Scientist를 위한 TOP 4 파이썬 가상환경 비교 어떤 파이썬 가상 환경이 나에게 알맞을까? 가상 환경은 신입 프로그래머들에게 비교적 이해하기 어려운 내용이다. 초짜 시절 가상 환경을 사용하면서 내가 이해한 것은 고작 MacOS나 Windows에서 내 환경이 존재하고 PyCharm을 사용하며, 실행하면 코드가 잘 실행된다는 것뿐이었다. 그러던 도중 데이터 과학이나 머신러닝 엔지니어로서의 경력을 쌓게 되면서, 파이썬 프로젝트 진행 간 눈물 나는 의존성 문제를 종종 겪었고, 아마추어로서 여러 가지 상황을 부닥치며 가상 환경에 대해 깊이 학습하게 되었다. 이런 잡다구리 한 것들을 알아내는데 생각보다 시간이 오래 걸렸다. 이러한 시행착오를 바탕으로 각각의 가상환경의 특성에 대해 조금이나마 이해하게 되었다. 이번 글에서는 가장 흔한 4가지 가상 환경과 언제/왜 .. 2020. 8. 18.
kaggle 주택 가격 예측(1) - 포괄적인 데이터 탐색 분석 / EDA xgboost를 활용한 실전 실습을 무엇으로 해볼까 kaggle을 구경하다가 많은 사람들의 튜토리얼 compete으로 이용되고 있는 주택 가격 예측으로 진행하기로 결정했다. House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 우선 머신러닝이나 딥러닝을 시작하기 전에는 학습과 예측할 데이터 분석부터 시작해야 한다. 처음부터 모든 데이터 분석을 내가 하면 좋겠지만, 정석으로 불려도 좋을 만큼 좋은 예시가 kaggle에 있기에 몇몇 노트북을 따라 하는 것으로 대체한다. 이번 글에서는 번역한 수준으로 해당 노트북.. 2020. 8. 10.
XGBoost (4) - 머신러닝으로 부동산 가격 예측 실습하기 / Tutorial 지루한 이론과 설치가 끝나고 드디어 실습이다. 이번 글에서는 sklearn에서 제공하는 보스턴 주택 가격 데이터를 이용해 xgboost 모델을 학습시키고 예측하기까지 해 볼 예정이다. 개발 환경 설치가 완료된 이상 대부분 개발환경의 제약은 받지 않으나 내가 개발한 환경은 다음과 같다. AWS Linux python 3.6.10 준비하기 이전 글에서 설치한 xgboost용 python을 활성화해준다. source /bin/activate sklearn, pandas, matplotlib, graphviz를 설치하지 않은 경우 설치해준다. pip install sklearn pandas matplotlib graphviz 앞에 sudo를 붙이거나 가상 환경을 활성화시키지 않은 상태로 설치하는 실수는 하지 말.. 2020. 7. 14.
XGBoost (3) - Python 가상 환경에 설치하기 저번 글에서는 파라미터와 개념 등 이론적인 면에 대해서 글을 썼다면 이번 글부터는 실습 위주의 포스팅이다. 나는 sw는 실행해보면서 이해하는 부분이 크기 때문에, 첫 이론 학습은 간략히, 실습은 세세하게, 이후 다시 이론을 학습하는 편을 선호한다. 이번 글은 실습의 시작인 설치 편이다. 각 환경에 따라 모두 설치 과정을 보여주고 싶었으나 너무 귀찮기에, 내 환경에서만 진행한다. 앞으로는 docker를 배워서 사용해볼까 생각 중이다. 20200721 업데이트 잠깐. docker 환경에 익숙하거나 사용해볼 의향이 있다면 아래 글을 참고해서 환경 구축을 하는 것을 추천한다. 사용해보니 너무 간단한다. 3줄로 간단히 머신러닝/딥러닝 환경 구축하기(docker kaggle image 설치/활용하기) 사전 필요 지.. 2020. 7. 13.