본문 바로가기

Data Analysis2

데이터 과학자가 꼭 알아야 할 5분 통계학 왜도와 첨도의 개념을 정리하려고 했는데, 그전에 좋은 글을 한 가지 발견해서 정리해놓고자 한다. “Facts are stubborn things, but statistics are pliable.”― Mark Twain 데이터 과학자들의 목표는 표본에 대한 결론을 도출하는 것이 아니라 제공된 샘플에서 모집단에 대한 결론을 도출하는 것이다. 따라서 데이터 과학자들은 표본에 대한 통계를 사용하여 모집단의 값에 대해 유추해야 한다. 모집단의 이러한 값을 모수라고 한다. 모수는 모집단 평균과 중위수와 같이 전체 모집단의 알 수 없는 특성이다. 표본 통계량은 표본으로 추출되는 모집단의 일부 특성을 설명한다. 표본 평균(mean)과 중위수(median)는 고정값이다. Sampling Error / 표본 오차 예를 .. 2020. 8. 11.
kaggle 주택 가격 예측(1) - 포괄적인 데이터 탐색 분석 / EDA xgboost를 활용한 실전 실습을 무엇으로 해볼까 kaggle을 구경하다가 많은 사람들의 튜토리얼 compete으로 이용되고 있는 주택 가격 예측으로 진행하기로 결정했다. House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 우선 머신러닝이나 딥러닝을 시작하기 전에는 학습과 예측할 데이터 분석부터 시작해야 한다. 처음부터 모든 데이터 분석을 내가 하면 좋겠지만, 정석으로 불려도 좋을 만큼 좋은 예시가 kaggle에 있기에 몇몇 노트북을 따라 하는 것으로 대체한다. 이번 글에서는 번역한 수준으로 해당 노트북.. 2020. 8. 10.