빅데이터
빅데이터란, 사회 전반에서 빠르게 생성되는 다양한 유형의 방대한 데이터이다
- 기업에서는 빅데이터를 다른 기업과의 차별화를 위한 리소스로 인식하고있다.
- 빅데이터를 활용하는 비즈니스가 급속히 증가하는 중이다.
- 사회 전반에서 빅데이터의 활용이 점점 중요해지고 있다.
디지털 전환
- 디지털 전환이란 사회에서 발생하는 여러 현상/사건 등을 데이터화 하여 새로운가치를 발견하고자 하는 활동이다.
- 디지털 기술혁신으로 인해 전 산업분야에 걸쳐 디지털 전환이 진행되었다.
- IoT의 발달로 수 많은 장치와 기계등에서 방대한 양의 데이터가 발생하고있다
- 모바일과 웹을 통해 다양한 유형의 대용량 데이터가 빠르게 발생하고 있다.
빅데이터의 특성 5V
- Volumn : 대용량
- Variety : 다양한 형태
- Velocity : 고속생성 및 고속처리
- Value : 새로운 가치
- Veracity : 정확성
정형 데이터의 종류
Qualitative data/질적 자료
- 자료값이 양적인 의미를 가지지 않는 자료. 주로 문자로 표현되며. 사칙연산이 불가능하다
- 관측결과가 몇 개의 범주 또는 항목의 형태로 나타나는 자료인 경우가 많아 범주형 자료(categorical data)로 부르기도 한다.
- Nominal data(명목 자료) : 순위의 개념이 없다.(혈액형, 성별, 직업)
- Oridianl data(순서 자료) : 순위의 개념을 가진다.(학점, 선호도, 옷사이즈)
- 경우에 따라 질적 자료가 숫자로 표현되기도 한다.(중졸:1, 고졸:2, 대졸:3)
Quantitative data / 양적 자료 or Numerical data / 수치형 자료
- 자료 자체가 숫자로 표현도며 숫자자체가 자료의 속성을 반영. 사칙연산이 가능하다.
- Continuous data(연속형 자료) : 키, 몸무게, 시간, 길이, 온도, 무게
- Discrete data(이산형 자료) / 계수형 자료(counting data) : 교통사고 건수, 고객의 수, 불량품의 수
- 경우에 따라 양적자료는 범주화가 가능하다. (예, 시험 성적 90~100 -> A+ / 80~89점 -> A / 70~79점 -> B+)
'ML | DL | Big data > Data Science' 카테고리의 다른 글
정규성 검정 및 변환 (0) | 2023.02.28 |
---|---|
표본/분산 차이에 대한 가설 검정 방법 (0) | 2023.02.28 |
통계적 가설 검정 방법 (0) | 2023.02.28 |
불균형 클래스 분류(Imbalanced Classification)를 위한 4가지 방법 (2) | 2020.09.04 |
누락 데이터(Missing value)를 처리하는 7가지 방법 / Data Imputation (1) | 2020.08.14 |
비대칭(skewed) 데이터를 처리하는 3가지 방법 / Skewed Data (2) | 2020.08.13 |
댓글