본문 바로가기
ML | DL | Big data/Data Science

빅데이터 개요

by 썽하 2023. 2. 28.

빅데이터

빅데이터란, 사회 전반에서 빠르게 생성되는 다양한 유형의 방대한 데이터이다

  • 기업에서는 빅데이터를 다른 기업과의 차별화를 위한 리소스로 인식하고있다.
  • 빅데이터를 활용하는 비즈니스가 급속히 증가하는 중이다.
  • 사회 전반에서 빅데이터의 활용이 점점 중요해지고 있다.

 

디지털 전환

  • 디지털 전환이란 사회에서 발생하는 여러 현상/사건 등을 데이터화 하여 새로운가치를 발견하고자 하는 활동이다.
  • 디지털 기술혁신으로 인해 전 산업분야에 걸쳐 디지털 전환이 진행되었다.
  • IoT의 발달로 수 많은 장치와 기계등에서 방대한 양의 데이터가 발생하고있다
  • 모바일과 웹을 통해 다양한 유형의 대용량 데이터가 빠르게 발생하고 있다.

 

빅데이터의 특성 5V

  • Volumn : 대용량
  • Variety : 다양한 형태
  • Velocity : 고속생성 및 고속처리
  • Value : 새로운 가치
  • Veracity : 정확성

 

정형 데이터의 종류

Qualitative data/질적 자료

  • 자료값이 양적인 의미를 가지지 않는 자료. 주로 문자로 표현되며. 사칙연산이 불가능하다
  • 관측결과가 몇 개의 범주 또는 항목의 형태로 나타나는 자료인 경우가 많아 범주형 자료(categorical data)로 부르기도 한다.
  • Nominal data(명목 자료) : 순위의 개념이 없다.(혈액형, 성별, 직업)
  • Oridianl data(순서 자료) : 순위의 개념을 가진다.(학점, 선호도, 옷사이즈)
  • 경우에 따라 질적 자료가 숫자로 표현되기도 한다.(중졸:1, 고졸:2, 대졸:3)

 

Quantitative data / 양적 자료 or  Numerical data / 수치형 자료

  • 자료 자체가 숫자로 표현도며 숫자자체가 자료의 속성을 반영. 사칙연산이 가능하다.
  • Continuous data(연속형 자료) : 키, 몸무게, 시간, 길이, 온도, 무게
  • Discrete data(이산형 자료) / 계수형 자료(counting data) : 교통사고 건수, 고객의 수, 불량품의 수
  • 경우에 따라 양적자료는 범주화가 가능하다. (예, 시험 성적 90~100 -> A+ / 80~89점 -> A / 70~79점 -> B+)

댓글