끄적대기

Big-Date(빅-데이터) 정의

alpha-star 2022. 3. 24. 02:14
728x90
반응형

˙빅-데이터 등장

 정형화된 데이터와 비 정형화된 데이터가 무수히 발생하면서 정보 홍수 개념이 등장했다. 시대의 흐름에 따라 이러한 정보들이 오늘날의 빅-데이터 개념으로 형성되었고, 개인화와 소셜-네트워크(SNS), 스마트폰 등의 확산으로 서비스 환경의 발전하였다. 원래 빅-데이터는 대기업이나 연구 프로젝트에서 분석하는 방대한 양의 데이터를 일컫는 단어로, 큰 용량과 빠른 속도, 다양성이 높은 자산으로 변화하고 있다.

 

˙빅-데이터 시대

 데이터 양의 증가로 기존의 데이터 저장, 관리, 분석 등의 기법이 기존에 비하여 한계점에 도달하고 있다. 정보기술의 변화를 필요로 하고, 빅-데이터 관련 기술들과 지능화, 개인화된 시대이다. 정보통신 기술들의 중점이 데이터를 다루는 기술들로 이동하고, 데이터를 활용하는 시대로 변화하고 있다. 빅-데이터에는 공간과 시간, 관계, 세상 등이 담겨 있는데, 이것의 가치는 무궁무진하고, 미래 경쟁력과 가치 창출의 원천이다.

 

 빅-데이터의 처리는 빠른 의사결정이 상대적으로 덜 요구되기 때문에 전략적인 접근 필요하고, 다양하고 복잡한 데이터 소스와 로직들로 분산처리 기술 필요하다. 또한, 데이터 규모나 구조에 대하여 처리할 수 있는 방식이나 분류법 필요하며,  데이터 분석이나 처리량에 있어서 높은 유연성 필요하다.

 

˙빅-데이터 속성(5V+1C)

 - 5V : 규모(Volume) + 다양성(Variety) + 속도(Velocity) + 정확성과 신뢰성(Veracity) + 가치(Value)

 - 1C : 복잡성(Complexity)

 

˙빅-데이터 종류

 - 정형 : 고정된 필드에 저장되어 있는 데이터(데이터베이스, 스프레드시트)

 - 반정형 : 고정된 필드에 저장이 되어있지는 않지만, 메타-데이터(Meta-Date)*나 스키마(Schema)* 등을 포함(XML, HTML)

 - 비정형 : 고정된 필드에 저장되어 있지 않은 데이터(텍스트, 문서, 이미지, 음성 데이터)

 

˙빅-데이터 처리과정

 - 데이터 소스 → 수집 → 저장 → 처리 → 분석 → 표현

 - 데이터 소스 : 내부(데이터베이스) + 외부(인터넷) 데이터

 - 수집 : 크롤링(검색 엔진을 사용한 수집) + ETL(소스 데이터의 추출과 전송, 변환, 적재)

 - 저장 : 데이터베이스 + 스토리지 + 서버

 - 처리 : 맵리듀스(데이터 추출) + 프로세싱(다중처리)

 - 분석 : NLP(자연어 처리) + 기계학습

 - 표현 : 가시화 + 획득

 

 

 

* 메타-데이터(Meta-Date) : 데이터에 대한 데이터로, 어떠한 목적을 가지고 만들어진 데이터를 지칭

* 스키마(Schema) : 데이터베이스를 구성하는 레코드의 크리고, 여러 가지의 부분들을 정의한 것

728x90
반응형