[-문구-Compeople-문구-]

++ETC/Study2014. 9. 17. 19:08

* BIG DATA (빅데이타)

  -  다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처

 

* 주요 Big Data 처리 기술

  - Hadoop, Cassandra :  분산시스템에서 대용량 데이터 처리 분석을 지원하는 오픈소스(OSS) 
  - GFS(Google File Sys.) : 구글에서 개발한 분산 파일 시스템 
  - Big Table : GFS 상에 구축된 상용 분산데이터베이스 시스템
  - Map&Reduce : 분산 시스템 상에서 대용량 데이터 세트를 처리하기 위해서 구글이 소개한 소프트웨어 프레임워크
  - NoSQL :  비관계형 데이터베이스는 데이터를 테이블(행, 컬럼)에 저장하지 않는 데이터베이스
  - Key Value Store : 스키마없는 엔터티 관리

 

** 참고

  1. IT 환경 변화 및  빅데이터의 개념

  . 빅데이터 기반의 IT 환경의 변화

    - IT 기술의 발전과 모바일 환경 확대로 인해 생활 주변에서 새롭게 창출되거나 유통되는 정보의 양이 폭발적으로  증가

    - 환경 변화를 신속하게 감지하고 대응하는 역량이 중요해지면서, 기업 내/외부에 축적된 빅데이터의 중요성 부각

    - Map&Reduce, NoSQL 등의 기술 기반 Hadoop, GFS 등의 분산데이터 처리시스템의 대용량 데이터 처리기술의  등장
   <폭발적으로 증가하는 정보>                                  

 

 <주요 Big Data 처리 기술>

 

주요 기술

설명

Hadoop, Cassandra

- 분산시스템에서 대용량 데이터 처리 분석을 지원하는 오픈소스(OSS)

GFS(Google File Sys.)

- 구글에서 개발한 분산 파일 시스템

Big Table

- GFS 상에 구축된 상용 분산데이터베이스 시스템

Map&Reduce

- 분산 시스템 상에서 대용량 데이터 세트를 처리하기 위해서 구글이 소개한 소프트웨어 프레임워크

NoSQL

- 비관계형 데이터베이스는 데이터를 테이블(, 컬럼)에 저장하지 않는 데이터베이스

Key Value Store

- 스키마없는 엔터티 관리





 . 빅데이터의 개념

§다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
§일반적인 데이터베이스가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
  
 

 . 빅데이터의 3대 요소

 

 

3대 요소

설 명

크기

(Volume)

일반기업에서도 테라바이트(TB)~페타바이트(PB)급 규모의 데이터를 다루는 경우가 증가

다양성

(Variety)

데이터마다 크기와 내용이 제가각이어서 통일된 구조로 정리하기 어려운 비정형데이터가 90% 이상을 차지

) 동영상, 음악, 소셜미디어의 텍스트

속도

(Velocity)

데이터 생성 후 유통되고 활용되기까지 소요되는 시간이 수시간~수주단위에서 분, 초 이하로 단축




 

2. 빅데이터 분석 기법

 

 

구분

분석기법

설명

고급분석

예측 분석
콘텐츠 분석
실시간 분석
선제적 의사결정을 지원하기 위한 분석
비정형 데이터 분석
적시에 신속한 의사결정을 위한 분석

소셜 네트워크

분석

텍스트 마이닝
감성 분석
인공지능
자연어처리, 문서처리
시멘틱분석, 관계성분석
학습 및 추론, 신경망, 유전자 알고리즘

평판 분석

평판분석(Opinion Mining)
소셜미디어등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도 판별기술

클러스터 분석

클러스터 분석
비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 그룹을 발굴하는데 사용




3. 데이터 활용을 위한 요소와 활용분야

    . 데이터 활용을 위한 요소 

  

 

 

요소

설 명

자원

데이터를 위한 자원확보, 품질관리를 위한 자원확보
기업의 내부, 외부 빅데이터 자원을 수집하는 전략 필요

기술

빅데이터 인프라, 플랫폼, 분석기술
Hadoop, NoSQL
자연어처리, 의미분석, 데이터마이닝

인력

데이터 사이언티스트
수학, 공학적인 능력과 경제학, 통계학, 심리학 등에 능통한 인재가 필요




 

 . 데이터 활용 분야 

 

 

구분

활용분야

설명

효율적인

의사결정

선제적 의사결정
위기 관리
마케팅 적용
과거의 시계열적인 정보에 따른 결정이 아닌 미래의 예측 기반 선제적 의사결정
기업 내/외부의 위기예측 및 대응
데이터 분석을 통한 기업 마케팅의 적시성 확보

혁신적인

서비스

신규 서비스 창출
기술혁신 및 문제 해결
공공 데이터의 활용
예측을 통한 고객욕구 파악과 신규 서비스 창출
해결되지 않는 전문분야 문제 해결
재난전조 감지, 맞춤형 복지 실현, 과학기술/의료선진화

진정한 개인화

서비스 제공

고객 맞춤형 서비스
고객의 개인화 맞춤형 서비스 제공
새로운 고객서비스 채널 및 정보원천으로 활용




4. 빅데이터 분석과 기존 경영정보 분석의 차이점

 . 데이터 측면에서 차이점
   -
기존의 경영정보 분석은 일정한 양식에 따라 정제된 데이터를 주로 취급

   - 웹사이트의 방문기록, 소셜미디어의 소통정보를 망라한 빅데이터는 양식이 제각기 다르고 구조화된 수준도 낮음

   - 빅데이터 분석은 구조화 수준이 낮고 매우 방대한 데이터를 다루므로 진보된 분산처리 기술과 통계적 기법이 필요

 . 데이터 인프라 측면에서 차이점

 

 

구분

빅데이터 분석

기존 경영정보 분석

인프라 형태

리소스 풀

독립 인프라

아키텍처

확장성(분산 병렬 프로세싱 인메모리(in-memory) 스토리지와 연계

최적화

딜리버리 모델

하이브리드(클라우드 버스팅 기능 포함) 어플라이언스의 일반적인 사용

-프레미스(on-premise)





         - 빅데이터 분석 인프라는 데이터 구조가 단순하며 대용량의 데이터 처리하는데 목적을 가지고 있음

 

. 데이터 분석 절차 측면에서 차이점

 

 

절차

빅데이터 분석

기존 경영정보 분석

추출

Crawler, Havister

ODS, EII, ETL

저장

Map&Reduce, De-dup

RDBMS, OODBMS

분석

감성분석, 비정형데이터분석, 텍스트마이닝, 오피니언마이닝

OLAP, 데이터마이닝

보고

e-Discovery, Forensic

Dashboard, BAM





. 데이터 분석 형태 측면에서 차이점

 

 

구분

빅데이터 분석

기존 경영정보 분석

데이터 세트

포괄적이고 반복적임

사정 정의됨

데이터 속도

능동적이고 다이나믹함

(실시간의 경우)

배치

데이터 분석

예측 및 최적화

주로 과거분석





- 빅데이터 분석은 기존 경영분석과 달리 미래의 예측과 최적화하는데 목적을 가지고 있음

 

 5. 빅데이터 분석의 활용효과

  . 빅데이터 활용 절차

    - 기업은 빅데이터의 분석을 통해 경쟁환경을 이해하고 효과적으로 전략을 실행할 수 있는 기반 강화

 

 

  . 절차별 활용 효과

 

 

구분

절차

활용효과

경쟁환경의 이해

소셜 네트워크 구조, 정보전달 패턴 파악

à TI, SNA, Text 분석

- 소셜 미디어에 나타나는 정보의 경로를 분석하면 잠재적인 소비자군과 이들이 소속되어 있는 다양한 커뮤니티 구조를 파악하는 것이 가능

사건 징후 및 전개과정 감지

à 검색, Buzz 모니터링

- 검색엔진이 제공하는 통계와 소셜미디어에 노출되는 메시지 등을 이용하여 중요한 사건에 대한 징후와 경과를 파악

경영자 직관의 합리적 검증과 보완

à 신경회로망, 다중지성

- 의사 결정과정에 투영되는 경영자의 직관을 데이터를 이용해 객관적으로 검증함으로써 의사결정의 정확성을 제고

효과적인 전략 실행

전략실행 효과 최적화

à 예측모형과 시나리오

- 빅데이터의 수집 및 분석을 체계화하여 현황 파악에 걸리는 시간을 단축하고 전략실행 효과의 예측모형과 시나리오를 도출

소비자와 공동 가치 창출

à 다방향 가치 창출

- 소비자가 소셜미디어와 검색활동 제품 사용을 통해 유발한 정보를 기업경영 활동에 반영함으로써 새로운 가치 창출의 접점으로 활용





 6. 실무에서 빅데이터 분석과 활용 시 고려사항

    - 기업과 관련된 빅데이터가 잠재적 가치가 높은 자산임을 인식하고, 이를 체계적으로 수집 활동

    - 빅데이터 분석에 필요한 종합적인 역량을 배양하는데 주력

    - 오픈소스 활용으로 데이터 분석 비용 절감 및 품질 보장 확보 필요.

Posted by Compeople