* BIG DATA (빅데이타)
- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
* 주요 Big Data 처리 기술
- Hadoop, Cassandra : 분산시스템에서 대용량 데이터 처리 분석을 지원하는 오픈소스(OSS)
- GFS(Google File Sys.) : 구글에서 개발한 분산 파일 시스템
- Big Table : GFS 상에 구축된 상용 분산데이터베이스 시스템
- Map&Reduce : 분산 시스템 상에서 대용량 데이터 세트를 처리하기 위해서 구글이 소개한 소프트웨어 프레임워크
- NoSQL : 비관계형 데이터베이스는 데이터를 테이블(행, 컬럼)에 저장하지 않는 데이터베이스
- Key Value Store : 스키마없는 엔터티 관리
** 참고
1. IT 환경 변화 및 빅데이터의 개념
가. 빅데이터 기반의 IT 환경의 변화
- IT 기술의 발전과 모바일 환경 확대로 인해 생활 주변에서 새롭게 창출되거나 유통되는 정보의 양이 폭발적으로 증가
- 환경 변화를 신속하게 감지하고 대응하는 역량이 중요해지면서, 기업 내/외부에 축적된 빅데이터의 중요성 부각
- Map&Reduce, NoSQL 등의 기술 기반 Hadoop, GFS 등의 분산데이터 처리시스템의 대용량 데이터 처리기술의 등장
<폭발적으로 증가하는 정보>
<주요 Big Data 처리 기술>
주요 기술 |
설명 |
Hadoop, Cassandra |
- 분산시스템에서 대용량 데이터 처리 분석을 지원하는 오픈소스(OSS) |
GFS(Google File Sys.) |
- 구글에서 개발한 분산 파일 시스템 |
Big Table |
- GFS 상에 구축된 상용 분산데이터베이스 시스템 |
Map&Reduce |
- 분산 시스템 상에서 대용량 데이터 세트를 처리하기 위해서 구글이 소개한 소프트웨어 프레임워크 |
NoSQL |
- 비관계형 데이터베이스는 데이터를 테이블(행, 컬럼)에 저장하지 않는 데이터베이스 |
Key Value Store |
- 스키마없는 엔터티 관리 |
나. 빅데이터의 개념
다. 빅데이터의 3대 요소
3대 요소 |
설 명 |
크기 (Volume) |
•일반기업에서도 테라바이트(TB)~페타바이트(PB)급 규모의 데이터를 다루는 경우가 증가 |
다양성 (Variety) |
•데이터마다 크기와 내용이 제가각이어서 통일된 구조로 정리하기 어려운 비정형데이터가 90% 이상을 차지
예) 동영상, 음악, 소셜미디어의 텍스트 |
속도 (Velocity) |
•데이터 생성 후 유통되고 활용되기까지 소요되는 시간이 수시간~수주단위에서 분, 초 이하로 단축 |
2. 빅데이터 분석 기법
구분 |
분석기법 |
설명 |
고급분석 |
• 예측 분석
• 콘텐츠 분석
• 실시간 분석 |
• 선제적 의사결정을 지원하기 위한 분석
• 비정형 데이터 분석
• 적시에 신속한 의사결정을 위한 분석 |
소셜 네트워크 분석 |
• 텍스트 마이닝
• 감성 분석
• 인공지능 |
• 자연어처리, 문서처리
• 시멘틱분석, 관계성분석
• 학습 및 추론, 신경망, 유전자 알고리즘 |
평판 분석 |
• 평판분석(Opinion Mining) |
• 소셜미디어등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도 판별기술 |
클러스터 분석 |
• 클러스터 분석 |
• 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 그룹을 발굴하는데 사용 |
3. 빅 데이터 활용을 위한 요소와 활용분야
가. 빅 데이터 활용을 위한 요소
요소 |
설 명 |
자원 |
•빅 데이터를 위한 자원확보, 품질관리를 위한 자원확보
•기업의 내부, 외부 빅데이터 자원을 수집하는 전략 필요 |
기술 |
•빅데이터 인프라, 플랫폼, 분석기술
•Hadoop, NoSQL
•자연어처리, 의미분석, 데이터마이닝 |
인력 |
•데이터 사이언티스트
•수학, 공학적인 능력과 경제학, 통계학, 심리학 등에 능통한 인재가 필요 |
나. 빅 데이터 활용 분야
구분 |
활용분야 |
설명 |
효율적인 의사결정 |
• 선제적 의사결정
• 위기 관리
• 마케팅 적용 |
•과거의 시계열적인 정보에 따른 결정이 아닌 미래의 예측 기반 선제적 의사결정
• 기업 내/외부의 위기예측 및 대응
• 빅 데이터 분석을 통한 기업 마케팅의 적시성 확보 |
혁신적인 서비스 |
• 신규 서비스 창출
• 기술혁신 및 문제 해결
• 공공 데이터의 활용 |
• 예측을 통한 고객욕구 파악과 신규 서비스 창출
• 해결되지 않는 전문분야 문제 해결
• 재난전조 감지, 맞춤형 복지 실현, 과학기술/의료선진화 |
진정한 개인화 서비스 제공 |
• 고객 맞춤형 서비스 |
• 고객의 개인화 맞춤형 서비스 제공
• 새로운 고객서비스 채널 및 정보원천으로 활용 |
4. 빅데이터 분석과 기존 경영정보 분석의 차이점
가. 데이터 측면에서 차이점
- 기존의 경영정보 분석은 일정한 양식에 따라 정제된 데이터를 주로 취급
- 웹사이트의 방문기록, 소셜미디어의 소통정보를 망라한 빅데이터는 양식이 제각기 다르고 구조화된 수준도 낮음
- 빅데이터 분석은 구조화 수준이 낮고 매우 방대한 데이터를 다루므로 진보된 분산처리 기술과 통계적 기법이 필요
나. 데이터 인프라 측면에서 차이점
구분 |
빅데이터 분석 |
기존 경영정보 분석 |
인프라 형태 |
리소스 풀 |
독립 인프라 |
아키텍처 |
확장성(분산 병렬 프로세싱 및 인메모리(in-memory) 스토리지와 연계 |
최적화 |
딜리버리 모델 |
하이브리드(클라우드 버스팅 기능 포함) 및 어플라이언스의 일반적인 사용 |
온-프레미스(on-premise) |
- 빅데이터 분석 인프라는 데이터 구조가 단순하며 대용량의 데이터 처리하는데 목적을 가지고 있음
다. 데이터 분석 절차 측면에서 차이점
절차 |
빅데이터 분석 |
기존 경영정보 분석 |
추출 |
Crawler, Havister |
ODS, EII, ETL |
저장 |
Map&Reduce, De-dup |
RDBMS, OODBMS |
분석 |
감성분석, 비정형데이터분석, 텍스트마이닝, 오피니언마이닝 |
OLAP, 데이터마이닝 |
보고 |
e-Discovery, Forensic |
Dashboard, BAM |
라. 데이터 분석 형태 측면에서 차이점
구분 |
빅데이터 분석 |
기존 경영정보 분석 |
데이터 세트 |
포괄적이고 반복적임 |
사정 정의됨 |
데이터 속도 |
능동적이고 다이나믹함 (실시간의 경우) |
배치 |
데이터 분석 |
예측 및 최적화 |
주로 과거분석 |
- 빅데이터 분석은 기존 경영분석과 달리 미래의 예측과 최적화하는데 목적을 가지고 있음
5. 빅데이터 분석의 활용효과
가. 빅데이터 활용 절차
- 기업은 빅데이터의 분석을 통해 경쟁환경을 이해하고 효과적으로 전략을 실행할 수 있는 기반 강화
나. 각 절차별 활용 효과
구분 |
절차 |
활용효과 |
경쟁환경의 이해 |
소셜 네트워크 구조, 정보전달 패턴 파악 à TI, SNA, Text 분석 |
- 소셜 미디어에 나타나는 정보의 경로를 분석하면 잠재적인 소비자군과 이들이 소속되어 있는 다양한 커뮤니티 구조를 파악하는 것이 가능 |
사건 징후 및 전개과정 감지 à 검색, Buzz 모니터링 |
- 검색엔진이 제공하는 통계와 소셜미디어에 노출되는 메시지 등을 이용하여 중요한 사건에 대한 징후와 경과를 파악 | |
경영자 직관의 합리적 검증과 보완 à 신경회로망, 다중지성 |
- 의사 결정과정에 투영되는 경영자의 직관을 데이터를 이용해 객관적으로 검증함으로써 의사결정의 정확성을 제고 | |
효과적인 전략 실행 |
전략실행 효과 최적화 à 예측모형과 시나리오 |
- 빅데이터의 수집 및 분석을 체계화하여 현황 파악에 걸리는 시간을 단축하고 전략실행 효과의 예측모형과 시나리오를 도출 |
소비자와 공동 가치 창출 à 다방향 가치 창출 |
- 소비자가 소셜미디어와 검색활동 제품 사용을 통해 유발한 정보를 기업경영 활동에 반영함으로써 새로운 가치 창출의 접점으로 활용 |
6. 실무에서 빅데이터 분석과 활용 시 고려사항
- 기업과 관련된 빅데이터가 잠재적 가치가 높은 자산임을 인식하고, 이를 체계적으로 수집 활동
- 빅데이터 분석에 필요한 종합적인 역량을 배양하는데 주력
- 오픈소스 활용으로 데이터 분석 비용 절감 및 품질 보장 확보 필요.
'++ETC > Study' 카테고리의 다른 글
안드로이드 역사 / 업데이트중.... (0) | 2014.09.17 |
---|---|
토르마린 / 10월의 탄생석 / 전기석 (0) | 2014.09.14 |
마인드맵 프로그램 / 팅크와이즈(ThinkWise), 알마인드(AlMind) (0) | 2014.04.28 |
140414/140519-회원 저장 / mysql 회원가입, 기존 가입아이디 비교, 패스워드비교 (0) | 2014.04.14 |
[작성중...][DB프로그래밍] Oracle / 오승* 레포트 / DDL, DML, SQL Query작성등. / PRIMARY KEY(기본키), Foreign Key(외래키), join, group by (0) | 2013.06.19 |