3. Why
Now?
¨ Google
¨ Facebook
NoSQL
웹 서비스 비즈의 성장
¨ Yahoo
기술 공개 ,
빠른 기술 진화
¨ LinkedIn
데이터 처리 비용 상대적으로 낮아짐
¨ Twi7er
Cost
<
Value
Connected
Everything
– Smartphone
– LTE
데이터의 폭발적인 증가
멀티미디어
– Sensor
Networks
실시간 데이터
– …
…
4. Legacy
Technologies
.vs.
Big
Data
Technologies
• Single
Machine
• MulYple
Machines
– MulY-‐core
(>
16
cores)
– Commodity
H/W,
N/W
– Scale-‐up
– Scale-‐out
– High
Price
H/W,
S/W
– Low
Cost
H/W
– SAN
Storage
– Distributed
FS
• MS
Windows,
AIX,
HP-‐UX
• Linux
• Commercial
SoluYons
• Open
Source
• IBM,
Oracle,
Microsoa
• Google,
Yahoo!,
Facebook,
Twi7er,
LinkedIn
• RDBMS
• NoSQL
• TeraData,
Exadata,NeYzza
• Hadoop
• SAS,
SPSS
• R
5. Legacy
Data
Pla&orm
시스템 확장
고가의 하이엔드 싱글서버 서버, 네트워크장비 비용은 몇배로 발생
SAN 스토리지 시스템 아키텍쳐 & 데이터 구조 변경이 불가피
상용 데이터베이스, 마이닝 솔루션 매우 고가 처리할 수 있는 데이터 처리에 한계가 발생
데이터 수집
데이터 처리
데이터 분석
데이터 제공
ETL Process
데이터 마이닝 Data Warehouse OLAP Service
(IBM DataStage)
(SAS) (TeraData) Tools Server
SQL, PL/SQL
FTP
SFTP
Rsync
RDBMS (Oracle, DB2, MSSQL …)
Local FS SAN Storage Local FS
7. Big
Data
Pla&orm
• 대용량 데이터 저장과 대용량 데이터 분석 시스템에는 Hadoop 및 오픈소스기반의 NoSQL, R을 적극 활용
• 최종 분석 결과 제공을 위한 OLTP 기반 리포트 시스템 / 서비스 데이터들은 기존의 기술을 적극 활용
• Hadoop 및 오픈소스 기반의 시스템들은 저가의 범용서버 및 네트워크스위치를 활용해서 클러스터를 구성
데이터 수집
데이터 처리
데이터 분석
데이터 제공
OLAP
FTP ETL Process 데이터 마이닝 Data Warehouse Service
Pig & Script Lanugage Mahout, R Tools
SFTP Hive, R Server
(R)
Rsync
NoSQL
Data
Log Aggregator MapReduce Framework Warehouse
(Mong
(Flume) oDB)
Real-time
Stream & Event
NoSQL RDBMS
Processor (Hbase, Cassandra) (Oracle, MySQL)
SAN
Local FS Distributed File System Storage
Local FS
9. ‘12년 국내 빅데이터 시장은?
• DB,
DW
벤더중심의 마케팅으로 왜곡
– 기존 DW,
데이터 마이닝과 무슨 차이?
• 빅데이터가 있기는 한건가?
– 주로 소셜미디어 (주로 트위터) 분석 시장
• SmartInsight,
Seenal,
TrueStory,PulseK,
tweetTrend
…
– 게임회사,
포털서비스, 서비스회사,
Telco
• 2-‐3년 전부터 기술을 도입하여 활용중
‘12년 하반기되면 거품이 빠질 듯 …
10. 그러다보니 …
• ‘11년부터 분산 컴퓨팅 환경에서의 데이터 프로세싱 영역에는
빅데이터 기술들을 적극 도입하고 활용
– 퍼스널 클라우드의 확대로 저가의 분산 스토리지에 대한 개발과
적용은 활발
– 대용량 데이터 저장과 프로세싱을 위한 NoSQL에 대한 활용이 크
게 늘고 있음
• 데이터 분석 분야에서 특히 분산 컴퓨팅 환경에서의 대용량 마
이닝 알고리즘이나 분석 기법은 제한적으로 활용되고 있음
– 이 영역이 외국계 업체들의 컨설팅, 솔루션 비지니스시에 강점으
로 내세울 것임
– 데이터가 없으니 당연히 국내에서는 이 영역에서 두각을 나타내
는 업체 없음. 소셜분석이 뜨는 이유는 트위터데이터만이 활용할
수 있는 공개된 빅데이터(?) 라 할 수 있기 때문에
11. Big
data
is
not
bubble!!!
Financial
2-‐3년 이내에 각 산업계, 학계의 다양한 Services
Healthcare
도메인별로 해외의 성공사례들이 나오
게되면 비싼 컨설팅 비용과 솔루션 비 Media
and
용이 발생하고 기술 및 역량을 내재화 Manufacturing
Entertainment
하는 시기마저 놓칠수도
Natural
Retail
Resources
전 산업분야에 걸쳐서 빅데이
TransportaYons
UYliYes
터 기술을 이용한 응용들이 크
게 늘어나게 될 것이며 이를
뒷받침하는 하드웨어, 네트워 Government
Cloud
크, 분산 알고리즘 연구, 분석
도구 시장 역시 함께 성장하게 Science
될 것이다.
클라우드 컴퓨팅이 거품이 아니었듯이
12. 빅데이터는 있다. 하지만 …
어떤 가치를 찾을 수 있지?
• 당장 분석할 충분한 데이터를 갖추고(저장하고) 있지않다.
• 그래도 일단 데이터를 수집하고 바로 시작해야 한다.
• 다양한 분석과 데이터로부터 가치를 찾는 일을 시작해야 한다.
닭과 달걀의 문제
즉 ROI
의 문제!!!
내재화가 필요하다
13. 빅데이터를 위한 기술 역량
• 추천 로직 기획,
광고 플랫폼
• Financial
&
Stock
Market
• VisualizaYon
도메인 전문가
• Health
Care
• Infograph
• BioInfomaYcs
• Power
Management
• IR
&
RecSys
Data
ScienYst
• 통계 & 데이터 탐색
• 데이터 마이닝 & 기계학습
• OLAP
Tools
데이터 분석가
• 데이터 분석
• SAS,
SPSS,R,Weka
• 리포팅
• 데이터 시각화
• SQL
• RDBMS
• ETL
• 데이터 수집
• Script
Language
• 마이닝 알고리즘 &
ML 구현
• Pig,
Hive
소프트웨어 개발자
• 데이터 처리 엔진 구현
• MapReduce
DevOps
• 데이터 저장소 최적화
• 분산 알고리즘 구현
• Log
Aggregator
• NoSQL
• Hadoop
• 운영 체계 최적화
• Linux
시스템 엔지니어
• 컴퓨팅
H/W,
N/W
최적화
• X86
• Network