O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
Presented by Yuki Asano
on June 25, 2014
“I keep saying that the sexy job
in the next 10 years will be
statisticians.
And I’m not kidding.”
Chief Economist Hal Var...
Harvard Business Review Magazine
Data Scientist:
The Sexiest Job of the 21st Century
 
by Thomas H. Davenport and D.J. Pat...
SEXY
で
最強
Data Science
まずはここから
‣ Data Mining
‣ Analyze
‣ Optimize
Data Science
で、ビジネスにコミット!
‣ Data Mining
‣ Analytics
‣ Marketing
Data Science
With
Big Data
Big Data!!
‣ Data is King!!
‣ many OSS technologies
‣ Decision Making Support
‣ Peak of Inflated Expectation
at Hype Cycle
State of Big Data
‣ 市場に技術者がまだまだ不足
‣ 旧弊的な考え、文化的な問題
‣ データ指向ソフトウェア管理の定着
の難しさ
DIKW Pyramid
KNOWLEDGE
INFORMATION
DATA
WISDOM
知識からある法則を見出したもの
情報が分析され体系化されたもの
データが整理されたもの
個々に独立した要素
DIKW Pyramid
KNOWLEDGE
INFORMATION
DATA
WISDOM
知識からある法則を見出したもの
情報が分析され体系化されたもの
データが整理されたもの
個々に独立した要素
Data-Driven
Decision ...
Big Data??
‣ 母集団が多く多種特性のデータに対して効
果が認められている
‣ 有用な情報を見つけ出せる技術だが、見つ
からないかもしれない
‣ 何ができるか明確でない、ビジネスにコミッ
トする量を計ることが難しい
‣ 社内にあるデー...
Big Data…
まずは堅実に、
 できることから始める
Integrated
Data
Management
Objectives
‣ Real-time Activity Monitor
‣ Improve Application Quality
‣ Analytic Data Supply
Objectives
Real-time Monitor
Improve Application Analytic Data Supply
‣異常検知
‣即時対応
‣業務精度向上
‣アドバンストログ
‣顧客動向統計データ
‣ステータス傾向認知
...
Big Data
を支える技術
Hadoop Ecosystem
Framework Data Storage
Query /
Data flow
Realtime
• MapRed v1
• YARN
• Apache Spark
• HDFS
• HBase
• Cassa...
Hadoop Ecosystem
HDFS
YARN
HBase
PigHive
Monitoring / BI Tools / Data Analytics
Spark
Storm
Map Reduce
Script
DataQuality
Objectives
Hadoop
Hadoop is …
‣ OSS (Apache License 2.0)
‣ Map Reduce (v1/v2 on YARN)
‣ Hadoop Distributed File System
(HDFS)
Hadoop Cluster
Master
Namenode
Slave
Slave
Slave
Slave
JobTracker
Datanode TaskTracker
• Random mapping
• Slave control
HD...
Database
Database
Analytic
Big Tables
(Columnar)
Key-Value Document NewSQL RDBMS
Non-Rel
Relational
Non-Rel Relational
Hadoop HBase...
Database
Analytic
Big Tables
(Columnar)
Key-Value Document NewSQL RDBMS
Non-Rel
Relational
Non-Rel Relational
Hadoop HBase...
Data Stream
Management System
DBMS vs DSMS
DBMS DSMS
Query Ad Hoc Query Continuous Query
Target Stored Data Stream Data
App
• Web Application
• Batch Pr...
Continuous Query
Ad Hoc Query
SELECT avg_age FROM user
WHERE SUBDATE(
NOW(), INTERVAL 5 MINUTE
) >= datetime
Continuous Qu...
Data Collect
‣ データを産む
‣ 収集する
‣ 最適化・保存する
‣ 可視化する
Data Collect
‣ データを産む
‣ 収集する
‣ 最適化・保存する
‣ 可視化する
Data Collect
統合ログ管理にお任せ!!
アプリのログ設計を強く推奨。
使えるものは何でもログに吐く!
fluentd
‣ 多様なデータインプット方法
‣ 本体は設定のみ超シンプル設計
‣ 有用なプラグイン多数
‣ プラグイン開発可能
View
Batch Layer
Speed Layer
Serving Layer
Merge
Collect Data
‣All raw data store
‣Pre-Compute
‣Transformed Data
‣Batch Tr...
View
Batch Layer
Speed Layer
Lambda Architecture
Serving Layer
Collect Data
Merge
Architecture
Client
FMS
fluentd
WEB
fluentd
Other
fluentd
HDFS
ElasticSearch
mongoDB
fluentd
R
HiveQL
Kibana
Nginx
Norikra
(Es...
Demo
Question
Thank you
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
ビッグデータエコシステムとデータサイエンスのススメ
Próximos SlideShares
Carregando em…5
×

ビッグデータエコシステムとデータサイエンスのススメ

800 visualizações

Publicada em

Bigdata, Data science, Hadoop, HBase, mongoDB, Hive, Drill, Impala, R, D3, Lambda Architecture, Data Stream Management System, CEP, fluentd, logstash, flume, Norikra, Esper, Strom, Spark, ElasticSearch, Kibana

Publicada em: Tecnologia
  • Entre para ver os comentários

ビッグデータエコシステムとデータサイエンスのススメ

  1. 1. Presented by Yuki Asano on June 25, 2014
  2. 2. “I keep saying that the sexy job in the next 10 years will be statisticians. And I’m not kidding.” Chief Economist Hal Varian(Google)
  3. 3. Harvard Business Review Magazine Data Scientist: The Sexiest Job of the 21st Century   by Thomas H. Davenport and D.J. Patil.
  4. 4. SEXY で 最強
  5. 5. Data Science
  6. 6. まずはここから
  7. 7. ‣ Data Mining ‣ Analyze ‣ Optimize Data Science で、ビジネスにコミット!
  8. 8. ‣ Data Mining ‣ Analytics ‣ Marketing Data Science With Big Data
  9. 9. Big Data!! ‣ Data is King!! ‣ many OSS technologies ‣ Decision Making Support ‣ Peak of Inflated Expectation at Hype Cycle
  10. 10. State of Big Data ‣ 市場に技術者がまだまだ不足 ‣ 旧弊的な考え、文化的な問題 ‣ データ指向ソフトウェア管理の定着 の難しさ
  11. 11. DIKW Pyramid KNOWLEDGE INFORMATION DATA WISDOM 知識からある法則を見出したもの 情報が分析され体系化されたもの データが整理されたもの 個々に独立した要素
  12. 12. DIKW Pyramid KNOWLEDGE INFORMATION DATA WISDOM 知識からある法則を見出したもの 情報が分析され体系化されたもの データが整理されたもの 個々に独立した要素 Data-Driven Decision Making!!
  13. 13. Big Data?? ‣ 母集団が多く多種特性のデータに対して効 果が認められている ‣ 有用な情報を見つけ出せる技術だが、見つ からないかもしれない ‣ 何ができるか明確でない、ビジネスにコミッ トする量を計ることが難しい ‣ 社内にあるデータがビッグじゃない
  14. 14. Big Data… まずは堅実に、  できることから始める
  15. 15. Integrated Data Management
  16. 16. Objectives ‣ Real-time Activity Monitor ‣ Improve Application Quality ‣ Analytic Data Supply
  17. 17. Objectives Real-time Monitor Improve Application Analytic Data Supply ‣異常検知 ‣即時対応 ‣業務精度向上 ‣アドバンストログ ‣顧客動向統計データ ‣ステータス傾向認知 ‣ユーザーアクション傾 向認知
  18. 18. Big Data を支える技術
  19. 19. Hadoop Ecosystem Framework Data Storage Query / Data flow Realtime • MapRed v1 • YARN • Apache Spark • HDFS • HBase • Cassandra • Amazon S3 • mongoDB • Hive • Pig • Impala • Drill • Presto • Stinger • Apache Storm • Apache Spark • Esper • Norikra
  20. 20. Hadoop Ecosystem HDFS YARN HBase PigHive Monitoring / BI Tools / Data Analytics Spark Storm Map Reduce Script DataQuality
  21. 21. Objectives Hadoop
  22. 22. Hadoop is … ‣ OSS (Apache License 2.0) ‣ Map Reduce (v1/v2 on YARN) ‣ Hadoop Distributed File System (HDFS)
  23. 23. Hadoop Cluster Master Namenode Slave Slave Slave Slave JobTracker Datanode TaskTracker • Random mapping • Slave control HDFS MapReducePhysical • Storage manage • I/O stream • Task schedule manage • Task monitor • Execute task • Map and Reduce
  24. 24. Database
  25. 25. Database Analytic Big Tables (Columnar) Key-Value Document NewSQL RDBMS Non-Rel Relational Non-Rel Relational Hadoop HBase Redis mongoDB Amazon RDB MySQL DB2 HyperTable Couchbase MySQL Cluster Oracle Sybase Cassandra Lotus Notes SQL Azure PostgreSQL One size does not fit all
  26. 26. Database Analytic Big Tables (Columnar) Key-Value Document NewSQL RDBMS Non-Rel Relational Non-Rel Relational Hadoop HBase Redis mongoDB Amazon RDB MySQL DB2 HyperTable Couchbase MySQL Cluster Oracle Sybase Cassandra Lotus Notes SQL Azure PostgreSQL One size does not fit all
  27. 27. Data Stream Management System
  28. 28. DBMS vs DSMS DBMS DSMS Query Ad Hoc Query Continuous Query Target Stored Data Stream Data App • Web Application • Batch Processing • Operation & Maintenance • Anomaly Event Detection • Click Stream • Sensor Data Software ISO SQL Lucene Esper S4 PL/SQL HiveQL Storm Oracle CQL Impala Pig Spark StreamBase
  29. 29. Continuous Query Ad Hoc Query SELECT avg_age FROM user WHERE SUBDATE( NOW(), INTERVAL 5 MINUTE ) >= datetime Continuous Query SELECT avg_age FROM user:time_batch(5 mins) Stored Data Result 5min window Complex Event Processing User Stream Data Result
  30. 30. Data Collect
  31. 31. ‣ データを産む ‣ 収集する ‣ 最適化・保存する ‣ 可視化する Data Collect
  32. 32. ‣ データを産む ‣ 収集する ‣ 最適化・保存する ‣ 可視化する Data Collect 統合ログ管理にお任せ!! アプリのログ設計を強く推奨。 使えるものは何でもログに吐く!
  33. 33. fluentd ‣ 多様なデータインプット方法 ‣ 本体は設定のみ超シンプル設計 ‣ 有用なプラグイン多数 ‣ プラグイン開発可能
  34. 34. View Batch Layer Speed Layer Serving Layer Merge Collect Data ‣All raw data store ‣Pre-Compute ‣Transformed Data ‣Batch Transform ‣Ad-hoc search ‣Realtime Transform ‣Continuous Query ‣Real-time Increment Compute ‣DSMS, CEP ‣Query ‣Visualize‣Data From Apps Lambda Architecture
  35. 35. View Batch Layer Speed Layer Lambda Architecture Serving Layer Collect Data Merge
  36. 36. Architecture Client FMS fluentd WEB fluentd Other fluentd HDFS ElasticSearch mongoDB fluentd R HiveQL Kibana Nginx Norikra (Esper) Aggregate Save ViewForwardCreate
  37. 37. Demo
  38. 38. Question
  39. 39. Thank you

×