Mais conteúdo relacionado
Semelhante a トレジャーデータのバッチクエリとアドホッククエリを理解する (20)
Mais de Takahiro Inoue (20)
トレジャーデータのバッチクエリとアドホッククエリを理解する
- 1. 1
トレジャーデータ株式会社
2014/09
Takahiro Inoue (Chief Data Scientist)
taka@treasure-data.com
トレジャーデータのバッチクエリと
アドホッククエリを理理解する
- 2. 21
Agenda
1. バッチクエリ(Hive) v.s. アドホッククエリ(Presto)
2. バッチクエリ型のアーキテクチャ
2-1. バッチクエリ × Metric Insights
2-2. バッチクエリ × Tableau Server
2-3. バッチクエリ × Redshift × Tableau Desktop/Server
2-4 (a). バッチクエリ × DMP
2-4 (b). バッチクエリ × DMP × DSP
3. アドホッククエリ型のアーキテクチャ
3-1. アドホッククエリ × Chartio
3-2. アドホッククエリ × Tableau Desktop
3-3. アドホッククエリ × DMP
- 4. 4
Treasure Data Service 概要図
クエリ結果
⾃自動書込
Result Output
データ収集
データ保管データ分析
ストレージ
Flexible, Scalable,
Columnar Storage
Webログ
Appログ
センサー
RDBMS
CRM
ERP
ストリーミング
ログコレクター
Treasure Agent
並列列バルク
アップローダー
TD Toolbelt
バッチ
型分析
アドホック
型分析
データ集計
データ可視化・共有
KPI
Metric Insights, etc.
分析ツール連携
Tableau,
Motion Board(予定) etc.
他製品連携
SQL, Pig
RDBMS, Google Docs,
AWS S3, FTP Server,
etc.
POS
分析エンジン
Hadoop, Treasure Query Accelerator
データ抽出
REST API
ODBC/JDBC
(SQL, Pig)
- 5. 5
Treasure Data Service 概要図
クエリ結果
⾃自動書込
Result Output
データ収集
データ保管データ分析
ストレージ
Flexible, Scalable,
Columnar Storage
Webログ
Appログ
センサー
RDBMS
CRM
ERP
ストリーミング
ログコレクター
Treasure Agent
並列列バルク
アップローダー
TD Toolbelt
バッチ
型分析
アドホック
型分析
データ集計
データ可視化・共有
KPI
Metric Insights, etc.
分析ツール連携
Tableau,
Motion Board(予定) etc.
他製品連携
SQL, Pig
RDBMS, Google Docs,
AWS S3, FTP Server,
etc.
POS
分析エンジン
Hadoop, Treasure Query Accelerator
データ抽出
REST API
ODBC/JDBC
(SQL, Pig)
- 6. 6
バッチ型 × アドホック型
バッチ型クエリ(Hive) アドホック型クエリ(Presto)
言語 • HiveQL (SQL Like) • Prestgres (SQL Like)
ケース • 大規模な中間処理データを受渡が生
じる並列処理に対して
• 大規模なインプットでも,中間処理・結果
データが小さくて済む並列処理に対して
計算モデル • Map Reduce • MPP (Massively Parallel Processor)
業務領域 • KPIダッシュボード
• 定型レポーティング
• インタラクティブなデータ処理
• 特定のユーザーの履歴抽出などのサポー
ティング業務
相性の良い
可視化ツール
• Metric Insights
• Tableau Server
• Chartio
• Tableau Desktop
トレジャー
料金プラン • Basic Plan • Premium Plan
- 14. 14
トレジャーで可能な分析アーキテクチャ
Webログ
Appログ
センサー
スマフォ
Appログ
RDBMS
CRM
ERP
POS
小さい
CSV/TSV
Inside DB
Direct
Data mart
CSV / TSV
Raw SQL
KPI
BIツール等
BIツール等
統計ツール等
ブラウザ
SQ
L
データマート
CSV / TSV
Metric Insights
etc
Tableau,
MotionBoard
SAS, SPSS,
R etc…
全件データ
データマート
バッチ
バッチ
アドホック
アドホック
JDBC/
ODBC
REST API
JDBC/
ODBC
REST API
バッチ
バッチ
Treasure
Agent
iOS /Android
SDK
TD Toolbelt
Web
Browser
Streaming
Mobile
Legacy
Trial
Power BI,
Excel,
QlikView
データ収集 データ保管 データ分析
- 16. Webログ
Appログ
センサー
スマフォ
Appログ
RDBMS
CRM
ERP
POS
小さい
CSV/TSV
KPI Inside DB
Metric Insights
etc
全件データ
バッチ JDBC/
ODBC
REST API
Treasure
Agent
iOS /Android
SDK
TD Toolbelt
Web
Browser
Streaming
Mobile
Legacy
Trial
データ収集 データ保管 データ分析
16
2-‐‑‒1. バッチクエリ × Metric Insights
- 18. 18
2-‐‑‒2. バッチクエリ × Tableau Server
Webログ
Appログ
センサー
スマフォ
Appログ
RDBMS
CRM
ERP
POS
小さい
CSV/TSV
c
Direct
Tableau
Server
全件データ
バッチ
Result Push
Treasure
Agent
iOS /Android
SDK
TD Toolbelt
Web
Browser
Streaming
Mobile
Legacy
Trial
データ収集 データ保管 データ分析
Tableau Server 上の
ソースデータを更更新
- 19. 19
2-‐‑‒3. バッチクエリ × Redshift
× Tableau Server/Desktop
Webログ
Appログ
センサー
スマフォ
Appログ
RDBMS
CRM
ERP
POS
小さい
CSV/TSV
Treasure
Agent
iOS /Android
SDK
TD Toolbelt
Web
Browser
Streaming
Mobile
Legacy
Trial
データ収集 データ保管 データ分析
データマート BIツール等 Data mart 全件データ
バッチ
Redshift
- 20. 20
2-‐‑‒4(a). バッチクエリ × DMP
データ収集 データ保管 データ分析
全件データ
バッチ
Segment
DB
ユーザーの行動履歴ログ
でセグメントDBを更更新
ログインログ
課⾦金金ログ
招待ログ
ユーザー
Data Mart
⾏行行動
ユーザーの
セグメント情報
- 21. 21
2-‐‑‒4(b). バッチクエリ × DMP × DSP
データ収集 データ保管 データ分析
全件データ
バッチ
Segment
DB
ユーザーの行動履歴ログ
でセグメントDBを更更新
ログインログ
課⾦金金ログ
招待ログ
DSP
ユーザー
KV Store
広告配信
⾏行行動
ユーザーの
セグメント情報
- 23. 23
3. アドホッククエリ × データマート
(データマートをどこに置くかの違い)
Webログ
Appログ
センサー
スマフォ
Appログ
RDBMS
CRM
ERP
POS
小さい
CSV/TSV
Treasure
Agent
iOS /Android
SDK
TD Toolbelt
Web
Browser
Streaming
Mobile
Legacy
Trial
データ収集 データ保管 データ分析
Direct
Data mart
BIツール等
データマート BIツール等
Tableau,
Chartio
全件データ
バッチ データマート アドホック
JDBC/
ODBC
REST API
バッチ
Redshift
× Tableau
アドホック
- 24. 24
3-‐‑‒1. アドホッククエリ × Chartio
Webログ
Appログ
センサー
スマフォ
Appログ
RDBMS
CRM
ERP
POS
小さい
CSV/TSV
Treasure
Agent
iOS /Android
SDK
TD Toolbelt
Web
Browser
Streaming
Mobile
Legacy
Trial
データ収集 データ保管 データ分析
BIツール等 Direct
Chartio
全件データ
バッチ データマート アドホック
JDBC/
ODBC
REST API
アドホック
- 26. 26
3-‐‑‒2. アドホッククエリ × Tableau Desktop
Webログ
Appログ
センサー
スマフォ
Appログ
RDBMS
CRM
ERP
POS
小さい
CSV/TSV
Treasure
Agent
iOS /Android
SDK
TD Toolbelt
Web
Browser
Streaming
Mobile
Legacy
Trial
データ収集 データ保管 データ分析
BIツール等 Direct
Tableau
全件データ
バッチ データマート アドホック
JDBC/
ODBC
REST API
アドホック
- 28. 28
3-‐‑‒3. アドホッククエリ × DMP
データ収集 データ保管 データ分析
ユーザーの行動履歴ログで
セグメントテーブルを更更新
バッチ
全件データ
ログインログ
課⾦金金ログ
招待ログ
ユーザー
⾏行行動
Segment Table
アドホック