SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
1 
トレジャーデータ株式会社 
2014/09 
Takahiro Inoue (Chief Data Scientist) 
taka@treasure-data.com 
トレジャーデータのバッチクエリと 
アドホッククエリを理理解する
21 
Agenda 
1. バッチクエリ(Hive) v.s. アドホッククエリ(Presto) 
2. バッチクエリ型のアーキテクチャ 
2-1. バッチクエリ × Metric Insights 
2-2. バッチクエリ × Tableau Server 
2-3. バッチクエリ × Redshift × Tableau Desktop/Server 
2-4 (a). バッチクエリ × DMP 
2-4 (b). バッチクエリ × DMP × DSP 
3. アドホッククエリ型のアーキテクチャ 
3-1. アドホッククエリ × Chartio 
3-2. アドホッククエリ × Tableau Desktop 
3-3. アドホッククエリ × DMP
3 
1. バッチクエリ × アドホッククエリ
4 
Treasure Data Service 概要図 
クエリ結果 
⾃自動書込 
Result Output 
データ収集 
データ保管データ分析 
ストレージ 
Flexible, Scalable, 
Columnar Storage 
Webログ 
Appログ 
センサー 
RDBMS 
CRM 
ERP 
ストリーミング 
ログコレクター 
Treasure Agent 
並列列バルク 
アップローダー 
TD Toolbelt 
バッチ 
型分析 
アドホック 
型分析 
データ集計 
データ可視化・共有 
KPI 
Metric Insights, etc. 
分析ツール連携 
Tableau, 
Motion Board(予定) etc. 
他製品連携 
SQL, Pig 
RDBMS, Google Docs, 
AWS S3, FTP Server, 
etc. 
POS 
分析エンジン 
Hadoop, Treasure Query Accelerator 
データ抽出 
REST API 
ODBC/JDBC 
(SQL, Pig)
5 
Treasure Data Service 概要図 
クエリ結果 
⾃自動書込 
Result Output 
データ収集 
データ保管データ分析 
ストレージ 
Flexible, Scalable, 
Columnar Storage 
Webログ 
Appログ 
センサー 
RDBMS 
CRM 
ERP 
ストリーミング 
ログコレクター 
Treasure Agent 
並列列バルク 
アップローダー 
TD Toolbelt 
バッチ 
型分析 
アドホック 
型分析 
データ集計 
データ可視化・共有 
KPI 
Metric Insights, etc. 
分析ツール連携 
Tableau, 
Motion Board(予定) etc. 
他製品連携 
SQL, Pig 
RDBMS, Google Docs, 
AWS S3, FTP Server, 
etc. 
POS 
分析エンジン 
Hadoop, Treasure Query Accelerator 
データ抽出 
REST API 
ODBC/JDBC 
(SQL, Pig)
6 
バッチ型 × アドホック型 
バッチ型クエリ(Hive) アドホック型クエリ(Presto) 
言語 • HiveQL (SQL Like) • Prestgres (SQL Like) 
ケース • 大規模な中間処理データを受渡が生 
じる並列処理に対して 
• 大規模なインプットでも,中間処理・結果 
データが小さくて済む並列処理に対して 
計算モデル • Map Reduce • MPP (Massively Parallel Processor) 
業務領域 • KPIダッシュボード 
• 定型レポーティング 
• インタラクティブなデータ処理 
• 特定のユーザーの履歴抽出などのサポー 
ティング業務 
相性の良い 
 可視化ツール 
• Metric Insights 
• Tableau Server 
• Chartio 
• Tableau Desktop 
トレジャー 
 料金プラン • Basic Plan • Premium Plan
7 
計算モデルで⾒見見るクエリエンジンの違い
8 
分析スキームで⾒見見るクエリエンジンの違い 
(分析のPDCAに必要な2つの分析エンジンを両⽅方とも提供) 
Plan 
(施策設計) 
Check 
(効果測定) 
Do 
(施策実⾏行行) 
Act 
(原因探索索) 
バッチ型分析 
+ 
KPIダッシュボード 
・チューニング済Hadoop 
・⼤大量量データが得意 
KPI 
・定義済指標の最新データ表⽰示 
・メンバー全員で共有 
アドホック型分析 
+ 
BIツール / 統計ツール 
・Treasure Query Accelerator 
・⾮非常に⾼高速 
・任意の軸でアドホックに分析 
・原因の可視化
9 
管理理コンソールからのクエリ実⾏行行イメージ
10 
(a). バッチクエリ(Hive)の実⾏行行
11 
ノードの起動/ノード間のデータの受け渡し 
がどんな⼩小さい集計でも発⽣生する
12 
(b). アドホッククエリ(Presto)の実⾏行行
13 
アドホック型→MPPによる⾼高速レスポンスが可能
14 
トレジャーで可能な分析アーキテクチャ 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Inside DB 
Direct 
Data mart 
CSV / TSV 
Raw SQL 
KPI 
BIツール等 
BIツール等 
統計ツール等 
ブラウザ 
SQ 
L 
データマート 
CSV / TSV 
Metric Insights  
etc 
Tableau, 
MotionBoard 
SAS, SPSS,  
R etc… 
全件データ 
データマート 
バッチ 
バッチ 
アドホック 
アドホック 
JDBC/ 
ODBC 
REST API 
JDBC/ 
ODBC 
REST API 
バッチ 
バッチ 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
Power BI, 
Excel, 
QlikView 
データ収集 データ保管 データ分析
15 
2. バッチ型のアーキテクチャ
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
KPI Inside DB 
Metric Insights  
etc 
全件データ 
バッチ JDBC/ 
ODBC 
REST API 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
16 
2-‐‑‒1. バッチクエリ × Metric Insights
17 
2-‐‑‒1. バッチクエリ × Metric Insights
18 
2-‐‑‒2. バッチクエリ × Tableau Server 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
c 
Direct 
Tableau 
Server 
全件データ 
バッチ 
Result Push 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
Tableau Server 上の 
ソースデータを更更新
19 
2-‐‑‒3. バッチクエリ × Redshift 
× Tableau Server/Desktop 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
データマート BIツール等 Data mart 全件データ 
バッチ 
Redshift
20 
2-‐‑‒4(a). バッチクエリ × DMP 
データ収集 データ保管 データ分析 
全件データ 
バッチ 
Segment 
DB 
ユーザーの行動履歴ログ 
でセグメントDBを更更新 
ログインログ 
課⾦金金ログ 
招待ログ 
ユーザー 
Data Mart 
⾏行行動 
ユーザーの 
セグメント情報
21 
2-‐‑‒4(b). バッチクエリ × DMP × DSP 
データ収集 データ保管 データ分析 
全件データ 
バッチ 
Segment 
DB 
ユーザーの行動履歴ログ 
でセグメントDBを更更新 
ログインログ 
課⾦金金ログ 
招待ログ 
DSP 
ユーザー 
KV Store 
広告配信 
⾏行行動 
ユーザーの 
セグメント情報
22 
3. アドホック型のアーキテクチャ
23 
3. アドホッククエリ × データマート 
(データマートをどこに置くかの違い) 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
Direct 
Data mart 
BIツール等 
データマート BIツール等 
Tableau, 
Chartio 
全件データ 
バッチ データマート アドホック 
JDBC/ 
ODBC 
REST API 
バッチ 
Redshift 
× Tableau 
アドホック
24 
3-‐‑‒1. アドホッククエリ × Chartio 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
BIツール等 Direct 
Chartio 
全件データ 
バッチ データマート アドホック 
JDBC/ 
ODBC 
REST API 
アドホック
25 
3-‐‑‒1. アドホッククエリ × Chartio
26 
3-‐‑‒2. アドホッククエリ × Tableau Desktop 
Webログ 
Appログ 
センサー 
スマフォ 
Appログ 
RDBMS 
CRM 
ERP 
POS 
小さい 
CSV/TSV 
Treasure 
Agent 
iOS /Android 
SDK 
TD Toolbelt 
Web 
Browser 
Streaming 
Mobile 
Legacy 
Trial 
データ収集 データ保管 データ分析 
BIツール等 Direct 
Tableau 
全件データ 
バッチ データマート アドホック 
JDBC/ 
ODBC 
REST API 
アドホック
27 
3-‐‑‒2. アドホッククエリ × Tableau Desktop
28 
3-‐‑‒3. アドホッククエリ × DMP 
データ収集 データ保管 データ分析 
ユーザーの行動履歴ログで 
セグメントテーブルを更更新 
バッチ 
全件データ 
ログインログ 
課⾦金金ログ 
招待ログ 
ユーザー 
⾏行行動 
Segment Table 
アドホック

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Raft
RaftRaft
Raft
 
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
 
React + Amplifyで アプリ開発
React + Amplifyで アプリ開発React + Amplifyで アプリ開発
React + Amplifyで アプリ開発
 
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol BuffersApache Avro vs Protocol Buffers
Apache Avro vs Protocol Buffers
 
[Cloud OnAir] Bigtable に迫る!基本機能も含めユースケースまで丸ごと紹介 2018年8月30日 放送
[Cloud OnAir] Bigtable に迫る!基本機能も含めユースケースまで丸ごと紹介 2018年8月30日 放送[Cloud OnAir] Bigtable に迫る!基本機能も含めユースケースまで丸ごと紹介 2018年8月30日 放送
[Cloud OnAir] Bigtable に迫る!基本機能も含めユースケースまで丸ごと紹介 2018年8月30日 放送
 
RLSを用いたマルチテナント実装 for Django
RLSを用いたマルチテナント実装 for DjangoRLSを用いたマルチテナント実装 for Django
RLSを用いたマルチテナント実装 for Django
 
クエリビルダとEloquent ORM の違い
クエリビルダとEloquent ORM の違いクエリビルダとEloquent ORM の違い
クエリビルダとEloquent ORM の違い
 
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
 
Pokémon GOとGCP
Pokémon GOとGCPPokémon GOとGCP
Pokémon GOとGCP
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
 
Cloud runのオートスケールを検証してみる
Cloud runのオートスケールを検証してみるCloud runのオートスケールを検証してみる
Cloud runのオートスケールを検証してみる
 
実装して理解するLINE LoginとOpenID Connect入門
実装して理解するLINE LoginとOpenID Connect入門実装して理解するLINE LoginとOpenID Connect入門
実装して理解するLINE LoginとOpenID Connect入門
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
HashMapとは?
HashMapとは?HashMapとは?
HashMapとは?
 
3分でわかるAzureでのService Principal
3分でわかるAzureでのService Principal3分でわかるAzureでのService Principal
3分でわかるAzureでのService Principal
 
クララオンラインがNetskopeを選んだ理由
クララオンラインがNetskopeを選んだ理由クララオンラインがNetskopeを選んだ理由
クララオンラインがNetskopeを選んだ理由
 
ソーシャルゲームのためのデータベース設計
ソーシャルゲームのためのデータベース設計ソーシャルゲームのためのデータベース設計
ソーシャルゲームのためのデータベース設計
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
 
マルチテナントのアプリケーション実装〜実践編〜
マルチテナントのアプリケーション実装〜実践編〜マルチテナントのアプリケーション実装〜実践編〜
マルチテナントのアプリケーション実装〜実践編〜
 

Semelhante a トレジャーデータのバッチクエリとアドホッククエリを理解する

ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
 
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
Takahiro Inoue
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
de:code 2017
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
 
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!
Takahiro Inoue
 

Semelhante a トレジャーデータのバッチクエリとアドホッククエリを理解する (20)

トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
 
Hadoopカンファレンス2013
Hadoopカンファレンス2013Hadoopカンファレンス2013
Hadoopカンファレンス2013
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
 
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 ...
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例  by 株式会社日立製作所 ...[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例  by 株式会社日立製作所 ...
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 ...
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
 

Mais de Takahiro Inoue

Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
Takahiro Inoue
 
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
Takahiro Inoue
 
トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方
Takahiro Inoue
 
オンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータオンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータ
Takahiro Inoue
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
Takahiro Inoue
 
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
 
Hadoop and the Data Scientist
Hadoop and the Data ScientistHadoop and the Data Scientist
Hadoop and the Data Scientist
Takahiro Inoue
 
MongoDB: Intro & Application for Big Data
MongoDB: Intro & Application  for Big DataMongoDB: Intro & Application  for Big Data
MongoDB: Intro & Application for Big Data
Takahiro Inoue
 
An Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB PluginsAn Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB Plugins
Takahiro Inoue
 
An Introduction to Tinkerpop
An Introduction to TinkerpopAn Introduction to Tinkerpop
An Introduction to Tinkerpop
Takahiro Inoue
 
An Introduction to Neo4j
An Introduction to Neo4jAn Introduction to Neo4j
An Introduction to Neo4j
Takahiro Inoue
 
The Definition of GraphDB
The Definition of GraphDBThe Definition of GraphDB
The Definition of GraphDB
Takahiro Inoue
 
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing ModelMongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
Takahiro Inoue
 
MongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduceMongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduce
Takahiro Inoue
 

Mais de Takahiro Inoue (20)

Treasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC DemoTreasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC Demo
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
 
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
 
トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方
 
オンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータオンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータ
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
 
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
 
Hadoop and the Data Scientist
Hadoop and the Data ScientistHadoop and the Data Scientist
Hadoop and the Data Scientist
 
MongoDB: Intro & Application for Big Data
MongoDB: Intro & Application  for Big DataMongoDB: Intro & Application  for Big Data
MongoDB: Intro & Application for Big Data
 
An Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB PluginsAn Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB Plugins
 
An Introduction to Tinkerpop
An Introduction to TinkerpopAn Introduction to Tinkerpop
An Introduction to Tinkerpop
 
An Introduction to Neo4j
An Introduction to Neo4jAn Introduction to Neo4j
An Introduction to Neo4j
 
The Definition of GraphDB
The Definition of GraphDBThe Definition of GraphDB
The Definition of GraphDB
 
Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)
 
Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)
 
Advanced MongoDB #1
Advanced MongoDB #1Advanced MongoDB #1
Advanced MongoDB #1
 
はじめてのGlusterFS
はじめてのGlusterFSはじめてのGlusterFS
はじめてのGlusterFS
 
はじめてのMongoDB
はじめてのMongoDBはじめてのMongoDB
はじめてのMongoDB
 
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing ModelMongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
 
MongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduceMongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduce
 

トレジャーデータのバッチクエリとアドホッククエリを理解する

  • 1. 1 トレジャーデータ株式会社 2014/09 Takahiro Inoue (Chief Data Scientist) taka@treasure-data.com トレジャーデータのバッチクエリと アドホッククエリを理理解する
  • 2. 21 Agenda 1. バッチクエリ(Hive) v.s. アドホッククエリ(Presto) 2. バッチクエリ型のアーキテクチャ 2-1. バッチクエリ × Metric Insights 2-2. バッチクエリ × Tableau Server 2-3. バッチクエリ × Redshift × Tableau Desktop/Server 2-4 (a). バッチクエリ × DMP 2-4 (b). バッチクエリ × DMP × DSP 3. アドホッククエリ型のアーキテクチャ 3-1. アドホッククエリ × Chartio 3-2. アドホッククエリ × Tableau Desktop 3-3. アドホッククエリ × DMP
  • 3. 3 1. バッチクエリ × アドホッククエリ
  • 4. 4 Treasure Data Service 概要図 クエリ結果 ⾃自動書込 Result Output データ収集 データ保管データ分析 ストレージ Flexible, Scalable, Columnar Storage Webログ Appログ センサー RDBMS CRM ERP ストリーミング ログコレクター Treasure Agent 並列列バルク アップローダー TD Toolbelt バッチ 型分析 アドホック 型分析 データ集計 データ可視化・共有 KPI Metric Insights, etc. 分析ツール連携 Tableau, Motion Board(予定) etc. 他製品連携 SQL, Pig RDBMS, Google Docs, AWS S3, FTP Server, etc. POS 分析エンジン Hadoop, Treasure Query Accelerator データ抽出 REST API ODBC/JDBC (SQL, Pig)
  • 5. 5 Treasure Data Service 概要図 クエリ結果 ⾃自動書込 Result Output データ収集 データ保管データ分析 ストレージ Flexible, Scalable, Columnar Storage Webログ Appログ センサー RDBMS CRM ERP ストリーミング ログコレクター Treasure Agent 並列列バルク アップローダー TD Toolbelt バッチ 型分析 アドホック 型分析 データ集計 データ可視化・共有 KPI Metric Insights, etc. 分析ツール連携 Tableau, Motion Board(予定) etc. 他製品連携 SQL, Pig RDBMS, Google Docs, AWS S3, FTP Server, etc. POS 分析エンジン Hadoop, Treasure Query Accelerator データ抽出 REST API ODBC/JDBC (SQL, Pig)
  • 6. 6 バッチ型 × アドホック型 バッチ型クエリ(Hive) アドホック型クエリ(Presto) 言語 • HiveQL (SQL Like) • Prestgres (SQL Like) ケース • 大規模な中間処理データを受渡が生 じる並列処理に対して • 大規模なインプットでも,中間処理・結果 データが小さくて済む並列処理に対して 計算モデル • Map Reduce • MPP (Massively Parallel Processor) 業務領域 • KPIダッシュボード • 定型レポーティング • インタラクティブなデータ処理 • 特定のユーザーの履歴抽出などのサポー ティング業務 相性の良い  可視化ツール • Metric Insights • Tableau Server • Chartio • Tableau Desktop トレジャー  料金プラン • Basic Plan • Premium Plan
  • 8. 8 分析スキームで⾒見見るクエリエンジンの違い (分析のPDCAに必要な2つの分析エンジンを両⽅方とも提供) Plan (施策設計) Check (効果測定) Do (施策実⾏行行) Act (原因探索索) バッチ型分析 + KPIダッシュボード ・チューニング済Hadoop ・⼤大量量データが得意 KPI ・定義済指標の最新データ表⽰示 ・メンバー全員で共有 アドホック型分析 + BIツール / 統計ツール ・Treasure Query Accelerator ・⾮非常に⾼高速 ・任意の軸でアドホックに分析 ・原因の可視化
  • 14. 14 トレジャーで可能な分析アーキテクチャ Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Inside DB Direct Data mart CSV / TSV Raw SQL KPI BIツール等 BIツール等 統計ツール等 ブラウザ SQ L データマート CSV / TSV Metric Insights etc Tableau, MotionBoard SAS, SPSS, R etc… 全件データ データマート バッチ バッチ アドホック アドホック JDBC/ ODBC REST API JDBC/ ODBC REST API バッチ バッチ Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial Power BI, Excel, QlikView データ収集 データ保管 データ分析
  • 16. Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV KPI Inside DB Metric Insights etc 全件データ バッチ JDBC/ ODBC REST API Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 16 2-‐‑‒1. バッチクエリ × Metric Insights
  • 18. 18 2-‐‑‒2. バッチクエリ × Tableau Server Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV c Direct Tableau Server 全件データ バッチ Result Push Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 Tableau Server 上の ソースデータを更更新
  • 19. 19 2-‐‑‒3. バッチクエリ × Redshift × Tableau Server/Desktop Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 データマート BIツール等 Data mart 全件データ バッチ Redshift
  • 20. 20 2-‐‑‒4(a). バッチクエリ × DMP データ収集 データ保管 データ分析 全件データ バッチ Segment DB ユーザーの行動履歴ログ でセグメントDBを更更新 ログインログ 課⾦金金ログ 招待ログ ユーザー Data Mart ⾏行行動 ユーザーの セグメント情報
  • 21. 21 2-‐‑‒4(b). バッチクエリ × DMP × DSP データ収集 データ保管 データ分析 全件データ バッチ Segment DB ユーザーの行動履歴ログ でセグメントDBを更更新 ログインログ 課⾦金金ログ 招待ログ DSP ユーザー KV Store 広告配信 ⾏行行動 ユーザーの セグメント情報
  • 23. 23 3. アドホッククエリ × データマート (データマートをどこに置くかの違い) Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 Direct Data mart BIツール等 データマート BIツール等 Tableau, Chartio 全件データ バッチ データマート アドホック JDBC/ ODBC REST API バッチ Redshift × Tableau アドホック
  • 24. 24 3-‐‑‒1. アドホッククエリ × Chartio Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 BIツール等 Direct Chartio 全件データ バッチ データマート アドホック JDBC/ ODBC REST API アドホック
  • 26. 26 3-‐‑‒2. アドホッククエリ × Tableau Desktop Webログ Appログ センサー スマフォ Appログ RDBMS CRM ERP POS 小さい CSV/TSV Treasure Agent iOS /Android SDK TD Toolbelt Web Browser Streaming Mobile Legacy Trial データ収集 データ保管 データ分析 BIツール等 Direct Tableau 全件データ バッチ データマート アドホック JDBC/ ODBC REST API アドホック
  • 28. 28 3-‐‑‒3. アドホッククエリ × DMP データ収集 データ保管 データ分析 ユーザーの行動履歴ログで セグメントテーブルを更更新 バッチ 全件データ ログインログ 課⾦金金ログ 招待ログ ユーザー ⾏行行動 Segment Table アドホック