SlideShare uma empresa Scribd logo
1 de 37
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
TD Tech Talk 2018.5.23
AudienceOneにおける
TreasureData活用方法
デジタル・アドバタイジング・コンソーシアム株式会社
河原 亮介
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
自己紹介
2
• 河原 亮介(かわはら りょうすけ)
• デジタル・アドバタイジング・コンソーシアム(DAC)
• プロダクト開発本部 シニアマネージャー
• 主な業務: AudienceOne(DMP)の開発責任者
• TreasureData歴: 約5年半
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
本日話すこと
3
• DACについて
• DACにおけるTD利用状況
• AudienceOneにおけるTD活用方法
• AudienceOneとは
• ワークフロー / TD以外のデータベースサービス / デ
ータモニタリング
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
会社紹介 DACって?
4
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 5
DACは、インターネット広告の黎明期にあたる1996年の設立以来、
市場の形成に携わり、業界をリードしてきました。
媒体社や広告会社などのパートナー企業に向けて、広告枠の仕入れ・販売、
プランニング、レポーティングまでトータルに支援するメディアレップ、
国内最大規模のトレーディングデスクによる広告運用、
高い技術力を誇るソリューション開発など、
デジタルマーケティングにおける広告を基点としたさまざまなサービスを提供しています。
デジタル・アドバタイジング・コンソーシアム
1996年
設立
40億円
資本金
2,083億円
売上高(DACHD連結)
1,812名
役職員数(DAC連結)
※2017年3月末現在/連結※D.A.コンソーシアムホールディングス
2018年3月期/連結
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 6
DACは、インターネット広告の黎明期にあたる1996年の設立以来、
市場の形成に携わり、業界をリードしてきました。
媒体社や広告会社などのパートナー企業に向けて、広告枠の仕入れ・販売、
プランニング、レポーティングまでトータルに支援するメディアレップ、
国内最大規模のトレーディングデスクによる広告運用、
高い技術力を誇るソリューション開発など、
デジタルマーケティングにおける広告を基点としたさまざまなサービスを提供しています。
デジタル・アドバタイジング・コンソーシアム
1996年
設立
40億円
資本金
2,083億円
売上高(DACHD連結)
1,812名
役職員数(DAC連結)
※2017年3月末現在/連結※D.A.コンソーシアムホールディングス
2018年3月期/連結
要するに
インターネット広告の会社です
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
DACが提供しているソリューションサービス
7
アドサーバー
広
告
会
社
/
広
告
主
媒
体
社
プライベート
DMP
アクセス解析
ツール
LPOツール
競合調査
ダッシュ
ボード
MAツール
広告主保有チャネル
(オウンドメディア)
パブリックDMP
プランニング
ダッシュボード
トラッキング
ソーシャル
広告管理
DSP SSP
業務管理
PMP
広告プランニング・ダッシュボード
API連携
可視
化
統合データ
セグメント連携
在庫管理・入稿管理・トラッキング
広告
配信
データ提供
DealID
発行
セ
グ
メ
ン
ト
配
信
情報
収集
データ
連携
オーディエンス
連携
トラッキング
データ連携
広告配信
分析
データ
データ
連携
データ
連携
データ
連携
データ
連携
データ
連携
広告
配信
進行
管理
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
DACが提供しているソリューションサービス
8
アドサーバー
広
告
会
社
/
広
告
主
媒
体
社
プライベート
DMP
アクセス解析
ツール
LPOツール
競合調査
ダッシュ
ボード
MAツール
広告主保有チャネル
(オウンドメディア)
パブリックDMP
プランニング
ダッシュボード
トラッキング
ソーシャル
広告管理
DSP SSP
業務管理
PMP
広告プランニング・ダッシュボード
API連携
可視
化
統合データ
セグメント連携
在庫管理・入稿管理・トラッキング
広告
配信
データ提供
DealID
発行
セ
グ
メ
ン
ト
配
信
情報
収集
データ
連携
オーディエンス
連携
トラッキング
データ連携
広告配信
分析
データ
データ
連携
データ
連携
データ
連携
データ
連携
データ
連携
広告
配信
進行
管理
いろいろアドテクやってます
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
どれくらいTDを使っているのか
9
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
TreasureDataを利用しているサービス
10
アドサーバー
広
告
会
社
/
広
告
主
媒
体
社
プライベート
DMP
アクセス解析
ツール
LPOツール
競合調査
ダッシュ
ボード
MAツール
広告主保有チャネル
(オウンドメディア)
パブリックDMP
プランニング
ダッシュボード
トラッキング
ソーシャル
広告管理
DSP SSP
業務管理
PMP
広告プランニング・ダッシュボード
API連携
可視
化
統合データ
セグメント連携
在庫管理・入稿管理・トラッキング
広告
配信
データ提供
DealID
発行
セ
グ
メ
ン
ト
配
信
情報
収集
データ
連携
オーディエンス
連携
トラッキング
データ連携
広告配信
分析
データ
データ
連携
データ
連携
データ
連携
データ
連携
データ
連携
広告
配信
進行
管理
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
数字で見るTreasureData利用状況
11
ユーザ数 200
Import レコード数 / 1日 80億
Job数 / 1日 15,000
※ Hive/Presto/Deleteなどすべて
処理レコード数 / 1日 4兆 ※hive
300億 ※presto
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
AudienceOneにおける
TD活用方法
12
ここからやっと本題
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
AudienceOneとは?
13
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 14
1. 統 合
2. 分 析
3. 捕 捉
4. 活 用
オフラインデータも含む1st Partyデータの
管理も可能。プライベートDMP / パブリッ
クDMP両方の機能を担います。
■ 自社サイトデータ収集
■ CRMデータ連携機能
■ 広告配信データの連携
UI提供に加え、データ解析士による高度な
分析サービスを提供。複雑化する顧客イン
サイトの可視化を支援します。
■ 興味関心分析・デモグラ属性分析
■ 商圏分析
■ R/F分析・重複分析
■ インテント可視化・ジャーニー分析
セグメントを生成し顧客ごとに施策を最適
化。特許を有する高精度な推計・拡張技術
が効果の最大化を支援します。
■ オーディエンス拡張機能
■ 検索キーワード推定機能
■ クロスデバイスマッチング機能
広告をはじめ,メールやメッセージ配信等
の各マーケティングチャネルへ連携し、統
合的なデータ活用を実現します。
■ 広告配信連携機能
■ メール・メッセージ配信ツール連携機能
■ プライベートDMP連携機能
月間4.8億ユニークブラウザのcookieデータを保有するデータマネジメントプラットフォーム(DMP)で、広告出稿時に取得で
きるデータ、webサイト、ソーシャル/CRMのデータなど様々なデータを収集し、用途に応じて利用する事が可能です。
ソリューションコンサルティング
自社内外のデータを統合
解析士による顧客分析
特許技術でのユーザー捕捉
主要チャネルを網羅
約4.8億UB分のcookie
約9,000万のモバイル広告ID
1兆レコードからなる膨大なデータを解析
国内最大級規模の
オーディエンスデータを提供する
データ・マネジメント・プラットフォーム
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 15
1. ワークフローの使い分け
2. TreasureData以外のデータベース使い分け
3. データのモニタリング/監視
AudienceOneにおける活用方法
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
データまわりのシステム構成
データフローを説明
16
その前に、
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
(データ解析用環境)
自社サービス
データ
17
Webサイト
CRMなどの
顧客データ
アライアンスデータ
(データモニタリング)
レポート用DB
セグメント見積用
複雑な計算・集計用
・Luigi
・Treasure Workflow
(ワークフロー管理)
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
(データ解析用環境)
自社サービス
データ
18
Webサイト
CRMなどの
顧客データ
アライアンスデータ
(データモニタリング)
レポート用DB
セグメント見積用
・Luigi
・Treasure Workflow
(ワークフロー管理)
複雑な計算・集計用
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 19
1. ワークフローの使い分け
2. TreasureData以外のデータベース使い分け
3. データのモニタリング/監視
AudienceOneにおける活用方法
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 20
AudienceOneにおけるデータ開発フロー
課題認識
データ解析/
アルゴリズム開
発
実証実験
(テスト配信)
AudienceOneへ
実装
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 21
AudienceOneにおけるデータ開発フロー
課題認識
データ解析/
アルゴリズム開
発
実証実験
(テスト配信)
AudienceOneへ
実装
Treasure
Workflow
Luigi
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 22
Treasure Workflow
・開発したデータが本当に有用かどうか試す実証実験などで利用
・yamlで簡単にかけるのでSQLさえ書ければだれでもできる
・低コストで短期導入が可能
Luigi
・AudienceOneの機能として実装する場合に利用
・複雑な依存関係も管理しやすい
・多いものだと7~8の集計を待ってから起動するものもある
・逆に1つの集計処理を70のバッチ処理が待っているものなんかもある
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 23
1. ワークフローの使い分け
2. TreasureData以外のデータベース使い分け
3. データのモニタリング/監視
AudienceOneにおける活用方法
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
(データ解析用環境)
自社サービス
データ
24
Webサイト
CRMなどの
顧客データ
アライアンスデータ
(データモニタリング)
レポート用DB
セグメント見積用
複雑な計算・集計用
・Luigi
・Treasure Workflow
(ワークフロー管理)
ココ→
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
Treasure Data以外のデータベースとその利用方法
25
Redshift その1
- レポートデータ格納用
- AudienceOneのレポート画面から参照
- 集計数値のみ格納
- データ量多い(現状約110億レコード)
→レポートの種類や軸が多く、過去データの保持期間も長いため
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
Treasure Data以外のデータベースとその利用方法
26
- セグメントサイズ(UU数)の見積もり用
- サンプリングしたデータを格納
- セグメント作成に使える軸・条件は多数
- 条件を細かく変えながら何度も見積もりを行うのでレイテンシーはで
きるだけ低いほうがよい
- 事前の集計はできない
- ざっくりボリュームがわかればいいので精度はそこまで求められない
ElasticSearch
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
Treasure Data以外のデータベースとその利用方法
27
- オーディエンス拡張(Lookalike)のモデリング・スコアリング用
- 元データは約40億レコード
- AudienceOneでは個別にモデリングを実施
- オーディエンス拡張機能で作成されるセグメントは約4,000
→ すべて個別のSQLで抽出する必要がある
→ 更新頻度は日次
Redshift その2
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 28
1. ワークフローの使い分け
2. TreasureData以外のデータベース使い分け
3. データのモニタリング/監視
AudienceOneにおける活用方法
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
モニタリングしている内容
29
• トレンド
UU数の推移、比率(OS別, ブラウザ別)
• データの精度
オーディエンス拡張のモデル精度
推定データの精度
• 急激な増加/減少、異常値
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
• トレンド
UU数の推移、比率(OS別, 性年齢別)
• データの精度
オーディエンス拡張のモデル精度
推定データの精度
• 急激な増加/減少、異常値
モニタリングしている内容
30
Spread sheet/GoogleAppsScript/Slack
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
データモニタリング
31
- データソースはBigQuery, TreasureData(Presto)を利用
ローデータに近いもの→BigQuery、集計されたもの→TD
- re:dashで実現することで、データ解析チームやデータプラニング、オ
ペレーションチームも参照可能
re:dash
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
データモニタリング
32
- hourly/daily/weeklyで特定のデータを集計しSpreadSheetへ出力
- AppsScriptで大幅な増加/減少などがあった際にSlackへ通知
- 異常を定義できる簡単なものだけ利用
人の目で見ないと判断できないものはre:dashでモニタリング
SpreadSheet & GAS & Slack
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
【おまけ】モニタリング
33
弊社のTD利用者の中には非エンジニアも多く
トンデモナイクエリが投げられることも・・・
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
【おまけ】モニタリング
34
GASでモニタリング
TreasureData警察
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
まとめ(まとまってない)
35
• Treasure Workflowは非常に強力
• 適材適所
とはいえ、気持ちとしてはできるだけTDに寄せたい
• TreasureData警察に休みはない
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 36
We are hiring!
既存システムの改善や新規サービス開発を行うプロダクトマネージャーや
エンジニア募集してます
http://www.dac.co.jp/recruit/product_development/index.html
© D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23)
ご清聴ありがとうございました

Mais conteúdo relacionado

Último

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 

Último (9)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 

Destaque

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming LanguageSimplilearn
 

Destaque (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

AudienceOneにおけるTreasureData活用方法(TD Tech Talk 20180523)

  • 1. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) TD Tech Talk 2018.5.23 AudienceOneにおける TreasureData活用方法 デジタル・アドバタイジング・コンソーシアム株式会社 河原 亮介
  • 2. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 自己紹介 2 • 河原 亮介(かわはら りょうすけ) • デジタル・アドバタイジング・コンソーシアム(DAC) • プロダクト開発本部 シニアマネージャー • 主な業務: AudienceOne(DMP)の開発責任者 • TreasureData歴: 約5年半
  • 3. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 本日話すこと 3 • DACについて • DACにおけるTD利用状況 • AudienceOneにおけるTD活用方法 • AudienceOneとは • ワークフロー / TD以外のデータベースサービス / デ ータモニタリング
  • 4. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 会社紹介 DACって? 4
  • 5. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 5 DACは、インターネット広告の黎明期にあたる1996年の設立以来、 市場の形成に携わり、業界をリードしてきました。 媒体社や広告会社などのパートナー企業に向けて、広告枠の仕入れ・販売、 プランニング、レポーティングまでトータルに支援するメディアレップ、 国内最大規模のトレーディングデスクによる広告運用、 高い技術力を誇るソリューション開発など、 デジタルマーケティングにおける広告を基点としたさまざまなサービスを提供しています。 デジタル・アドバタイジング・コンソーシアム 1996年 設立 40億円 資本金 2,083億円 売上高(DACHD連結) 1,812名 役職員数(DAC連結) ※2017年3月末現在/連結※D.A.コンソーシアムホールディングス 2018年3月期/連結
  • 6. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 6 DACは、インターネット広告の黎明期にあたる1996年の設立以来、 市場の形成に携わり、業界をリードしてきました。 媒体社や広告会社などのパートナー企業に向けて、広告枠の仕入れ・販売、 プランニング、レポーティングまでトータルに支援するメディアレップ、 国内最大規模のトレーディングデスクによる広告運用、 高い技術力を誇るソリューション開発など、 デジタルマーケティングにおける広告を基点としたさまざまなサービスを提供しています。 デジタル・アドバタイジング・コンソーシアム 1996年 設立 40億円 資本金 2,083億円 売上高(DACHD連結) 1,812名 役職員数(DAC連結) ※2017年3月末現在/連結※D.A.コンソーシアムホールディングス 2018年3月期/連結 要するに インターネット広告の会社です
  • 7. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) DACが提供しているソリューションサービス 7 アドサーバー 広 告 会 社 / 広 告 主 媒 体 社 プライベート DMP アクセス解析 ツール LPOツール 競合調査 ダッシュ ボード MAツール 広告主保有チャネル (オウンドメディア) パブリックDMP プランニング ダッシュボード トラッキング ソーシャル 広告管理 DSP SSP 業務管理 PMP 広告プランニング・ダッシュボード API連携 可視 化 統合データ セグメント連携 在庫管理・入稿管理・トラッキング 広告 配信 データ提供 DealID 発行 セ グ メ ン ト 配 信 情報 収集 データ 連携 オーディエンス 連携 トラッキング データ連携 広告配信 分析 データ データ 連携 データ 連携 データ 連携 データ 連携 データ 連携 広告 配信 進行 管理
  • 8. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) DACが提供しているソリューションサービス 8 アドサーバー 広 告 会 社 / 広 告 主 媒 体 社 プライベート DMP アクセス解析 ツール LPOツール 競合調査 ダッシュ ボード MAツール 広告主保有チャネル (オウンドメディア) パブリックDMP プランニング ダッシュボード トラッキング ソーシャル 広告管理 DSP SSP 業務管理 PMP 広告プランニング・ダッシュボード API連携 可視 化 統合データ セグメント連携 在庫管理・入稿管理・トラッキング 広告 配信 データ提供 DealID 発行 セ グ メ ン ト 配 信 情報 収集 データ 連携 オーディエンス 連携 トラッキング データ連携 広告配信 分析 データ データ 連携 データ 連携 データ 連携 データ 連携 データ 連携 広告 配信 進行 管理 いろいろアドテクやってます
  • 9. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) どれくらいTDを使っているのか 9
  • 10. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) TreasureDataを利用しているサービス 10 アドサーバー 広 告 会 社 / 広 告 主 媒 体 社 プライベート DMP アクセス解析 ツール LPOツール 競合調査 ダッシュ ボード MAツール 広告主保有チャネル (オウンドメディア) パブリックDMP プランニング ダッシュボード トラッキング ソーシャル 広告管理 DSP SSP 業務管理 PMP 広告プランニング・ダッシュボード API連携 可視 化 統合データ セグメント連携 在庫管理・入稿管理・トラッキング 広告 配信 データ提供 DealID 発行 セ グ メ ン ト 配 信 情報 収集 データ 連携 オーディエンス 連携 トラッキング データ連携 広告配信 分析 データ データ 連携 データ 連携 データ 連携 データ 連携 データ 連携 広告 配信 進行 管理
  • 11. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 数字で見るTreasureData利用状況 11 ユーザ数 200 Import レコード数 / 1日 80億 Job数 / 1日 15,000 ※ Hive/Presto/Deleteなどすべて 処理レコード数 / 1日 4兆 ※hive 300億 ※presto
  • 12. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) AudienceOneにおける TD活用方法 12 ここからやっと本題
  • 13. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) AudienceOneとは? 13
  • 14. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 14 1. 統 合 2. 分 析 3. 捕 捉 4. 活 用 オフラインデータも含む1st Partyデータの 管理も可能。プライベートDMP / パブリッ クDMP両方の機能を担います。 ■ 自社サイトデータ収集 ■ CRMデータ連携機能 ■ 広告配信データの連携 UI提供に加え、データ解析士による高度な 分析サービスを提供。複雑化する顧客イン サイトの可視化を支援します。 ■ 興味関心分析・デモグラ属性分析 ■ 商圏分析 ■ R/F分析・重複分析 ■ インテント可視化・ジャーニー分析 セグメントを生成し顧客ごとに施策を最適 化。特許を有する高精度な推計・拡張技術 が効果の最大化を支援します。 ■ オーディエンス拡張機能 ■ 検索キーワード推定機能 ■ クロスデバイスマッチング機能 広告をはじめ,メールやメッセージ配信等 の各マーケティングチャネルへ連携し、統 合的なデータ活用を実現します。 ■ 広告配信連携機能 ■ メール・メッセージ配信ツール連携機能 ■ プライベートDMP連携機能 月間4.8億ユニークブラウザのcookieデータを保有するデータマネジメントプラットフォーム(DMP)で、広告出稿時に取得で きるデータ、webサイト、ソーシャル/CRMのデータなど様々なデータを収集し、用途に応じて利用する事が可能です。 ソリューションコンサルティング 自社内外のデータを統合 解析士による顧客分析 特許技術でのユーザー捕捉 主要チャネルを網羅 約4.8億UB分のcookie 約9,000万のモバイル広告ID 1兆レコードからなる膨大なデータを解析 国内最大級規模の オーディエンスデータを提供する データ・マネジメント・プラットフォーム
  • 15. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 15 1. ワークフローの使い分け 2. TreasureData以外のデータベース使い分け 3. データのモニタリング/監視 AudienceOneにおける活用方法
  • 16. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) データまわりのシステム構成 データフローを説明 16 その前に、
  • 17. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) (データ解析用環境) 自社サービス データ 17 Webサイト CRMなどの 顧客データ アライアンスデータ (データモニタリング) レポート用DB セグメント見積用 複雑な計算・集計用 ・Luigi ・Treasure Workflow (ワークフロー管理)
  • 18. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) (データ解析用環境) 自社サービス データ 18 Webサイト CRMなどの 顧客データ アライアンスデータ (データモニタリング) レポート用DB セグメント見積用 ・Luigi ・Treasure Workflow (ワークフロー管理) 複雑な計算・集計用
  • 19. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 19 1. ワークフローの使い分け 2. TreasureData以外のデータベース使い分け 3. データのモニタリング/監視 AudienceOneにおける活用方法
  • 20. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 20 AudienceOneにおけるデータ開発フロー 課題認識 データ解析/ アルゴリズム開 発 実証実験 (テスト配信) AudienceOneへ 実装
  • 21. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 21 AudienceOneにおけるデータ開発フロー 課題認識 データ解析/ アルゴリズム開 発 実証実験 (テスト配信) AudienceOneへ 実装 Treasure Workflow Luigi
  • 22. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 22 Treasure Workflow ・開発したデータが本当に有用かどうか試す実証実験などで利用 ・yamlで簡単にかけるのでSQLさえ書ければだれでもできる ・低コストで短期導入が可能 Luigi ・AudienceOneの機能として実装する場合に利用 ・複雑な依存関係も管理しやすい ・多いものだと7~8の集計を待ってから起動するものもある ・逆に1つの集計処理を70のバッチ処理が待っているものなんかもある
  • 23. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 23 1. ワークフローの使い分け 2. TreasureData以外のデータベース使い分け 3. データのモニタリング/監視 AudienceOneにおける活用方法
  • 24. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) (データ解析用環境) 自社サービス データ 24 Webサイト CRMなどの 顧客データ アライアンスデータ (データモニタリング) レポート用DB セグメント見積用 複雑な計算・集計用 ・Luigi ・Treasure Workflow (ワークフロー管理) ココ→
  • 25. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) Treasure Data以外のデータベースとその利用方法 25 Redshift その1 - レポートデータ格納用 - AudienceOneのレポート画面から参照 - 集計数値のみ格納 - データ量多い(現状約110億レコード) →レポートの種類や軸が多く、過去データの保持期間も長いため
  • 26. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) Treasure Data以外のデータベースとその利用方法 26 - セグメントサイズ(UU数)の見積もり用 - サンプリングしたデータを格納 - セグメント作成に使える軸・条件は多数 - 条件を細かく変えながら何度も見積もりを行うのでレイテンシーはで きるだけ低いほうがよい - 事前の集計はできない - ざっくりボリュームがわかればいいので精度はそこまで求められない ElasticSearch
  • 27. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) Treasure Data以外のデータベースとその利用方法 27 - オーディエンス拡張(Lookalike)のモデリング・スコアリング用 - 元データは約40億レコード - AudienceOneでは個別にモデリングを実施 - オーディエンス拡張機能で作成されるセグメントは約4,000 → すべて個別のSQLで抽出する必要がある → 更新頻度は日次 Redshift その2
  • 28. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 28 1. ワークフローの使い分け 2. TreasureData以外のデータベース使い分け 3. データのモニタリング/監視 AudienceOneにおける活用方法
  • 29. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) モニタリングしている内容 29 • トレンド UU数の推移、比率(OS別, ブラウザ別) • データの精度 オーディエンス拡張のモデル精度 推定データの精度 • 急激な増加/減少、異常値
  • 30. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) • トレンド UU数の推移、比率(OS別, 性年齢別) • データの精度 オーディエンス拡張のモデル精度 推定データの精度 • 急激な増加/減少、異常値 モニタリングしている内容 30 Spread sheet/GoogleAppsScript/Slack
  • 31. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) データモニタリング 31 - データソースはBigQuery, TreasureData(Presto)を利用 ローデータに近いもの→BigQuery、集計されたもの→TD - re:dashで実現することで、データ解析チームやデータプラニング、オ ペレーションチームも参照可能 re:dash
  • 32. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) データモニタリング 32 - hourly/daily/weeklyで特定のデータを集計しSpreadSheetへ出力 - AppsScriptで大幅な増加/減少などがあった際にSlackへ通知 - 異常を定義できる簡単なものだけ利用 人の目で見ないと判断できないものはre:dashでモニタリング SpreadSheet & GAS & Slack
  • 33. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 【おまけ】モニタリング 33 弊社のTD利用者の中には非エンジニアも多く トンデモナイクエリが投げられることも・・・
  • 34. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 【おまけ】モニタリング 34 GASでモニタリング TreasureData警察
  • 35. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) まとめ(まとまってない) 35 • Treasure Workflowは非常に強力 • 適材適所 とはいえ、気持ちとしてはできるだけTDに寄せたい • TreasureData警察に休みはない
  • 36. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) 36 We are hiring! 既存システムの改善や新規サービス開発を行うプロダクトマネージャーや エンジニア募集してます http://www.dac.co.jp/recruit/product_development/index.html
  • 37. © D.A.Consortium Inc. All rights reserved | TD Tech Talk 2018 (2018/5/23) ご清聴ありがとうございました

Notas do Editor

  1. aa
  2. 30秒
  3. 1.5分 本日のアジェンダになります はじめに、弊社DACについて簡単に紹介させていただきます。次に弊社がどれくらいトレジャーデータを使っているかご紹介させてください。というのも実は弊社かなりヘビーユーザで、それについてお話します。 そして、本題であるAudienceOneにおけるトレジャーデータの活用方法についてご紹介させていただきます。 はじめにDMPであるAudienceOneについて簡単に紹介させていただき、ワークフローやトレジャーデータの以外のデータベースサービスの利用、データのモニタリングをどのようにおこなっているのかお話させていただきます。
  4. 1996年に設立された会社です。書いてあるとおりなんですが、インターネット広告の仕入れ、販売がメインのビジネスで、最近だと広告関連のソリューションも多数提供しています。 売上や従業員数などはここに記載されているような規模になっております。
  5. 次に弊社が提供しているソリューションサービスについて紹介させていただきます。 DMPやDSP、SSPをはじめ、多数のアドテクのソリューションを提供しています。すべて自社開発しています。 本日お話するのは、真ん中にあるAudienceOneというDMPにおけるトレジャーデータの活用方法になります
  6. 要するに
  7. 会社紹介は以上で次に弊社がどれくらいトレジャーデータを利用しているのか、どれくらいヘビーユーザなのか、お話させていただきます
  8. さきほど弊社で提供しているソリューションサービスのお話をしましたが、実はそのほとんどのサービスでトレジャーデータを利用しています
  9. 次にどのくらいトレジャーデータを使っているのか数字で出してみました。 ユーザ数が約200。Importしているデータ量はDataconnectorで入れているものやfluentdで入れているものもありますが、もろもろあわせると約80億レコードくらいです。 また、1日に流れるjobの数はhiveやpresto,deleteも含め15,000くらいになります。 処理レコード数についてはサポートの高橋さんにお願いして出してもらいましたが、hive/prestoでそれぞれこれくらい処理しています。
  10. ではここからやっと本題である、AudienceOneでどのようにトレジャーデータを利用しているのかお話します
  11. 本題に入る前に最後に1つだけ。AudienceOneについて簡単にどういうものなのかご紹介させてください。
  12. (7分以内) AudienceOneは、あくまで自称ですが、国内最大級規模のデータマネジメントプラットフォームです。 4.8億のブラウザCookie、9,000万のモバイル広告IDを持っています。 AudienceOneにはCRMなどのデータの取り込みもできる、いわゆるプライベートDMPっぽい機能もあるのですが、 特徴・強みとしては、3rdPartyデータを豊富にもっていること、また弊社がインターネット広告の販売も行っていることから広告配信に強いことがあげられます。
  13. ここからが本当に本題です。今日お話するのは3つです。 ワークフローを複数使っているですが、どのように使い分けているのか、 TreasureData以外のデータベースサービスも使っているのですがなにをどのように使っているのか またDMPにとして3rdPartyデータを大量に保有していますが、そのデータをどのようにモニタリングしているのかお話させていただきたいと思います
  14. その前に、が多くて非常に恐縮ですが、AudienceOneのデータまわりのシステム構成とデータフローについて簡単にご説明したいと思います
  15. AudienceOneではTreasureDataをメインの集計基盤、ストレージ基盤として利用しています。 TreasureDataにはいわゆるAudienceOneの計測タグ、トラッキングタグで取得したWebログやAudienceOneを利用しているお客さまのCRMなどのデータ、 またAudienceOneではデータを保有している様々なデータアライアンスパートナーがおり、そういったデータもトレジャーデータに取り込んでおります。 加えて、弊社のサービスである、DSPやアドサーバなどのデータも同様にトレジャーデータへ取り込んでいます。 AudienceOneではほとんどの集計処理をトレジャーデータ上で行っていて、集計、加工した結果を右側のレポート用DBなどに出力してます。 ほとんどの処理を、と言いましたが、一部の複雑な集計のみRedshiftを利用しています。これについてはこのあと詳しくお話します。 集計処理はluigi、これはspotifyがOSSとして開発しているワークフローですね、それとTreasure workflowの2つを利用しています また、データモニタリングのためにBigQueryやredash、スプレッドシートなども利用しています。これらもすべてトレジャーデータ上で一時集計、加工したデータを格納しています。 本日は詳細については話しませんが、ちょっとだけデータ解析環境について触れておくと、トレジャーデータと別の環境になっており、RedShiftをメインで利用しています。 そしていわゆるデータサイエンティストチームが、RやPython、IBMのSPSSを使いデータの解析を行っています。
  16. 本日お話するのはここのオレンジ色で囲った3つになります
  17. ワークフローをどのように使い分けているか話す前に、 AudienceOneでは3rdPartyDMPとして様々なデータを開発しているのですが、フローとしてはざっくりこのようになっています。 最初になにかしらの課題があり、それを解決するようなデータ解析やアルゴリズムの開発を行います。これはもちろん弊社が持っているデータだけではなくアライアンス先のデータも含めて行います、 ある程度、内容が固まってくると実証実験を行い効果検証を行います。弊社の場合、広告での利用が多いので、具体的には実際にターゲティング配信を行って効果検証という形が多いです。 実際の効果があった場合、AudienceOneの機能として実装、というような流れになることが多いです。
  18. で、ワークフローをどのように使い分けているかというと、フェーズによって使い分けています。実証実験のようなフェーズではTreasure workflow、AudienceOneの機能として提供する場合はluigiを使っています。
  19. いま話した内容とそれぞれのワークフローの特徴をまとめるとこんな感じかなと 実証実験のようなフェーズではとにかくやってみる、ということが大事なので低コストで簡単にできるTreasure workflowは非常にあっているかなと。 Yamlで簡単にワークフローを書けるので非エンジニアでもSQLさえ書ければなんとかなります 逆にAudienceOneの機能として実装する場合はそれなりの品質が必要ですし、汎用化するので実証実験フェーズ処理もより複雑になります。 実証実験の場合は、固定でよかったものが管理画面で登録した内容に応じて処理したり、など また、複雑な依存関係も管理しやすいですね。AudienceOneではすでにたくさんのバッチ処理が動いており、その中に組み込んでいかないといけないのでどうしても依存関係が複雑になるのですが、 Luigiを使えば割と簡単に管理できます。 どのくらい複雑かというと、多いもので7〜8の集計処理を待ってから起動するものや逆に1つの集計処理が終わってそのあと70くらいのバッチ処理が動き出すものなんかもあります。
  20. 次のトレジャーデータ以外のデータベースサービスをどのように使っているのかお話します
  21. この部分です。レポート用のRedshift、セグメントのUU数見積もり用のElasticSearch、複雑な計算、集計用のRedshift、3つについてお話します。
  22. まずは1つ目のRedshiftです。AudienceOneのレポートデータ格納用として利用しています。 管理画面から直接参照しています。格納しているデータとしては、集計された値のみ格納しています。 集計された値だけなんですが、レポートの種類や集計軸が多いです、レポートの内容としてはユニークユーザー数のレポートがほとんどのため、集計軸が増えれば増えるほどレコード数も増えてしまいます。 また、データの保持期間も1年以上あり、レコード数がそれなりに多いです。ここにも書いていますが、約110億レコードあります。 そのため、MySQLやPostgresのようなRDBではなく、Redshiftを採用しています。
  23. 次にElasticSearchです。 これはセグメントサイズの見積もり用に利用しています。 セグメントサイズの見積もりって言われてもよくわからないと思うので簡単に説明すると、AudienceOneの管理画面上でセグメントを定義できるのですが、いろいろな条件で作成することができます。 例えば、特定のURLに直近1ヶ月で2回きた、とか、それにAudienceOneが持っているデータをかけ合わせて20代男性、とかサッカーに興味がある人などです。 かつ、And条件だけではなく、ORやNOTの条件なども設定できます。 AudienceOneを利用しているユーザはセグメントを作成する前にざっくりどれくらいのユーザ数なのか確認します。 広告配信の場合、どれだけいいセグメントでもそれなりにユーザ数がいないと配信できないので事前にユーザ数を確認できるのは非常に重要です。 この機能の性質上、どういう条件、セグメントが入ってくるかわからないので事前集計ができません、ただしざっくりとしたボリュームがわかればいいので正確な値である必要はありません。 そのためほぼローデータに近いデータをサンプリングしてElasticSearchに格納して、管理画面から参照しています。
  24. 最後に2つ目のRedshiftです。用途としてはオーディエンス拡張(Lookalike)の機能で利用しています。 これは簡単に言うと似たユーザ探す機能で、具体的には会員登録などコンバージョンしたユーザと似たユーザ、つまりまだコンバージョンしていないけど、コンバージョンしそうなユーザを抽出するような機能です。 AudienceOneの拡張機能は、個別にモデルを作成しています。個別にというのは管理画面で拡張の依頼をかけるのですが、その依頼毎に拡張モデルを作成しています。 また拡張結果、つまりモデルからスコアリングした結果からセグメントを作成できるのがですが、これがいま約4000セグメントあります。それぞれのモデル、スコアリング結果が違うので、 この4,000のセグメントを抽出するSQLすべて個別になっています。1つのSQLもかなり複雑でこのSQLを投げるテーブルのデータが約40億レコードあり、かつ元データは毎日更新されるのでセグメントの内容も毎日更新する必要があります。 TreasureDataでの実装も何度か試したのですが、処理がまわらず、Redshiftを採用しています。 Activeな拡張依頼は約4570
  25. ここまで20分目安 最後にデータのモニタリングや監視についてお話します。
  26. 3rdPartyデータを大量に保有しているDMPとして、データのモニタリングもとても重要です。 細かくいうと他にも多数あるんですが、ざっくりいうとここに記載しているような内容をモニタリングしています。 トレンド、これはUU数の推移だったり、比率です。iOSのOSバージョンごと比率だったりとか また、一番重要なのがデータの精度ですね。さきほどお話したオーディエンス拡張のモデルの精度の傾向だったり、 それとAudienceOneでは推定データ、性別年齢のようなデモグラフィックデータがあるのですが、データアライアンス先からもらっている正解データと付きあわせて精度のモニタリングを行っています。 最後に急激になにかが増えたとか、減ったとかいわゆる異常値、のようなものもモニタリングしています。
  27. これらのモニタリングをre:dashやBigQuery、あるいはSpreadsheetとAppsScript,Slackなんかを使ってモニタリングしています
  28. Re:dashのデータソースとしてはBigQuery/TreasureData(Presto)を利用しています。 データソースの使い分けとしては、ローデータに近いものをBigQueryである程度集計されたものをTreasureData(Presto)を利用しています。 re:dashを利用した背景としては、開発チームだけでなく、データ解析チームや、ビジネスサイドのチームも参照できるようにするためにre:dashを採用しました。
  29. 次のSpreadSheetのほうなんですが、hourly、dailyで特定のデータをTreasureで集計し、SpreadSheetに出力しています。 そのあと、AppsScriptで大幅な増加/減少があった場合にSlackに通知するようにしています。実際のSlackの通知はこんな感じです。 Redashとの使い分けとしては異常を定義できる簡単なものだけ利用しています。
  30. 弊社のTDのユーザアカウントが最初に200くらいいるとお話しましたが、その中には非エンジニアも多数おります。 ほぼすべてのデータを格納しているので、めちゃくちゃ巨大なテーブルもあるんですが、たまに(週1回くらい)トンデモナイクエリが投げられます。 よくあるのがTD_TIME_RANGEをうまく書けてないとか。そうすると AudienceOneのサービスとしてものすごい影響があります。なのでAudienceOneの開発チームではそういったクエリが投げられていないかモニタリングを行っています
  31. こんな感じで。社内ではTreasureData警察と呼んでいます。