RTBにおける機械学習の活用事例

23卒向け秋季オンライン勉強会
2021/11/6(土) オンライン勉強会
MicroAd inc. システム開発本部
福島大祐

自己紹介
福島大祐
株式会社マイクロアドシステム開発本部機械学習エンジニア
【担当領域】
• CTR/CVR 予測
• ダイナミックレコメンド
• 入札戦略
【略歴】
• 金沢大学
• 名古屋工業大学大学院
▶ 機械学習, 病理画像解析
• マイクロアド新卒入社 (2 年目)
Fukushima Daisuke (MicroAd inc.) 2021/11/6(土) 1 / 31

Contents
1 Real Time Bidding (RTB) とは
2 RTB の入札戦略
3 CTR/CVR 予測
4 マイクロアドにおける CTR/CVR 予測システム
5 機械学習エンジニアの業務内容

基本用語
広告主 : 広告を出すことで製品の認知度をあげたりブランド形成を行いたい
媒体主 : 運営しているメディア (Web サイトなど) に広告を掲載して利益を得たい
インプレッション : 広告の表示のこと
クリック : 広告クリックのこと
コンバージョン : 広告により成果を達成 (商品の購買, 申し込みなど) すること

Contents
3 CTR/CVR 予測

Real Time Bidding (RTB)
RTB
1 インプレッションに対してリアルタイムで入札を行う仕組み
オークション
SSP DSP
できるだけ収益を多くしたいできるだけ
効率よく配信したい
メディア広告
• SSP(Supply Side Platform) : メディアの収益を最大化するプラットフォーム
• DSP(Demand Side Platform) : 広告配信を最適化するプラットフォーム
広告主と媒体主の利害を一致するべく開発された取引形態

RTB の仕組み
広告枠
サイト訪問
SSP
DSP1
DSP3
DSP2
Step 1
• ユーザーがサイトに訪問し, SSP に広告リクエストを送信
•

RTB の仕組み
広告枠
サイト訪問
SSP
DSP1
DSP3
DSP2
Step 1
• ユーザーがサイトに訪問し, SSP に広告リクエストを送信
• SSP は接続している DSP に広告の入札をリクエスト

RTB の仕組み
広告枠
サイト訪問
SSP
DSP1
DSP3
DSP2
旅行広告
転職広告
車広告
10円
15円
20円
Step 2
• DSP はそれぞれ入札する広告と入札額を決定
▶ 入札する広告や入札額の決定は DSP ごとの入札ロジックに依存

RTB の仕組み
広告枠
サイト訪問
SSP
DSP1
DSP3
DSP2
旅行広告
転職広告
車広告
10円
15円
20円
Step 3
• DSP は SSP にレスポンスを返す
•

RTB の仕組み
サイト訪問
SSP
DSP1
DSP3
DSP2
旅行広告
転職広告
車広告
10円
15円
20円
転職広告
Step 3
• DSP は SSP にレスポンスを返す
• SSP はその中から最も高い値段のついた広告を選択し表示

Contents
3 CTR/CVR 予測

入札戦略
■ DSP は入札リクエストに対して, いくらで入札するのが良いのか?
• 直感的には
▶ 広告効果が高い ⇒ 高い入札額
▶ 広告効果が低い ⇒ 低い入札額
入札戦略
入札額決定関数
入札リクエスト
入札額
(ユーザー, 広告, ページ情報, ...)
入札戦略の目的
• 目標値 (広告主の期待する広告効果) の達成
• スムーズな予算消化

RTB における CTR/CVR 予測
マイクロアドでは, 入札額は目標 CPC/CPA と予測 CTR/CVR の積に依存 1
入札額 ∝
{
CPC × CTR (CPC 目標の場合)
CPA × CVR (CPA 目標の場合)
(1)
CPC (Cost per Click) : 1 クリックあたりのコスト
CPA (Cost per Action) : 1 コンバージョン (購買, 申込 . . .) あたりのコスト
• 上記で計算したベース入札額を以下を考慮して補正して入札
▶ 目標値との乖離具合
▶ 予算の消化具合
▶ 予測落札額
1
Optimal Real-Time Bidding for Display Advertising [Zhang, 2014]

RTB における CTR/CVR 予測
入札額を決定する上で, CTR/CVR 予測は重要な要素の一つ
CTR/CVR予測
...
入札戦略入札額
リクエスト
より適切な入札額を求めるために, 正確な CTR/CVR 予測が必要

Contents
3 CTR/CVR 予測

問題設定
■ 入札リクエストに対する, クリック (or コンバージョン) するかどうかの二値分類問題
• 学習データセット : {(xi, yi)}N
i=1
▶ x : 特徴ベクトル
▶ y ∈ {0, 1} : 正解ラベル (クリックされた場合 1)
広告ID URL ユーザーID 曜日クリック
http://aaa.co.jp/hoge
http://bbb.com/fuga
xxxxxxxxxx
yyyyyyyyy
34345
11671
金曜日
木曜日
0
1
• CTR = P(y = 1|x)

問題設定
■ データセットの特徴
• ほとんどの特徴量がカテゴリ変数
• 非常に不均衡
▶ インプレッション : 数億 / day に対し, クリックはせいぜい数%程度
• カーディナリティの高い特徴量が多数
▶ URL, タグ ID ect...

予測モデル
■ 以下の制約を満たせる 2 クラス分類モデルであれば利用可能
• RTB のレスポンス時間は 100ms 程度
▶ ネットワークの通信時間も考慮すれば, アプリケーションで使える時間は 50ms 程度
▶ その中で, CTR/CVR 予測に使える時間は数 ms ⇒ 推論速度に制約
■ 以前は扱いやすさや推論が高速なメリットからロジスティック回帰が主流
p(y = 1|x) =
1
1 + e−w⊤x
(2)
• 昨今では, ロジスティック回帰以外にも多数提案・実用されている
▶ factorization machine ベース
▶ Deep learnining ベース
▶ GBDT ベース

マイクロアドでの予測モデル
マイクロアドでは, GBDT フレームワークの１つである, LightGBM を利用
• カテゴリ変数の扱いが容易
• 高い識別性能
Table: マイクロアドの RTB ログを用いた比較実験の結果
手法 Normalized Entropy PR-AUC
Entity Embedding2 + logistic redression 0.890435 0.030371
Entity Embedding + XGBoost 0.842168 0.041808
LightGBM 0.832628 0.046433
2
Entity Embeddings of Categorical Variables, [Cheng Guo, 2016]

確率補正
■ 以下の理由から, 予測モデルの出力をそのまま CTR として扱うことは不適切
• 学習データから負例のアンダーサンプリングを行っている.
▶ 学習時間の短縮や使用メモリの制限から, 負例をランダムにアンダーサンプリングして使用
=⇒ 学習データの分布が本来の分布とずれ, 予測値が不当に高騰
• 表現力の高いモデルなどは予測が極端になりやすく, 予測値をそのまま確率として解釈
することが不適切
マイクロアドでは, この問題に対し, Isotonic Regression による確率補正 3 で対処
3
Predicting Good Probabilities With Supervised Learning [Alexandru Niculescu-Mizil, 2005]

Isotonic Regression による確率補正
２クラス分類器の学習データとは別に, Isotonic Regrssion の学習データを準備
• 学習データセット : {(f(xi), yi)}N
i=1
▶ f(·) : 別データで学習済みの 2 クラス分類器
▶ yi ∈ {0, 1} : クリックラベル
Isotonic Regression では, 次の単調増加な等張関数 m(·) を学習する
yi = m(f(xi)) + ϵ (3)
Isotonic Regression学習
学習データ
補正用データ
分類器学習
学習済みモデルで推論
(under samplingなし, 直近データ)
step 1
step 2

Isotonic Regression による確率補正
Isotonic Regresssion の学習には pair-adjacent violators(PAV) algorithm を用いる
1 {(fi, yi)}N
i=1 を fi の順にソート
2 m̂(fi) = yi で初期化
3 正解ラベルの順序に間違いがあれば平均値で
置換
4 推論の際に学習データセット中にない値は, 最
近傍の値を出力
つまり,
• 分類器が事例を正しくランク付けできている部分では少ない事例で平均化
• ランク付けが間違っている部分 (分類器の信頼度が低い部分) では, より多くの事例で平
均化

推論時
Isotonic Regression
LightGBM 予測CTR
リクエスト
■ 特徴量
• 特徴量は入札リクエストに乗ってくるものの他に別の予測モデルで予測したものも利用
▶ web ページのカテゴリ推定
▶ ユーザーのデモグラ推定
• ユーザーの行動系特徴量も利用
▶ 24 時間以内のアクセス回数など

Contents
3 CTR/CVR 予測

実際の運用
■ 機械学習モデルの実装から学習サイクルまでを円滑に管理するための学習基盤が必要
• 学習の自動化・監視
▶ 毎時間対象の RTB ログが蓄積
▶ より新しいデータを予測モデルに反映したい ⇒ 定期的な予測モデルの再学習が必要
• テスト・デプロイの整備
マイクロアドでは, 機械学習基盤を GCP (Google Cloud Platform) で構築

学習実行基盤
機械学習のモデルの学習は AI-Platform Training で定期実行

Contents
3 CTR/CVR 予測

機械学習エンジニアの業務内容
主な業務内容
機械学習プロジェクトに関する調査・開発・運用全般
■ 既存プロダクトの改善
• 精度改善 (例: CTR 予測の精度改善)
▶ 論文・事例調査, 実験 ⇒ A/B テスト
• 運用改善
■ 新規プロダクトの提案・導入
• ビジネス課題を機械学習の問題に落とし込み
• 既存研究など調査・検証 ⇒ 開発

プロジェクト紹介
■ CTR/CVR 予測
• 広告の CTR/CVR を予測する
• 特に CVR 予測の精度改善中
▶ 広告主も広告効果に直結する CPA の方
を気にする
■ 入札戦略
• 最中力領域
• 予測した CTR/CVR などから入札額を決定
する
• 効率的なペーシングやナップサック問題によ
る手法を調査中
■ トピック判定
• web ページのカテゴリを推定する
• ターゲティングや CTR/CVR 予測に利用
• 精度改善中
■ 落札額予測
• リクエストがいくらで落札可能か予測する
• 入札額の決定に利用
■ ユーザーデモグラ推定
• ユーザーのデモグラフィックを推定する
• ターゲティングや CTR/CVR 予測に利用

技術スタック
業務でよく使うもの

以下で情報発信もしています!
Twitter
@microad dev
技術ブログ
developers.microad.co.jp

RTBにおける機械学習の活用事例

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a RTBにおける機械学習の活用事例

Semelhante a RTBにおける機械学習の活用事例 (20)

Mais de MicroAd, Inc.(Engineer)

Mais de MicroAd, Inc.(Engineer) (20)

RTBにおける機械学習の活用事例