Mais conteúdo relacionado
Semelhante a アドテクと機械学習システムの開発@SMN・サンカク・CodeIQワークショップ (20)
アドテクと機械学習システムの開発@SMN・サンカク・CodeIQワークショップ
- 1. Copyright 2015 So-net Media Networks Corp. All rights reserved
アドテクと機械学習システムの開発
2017.9.10
ソネット・メディア・ネットワークス(株)
a.i lab.
舘野 啓
- 4. • DSP "Logicad" を主力事業とする
ソニーグループのアドテク企業
• 2015年12月 東証マザーズ上場
ソネット・メディア・ネットワークスについて
4
- 11. • ダイナミッククリエイティブ
• 複数商品の写真などを組み合わせて一つのバ
ナーを動的に生成
• どう組み合わせるか?
e.g. 閲覧した商品+ユーザにおすすめの商品
• “ユーザにおすすめの商品”?
• そのユーザが買いそう・気に入りそうな商品を
予測
• “この商品を買った人はこんな商品も買っています”
• Jaccard係数などによる商品相関
• 行列の穴埋め問題として行列分解(Matrix
factorization) (後述)
機械学習の適用例:リコメンデーション 何を (what)
11
閲覧
提示
- 15. • 解きたい課題
• 特徴量で表現されたサンプルの、連続量やカテゴリを予測したい
• e.g. 年収予測(回帰)、男女予測(分類)
• モデル
• 特徴
• シンプル:どの特徴量がどの程度重要か?がパラメータwを見ればわかる
• 高速:学習・予測ともデータ量・特徴量次元数に対して線形で実行可能
線形回帰・ロジスティック回帰
線形回帰
ロジスティック回帰
アドテク系ではベーシックな手法 [Chapelle15]
各特徴量に
対応する重み
特徴量パラメータ
15
- 16. • 欠点
• 複雑な特徴量を扱おうとすると大変
e.g. 組み合わせ特徴量
線形回帰・ロジスティック回帰
各特徴量の組み合わせ
に対応する重み
e.g. ドメインと広告商材の組み合わせ: 10^6 × 10^3 ~ 10^9
⇒適切なパラメータを求めるのに十分なサンプル数と計算資源が必要
16
- 26. • そもそも価値あるプロダクトなのか?
• (´Д`;) 貧弱なラインナップのコンテンツ配信サービスにおけるリコメンデーション
• 機械学習はベースの価値をブーストする役割の場合が多い
• なんらかの”課題”を解決しているか?
• (´Д`;) フォームなら10秒で終わるのになぜか対話しなきゃいけないチャットボット
• faster, easier, cheaper / 不可能を可能に
• 精度向上=正義か?
• (´Д`;) 精度が求められない=計測されない=”それっぽさ”……
• 精度向上の探求こそ機械学習エンジニアとしての成長機会
”価値”を生み出しているか?
26
価値あるプロダクト、価値ある機能を作ろう
- 27. • データが集まる仕組みが無い機械学習プロダクトでは……
• 機械学習部分は作りっぱなし
• 改善できない
• あれ、精度≠正義……?
• 最初のデータ集めに苦労
• e.g. 単体機能としての顔認識 ⇔ Facebookにおける顔認識
• 頑張るしかない=つらい、コストがかかる=回収が求められる……
• 既存のサイクルへの機械学習導入
• 機械学習が無くても死なない=ある意味(後述)気楽
データを中心とするサイクルがまわるか?
27
データが集まる仕組みは死守せよ
集まらな(くてよ)いなら逃げよ
- 31. 31
• システムとしてのテストに難儀
• 学習結果はデータに依存=”正解”が判りづらい
• 「それっぽい精度が出た!」>システムに関しては無情報
• 予測結果の分布が実際の分布と合わない……実装がまずいのかモデルが悪いのか?
• 精度検証(≠システムテスト)にもっと難儀
• テストを丁寧にやって正しく実装できた!精度が出ない! orz
• 「すごい精度が出た!」>多分そもそも何かがおかしい
• パラメータチューニング:学習に時間がかかる場合、とにかく時間を食う
• っていうか完成の定義は?>時間を切るか、bizインパクトと見合えばずっと続ける
機械学習は苦しい
システムとして
地道に、丁寧に、システマティックにやる [久保17][Komiya14]
- 33. コンバージョン予測システム
検証用システム 監視&分析
33
α β Λ … AR値
0.1 0.1 1 0.813
0.1 0.1 10 0.824
0.1 1 1 0.806
学習設定etc. 管理用
レポジトリ
学習用データ
起動・deploy
テスト結果
(精度)
Superset
学習・テスト用
検証の実行、結果の管理を楽に 日々の配信テスト結果、学習結果など
Google
spreadsheet
データサイエンティスト
- 37. • [AdRoll15] Factorization Machines
http://tech.adroll.com/blog/data-science/2015/08/25/factorization-machines.html
• [Chapelle15] Chapelle, O., et al., Simple and scalable response prediction for display advertising, ACM TIST, 2015.
• [比戸14] 比戸, あなたの業務に機械学習を活用する5つのポイント https://www.slideshare.net/shoheihido/5-
38372284
• [神嶌] 神嶌, 推薦システムのアルゴリズム http://www.kamishima.net/archive/recsysdoc.pdf
• [Komiya14] 機械学習分野におけるテストの自動化 https://goo.gl/EHEV9M
• [Koren09] Koren, Y., et al., Matrix factorization techniques for recommender systems, Computer, 2009.
• [久保17] 機械学習モデルの実装における、テストについて
http://qiita.com/icoxfog417/items/67764a6756c4548b5fb8
• [Netflix12] Netflix Recommendations: Beyond the 5 stars (Part 1) https://medium.com/netflix-techblog/netflix-
recommendations-beyond-the-5-stars-part-1-55838468f429
• [Rendle10] Rendle, S., Factorization Machines, ICDM, 2010.
• [関野16] 関野, 経験ベイズ木, IBIS2016 D2-18, 2016.
参考資料
37