[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System

DEEP LEARNING JP
[DL Papers]
“Adversarial Counterfactual Learning and Evaluation for
Recommender System (NeurIPS2020)”
Yoshifumi Seki, Gunosy
http://deeplearning.jp/

書誌情報
●
● 投稿先
○ NeurIPS 2020
● 選定理由
○ 最近因果推論と推薦システムに興味がある
○ NeurIPSに推薦システムは珍しい
2

概要
● この研究では、まず一般の推薦システムタスクのexposure mechanismに対する非
一貫性について論理的に示す
○ 実際にオフラインの評価指標とオンラインテストでの齟齬がお大きいことが指摘されている
○ 因果推論の傾向スコアを推薦システムに活用することが近年流行っているが、近年流行っている手法
はモデルとデータに異常に強い仮定をおいている
■ 既存の因果推論ベース推薦システムに喧嘩を売ってる感じ
● ミニマックスアルゴリズムによる設定を提案し、2つのモデルの敵対的学習の問題に
変換し、ミニマックス最適化としての解法を提案
● オープンデータによるシミュレーションと、オンライン実験の分析を通して提案手法の
有効性を確認
3

推薦システムの課題
● 推薦システムはユーザのフィードバックデータを用いてユーザの興味関心を学習す
る
○ 入力: ユーザuがアイテムiを評価rで消費した
○ 出力: ユーザuの評価が未知のアイテムi’への評価値を予測する
● フィードバックデータはそのデータを得られたexposure mechanismに依存する
○ ユーザが観測していないアイテムに対しては評価をつけることができない
■ ex. 例えばニュースアプリのログを考えると、起動していない日のデータはとれない
4

近年推薦システムでは評価の議論が多い
● 2019年のRecsysのbest paperは近年のDeepな推薦システムの手法を再実装して
比較したところをほとんどが非Deepな手法に負けた
○ [Dacrema+, RecSys 2019] Are We Really Making Much Progress? A Worrying Analysis of
Recent Neural Recommendation Approaches
● MFとDeepな手法はどっちが良いのかと言う議論
○ オンラインとオフラインの実験で一貫性がないのではないかという指摘も多い
● Unbiased Learning と Metricsへの注目は高い
○ KDD, Recsys, SIGIRあたりで頻出トピック
5

フィードバックデータにおける教師あり学習
一般のsurrogate lossはこのように与えられる
● f_{theta} (u, i): ユーザuとアイテムiに対するスコアを返す関数
● Y_{u, i}: ユーザuとアイテムiの評価値
● D: 学習用のユーザとアイテムのペア
○ 負例はNegative Samplingすることが通例
● φ: margin-based loss
6

Claim 1: exposure mechanismがgiven and fixed
● P^(1)とP^(-1)はp^(1), p^(-1)の t分布
● D_c: 関数cによるf-divergence
● このとき最適なfも以下の関数として与えられる
7

推薦システムアルゴリズムの矛盾
● exposure mechanismがgiven and fixedであれば
○ optimal lossはユーザの関心とexposure両方の関数
○ optimal modelはユーザの関心にのみ依存する
■ Claim1はありえないのでoptimal modelはexpose mechanismに依存する
● exposure mechanismが異なる2つの環境から同じデータが得られたとき、
exposure mechanismを考慮しないと、最適なアルゴリズムとして同じ関数を求めて
しまう
○ 推薦システムアルゴリズムの非一貫性がここからもたらされているといえる
8

傾向スコアの考慮
Q: exposure mechanismの分布 (多分Q_0の誤り)
P_n: 観測データの経験的な分布
9
傾向スコアで重み付けされた Lossはこのように与えられる
ここから元々のLossをExposure MechanismのLossを使って復元できる
以上からexpected propensity-weighted lossは以下のように経験分布によって表現できる

多くの既存研究が用いている仮定
● 著者らはこの仮定が現実世界ではrarely trueだと主張している
○ まぁ確かに個人の関心がなくても話題性でニュースをみたりする
○ すでに既知の情報だったからみないとか
10

Method
● 真の分布 P*を考える
○ ideal exposure-eliminated sample distribution: corresponding to P/Q_0
■ exposure mechanismもデータサンプル確率としてとらえることができた確率分布、と解釈
● worst possible choiceであるhat{P} を導入
11
Wassersteim Distanceを考える
Empirical Risk Minimization (ERM) を考えると以下のようになる
制約付き最適化なので、これを緩和することを考える

● Claim2:
○ transportation cost c: continnuous
○ propensity score are all bounded away from zero.
● この導入によって、以下のように制約なし最適化に緩和することができる
○ これはQの敵対的学習のように働く
12
2項目が正則化項として働く

Exposure Mechanismの具体化
● Exposure Mechanismは全くわからないわけではなく、経験的な仮定を導入できる
○ データを収集した推薦システム g*に依存すると考えて、それに近いg_{}を考える
○ アルゴリズムgが与えられたときに、exposure mechanismを与えるGを考えて以下のように書く
13
これでgの敵対的な学習の問題になる

Practical Implementation
● g*がわからんのと、gがDNNだと複雑になる
○ 知りたいのはfなのでg*は比較的どうでもいい
○ g*は正則化項にしかでてこないので、これを弱めたい
○ これはGANとかでもよく出てくるアイデア
● Explict Feedback Setting の場合はexposure statusは部分的に観測できている
○ 多分MovieLensとかがレビュー集めるのに特化してるUIであることを言ってる？クラウドソーシング的
な
● Content-based Recommendationの場合はExposureは人気度に依存する
○ ？？？？
○ 一般の推薦システムでそうでは、と思うし、むしろcontent-basedはそうではないのでは？
14

● Implicit Feedbackで上の2つが使えないとき、Lossを導入する
● データが推薦システムgによって生み出されているので、そこで誤差最小化をやる
（まじで？）
● この論文ではこれに注目する。なぜなら強い仮定がないので
○ 十分強い仮定にみえますがそれは
●
15

● ここでGをTukey's Factorizationの考え方を採用して、出力値を含めたLosgistic
RegressionでGを推定する
● 最終形は以下のadversarial gameになる
16

Minimax Optimization
● two timescale Gradient descent
ascent (GDA)を使う
○ 収束するのかどうかみたいな議論が論文中
にあったけどよく理解できていないです
●
17

Robust Evalution
● この結果得られたGを用いて、unbiasedな評価メトリックを提案する
○ Robust Evalutionという
● NDCGの場合
18

Experiment
● 3つの実験をやる
○ Explicit Feedbackデータを使ったシミュレーション
○ Real world datasetを使ったオフラインテスト
○ オンライン実験によるオフライン実験との一貫性の確認
●
19

Synthetic data analysis
● MovieLensとGoodreadsのデータ
● まずMFのモデルを学習し、exposure mechanismのoracleとする
● このOracleからImplicit Feedbackなデータを生成する
20

21
傾向スコアを一切使わなかったときのスコア (baseline)

Online experiment Analysis
● Walmart.comでの8つのA/Bテストをやってる
● オフラインでは提案モデルで学習する
● オンラインとオフラインについて書くMetricsに対してMSEをやる
23

まとめ
● 傾向スコアを使った推薦システムの学習について、これまでのモデルが強い過程で
簡略化していた部分を丁寧にモデル化
● exposure mechanismの敵対的な学習という形でモデルの学習を提案
● 学習過程で得られたexposure mechanismを使ってunbiasな評価指標を提案
● オフラインオンラインで改善を示した
24

所感
● わりとここ1~2年の流行りについて真っ向から戦っている内容で読んでて楽しかった
○ 数式は難しかったし、実力不足を感じました
● もう少し強い改善を期待していたが、数値的にはそこまで大きなimprovementがな
かったので、結果の詳細な分析を期待したいところ
● 著者らのいう強い仮定との比較が明瞭にはなかったので、そのへんで計算をサボっ
てまぁまぁの結果がでるならそれでいいんじゃないかなぁみたいな気もする
25

[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a [DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System

Semelhante a [DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System (18)

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

Último

Último (8)

[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System