Recsys2018 unbiased

Recsys 2018勉強会
Unbiased offline recommender evaluation for missing-not-at-
random implicit feedback
2018/11/17 (⼟)
坪坂正志

紹介する論⽂について
• Unbiased offline recommender evaluation for missing-not-at-random implicit
feedback
• ここ最近のレコメンドの研究の⼀つとして、オフラインのデータでレコメンドシステムを評価する際に従
来の評価指標はユーザの選択やシステムの実装などによるバイアスが発⽣するという状況をどう扱うかと
いうものがある。本論⽂もその⼀つ。
• 既存のバイアスについての研究はExplicit な feedback (レビューのように明⽰的な評価がある場合)のレコ
メンドシステムを対象としていた
• Recommendations as Treatments : Debiasing learning and evaluation (ICML 2016)
• 本研究では implicit feedback (クリックや購⼊など低い評価のレビューのようにnegativeなfeedbackをと
もなわない feedback) なレコメンデーションの評価においてバイアスを取り除いて評価する⽅法を提案し
ている

Explicit なレコメンドにおける評価バイアスの例
• 例えば下のような映画レコメンドシステムを既存ログから評価しようとしたときに、既
存のログからはシステムBの⽅がドラマの評価を精度よくあてることができており、よい
レコメンド結果と判定される
• ⼀⽅でホラー映画での評価は⼤きく外しており、このままリリースすると思った精度が
出ないことが考えられる
ホラー1 ドラマ1 ドラマ2 ドラマ3 ドラマ4
ドラマ好き、ホ
ラー嫌いのAさんの
評価
2 4 5 2 5
既存システムA
の評価
新システムBの
評価
2 3 5 5 3
5 4 5 2 5

Implicit なレコメンドの評価の場合
• ⼀⽅でimplicitなレコメンドの評価の場合は通常よくやられるのは、レコメンドシステム
に対して、ユーザがアクションしたアイテムとしなかったアイテムを合わせて並び替え
を実施して、評価したアイテムが何番⽬にくるかを評価する
• この場合はExplicitなレコメンドで起きたような問題は発⽣しないが、後述する別の問題
が起きてくる
ドラマ1 ドラマ2 ドラマ4
Aさんがアクション
したアイテム
既存システムAのア
イテムの並び替え
既存システムBのア
イテムの並び替え
ドラマ2 ドラマ3 ドラマ4 ドラマ1 ホラー1
ホラー2ドラマ2 ドラマ4 ドラマ1
ホラー2
ホラー1 ドラマ3

記法および評価指標について
• 𝑍",$ をレコメンドシステムがユーザuに対してアイテムiをレコメンドする順番とする
• AUC, DCG, Recallなどの評価指標はすべて𝑍",$ についての関数𝑐(𝑍",$)でかける
• 仮にユーザがポジティブなアクションをするアイテムの集合 𝑆"がすべてわかっている場
合は評価については(1)式であらわされるがここで発⽣する問題として𝑆"はすべてわかっ
てないというところにある (ユーザはシステムのすべてのアイテムを認識してるわけでは
ない)

Average-over-all evaluator
• 近似的な評価の⽅法としてAOAというものが⽤いられる
• ここで 𝑆"
∗ をユーザの観測されているポジティブなアクションの集合とする
• このときAOA評価指標は(6)の上の式のようにかける
• また𝑂",$をユーザがそのアイテムをみたかどうかの変数とすると下の式のように変形が可
能となる

AOAの⽋点
• 上の例としてはグレイがユーザが好むアイテム、実線が観測されているアイテムとする
• ここでは 𝑎-, 𝑎., 𝑎/, 𝑏1が観測されている
• 𝑍- はpopular itemを上に持ってきており、このレコメンドシステムの評価は⾼くなる
• 𝑍. は実はユーザの好みを全て当てられているが、上位のアイテムの評価が観測されてい
ないため、レコメンドシステムの評価が低くなる

Unbiased evaluator
• ここで評価についてのバイアスを補正するためにIPSというフレームワークを利⽤して、
各観測データの評価について𝑃",$で割ったものを利⽤する
• またSNIPS (Self-normalized inverse-propensity-scoring) という⽅法を⽤いる

Estimating propensity scores
• 𝑃",$ をユーザによらないものとする
• すなわち 𝑃",$ = 𝑃 𝑂",$ = 1 = 𝑃 𝑂∗,$ = 1 = 𝑃∗,$
• 上の確率をSelect, Interactの⼆つのフェイズでモデル化する
• Select はレコメンドシステムがその商品を選ぶ確率
• Interactはユーザがレコメンドされたアイテムをクリックなどする確率
• 𝑃∗,$ = 𝑃∗,$
567689
・𝑃∗,$
$:96;<89
• ここで
• 𝑃∗,$
$:96;<89
∝ 𝑛$ となる (𝑛$はアイテムの真の⼈気数を意味する、すべてのユーザがすべてのアイテムをみた
ときにアクションする数)
• またselectの確率についてはべき分布を仮定して
• 𝑃∗,$
567689
∝ (𝑛$
∗
)?

• とする (𝑛$
∗
はアイテムの観測データ中のアイテムに対するアクション数)
• このとき 𝑃∗,$ ∝ 𝑛$(𝑛$
∗
)?
• であるが𝑛$は観測できないという問題がある

Estimating propensity scores
• ⼀⽅で𝑛$
∗
は 𝑛$
∗
~𝐵(𝑛$, 𝑃∗,$)と仮定すると
• 𝑃∗,$ =
:B
∗
:B
∝ 𝑛$(𝑛$
∗
)?
• であるため
• 𝑛$ ∝ (𝑛$
∗
)
CDE
F
• ここから 𝑃∗,$ ∝ (𝑛$
∗
)
CGE
F
• となる

Experiments
• 利⽤するデータセット
• Citeulike : 記事を保存するかどうかをpositiveなfeedbackとして採⽤
• Tradesy : 商品を買う/欲しいものリストに⼊れるかどうか
• Amazon book : 本を購⼊するかどうか
• 検証⽤のアルゴリズム
• BPR, U-CML, A-CML, PMF

Investigating popularity bias
• バイアスには⼆つのバイアスがあり、interaction bias (ユーザは⼈気のある商品をより
クリックなどする)、presentation bias (レコメンドシステムは⼈気のある商品をよりレ
コメンドしやすい)
• これをデータセットから検証を⾏った、Figure 2は各アイテムに対してどの程度positive
なインタラクションがあったかをプロットしたものとなっている
• Amazon bookなどでは99.9%のアイテムがインタラクションが100以下となっており、
interaction biasが発⽣していることがわかる

Investigating popularity bias
• presentation bias については、アイテムの評価数𝑛$
∗
ごとに(20)式のように𝑁$ (アイテムi
がユーザのレコメンド上位50位にでてきた数)の平均をとった
• もしレコメンドシステムが⼈気に⽐例したレコメンドを実施していれば𝑛$
∗
と𝑓(𝑛$
∗
)は⽐例
するはずだが、Figure 3 にあるように検証⽤のアルゴリズム4つともに指数的にレコメン
ドでの表出数は増えており、presentation bias があることがわかる

Exploring the power-law exponent
• オフラインのレコメンド結果から 𝛾 を推定する
• 𝑃∗,$
567689
∝ 𝑛$
∗ ? ∝ 𝑓(𝑛∗ = 𝑛$
∗
) のため(21)式で誤差が最⼩になるような𝛾を推定する

Understanding the unbiased evaluator
• 3つのデータセットに対して4つのレコメンド⼿法について4つの指標をAOAおよび
Unbiased evaluatorで評価を実施した

Understanding the unbiased evaluator
• Unbiased evaluatorによって評価すると評価値は低くなった
• これは従来のレコメンドシステムの評価において、評価値がover estimateされてた可能性を⽰唆している
• Unbiased evaluatorによって評価しても⼿法間の優劣は変わらなかったが、差は変化し
た
• これは従来のレコメンドシステムの評価において⼿法間の優劣の度合いが正確ではなかったことを⽰唆し
ている
• べき分布のパラメータに対して評価がロバストであった
• これは観測パラメータの推定が不正確であったとしても、評価は⼤きく変わらないことを意味している

Evaluating debiasing performance
• Yahoo! Musicのデータを使い、biasのあるデータ、biasのないデータの⼆つを⽤意して
biasのないデータのAOAに対してbiasのあるデータでの評価指標の誤差をみた
• 提案⼿法はbiasのあるデータでAOAを使って評価するよりもより低い誤差となっている

Conclusion & Future work
• IPSという因果推論で使われている⽅法を⽤いて、Implicitなfeedbackを取り除く初めて
の研究を⾏った
• 今後の課題としては今回の研究で仮定したモデルの妥当性の検証がある
• User independent propensity
• 今回はアイテムを⾒る確率はユーザによらないとしたがそれでよかったか
• Selection-independent interaction
• アイテムがレコメンドされる確率、ユーザがレコメンドされた商品にアクションするかどうかを独⽴
としていたがそれでよかったか
• また、バイアスのあるデータから学習を⾏う⽅法についても今後の課題としている

Recsys2018 unbiased

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de 正志坪坂

Mais de 正志坪坂 (20)