SlideShare uma empresa Scribd logo
1 de 18
Baixar para ler offline
Recsys 2018勉強会
Unbiased offline recommender evaluation for missing-not-at-
random implicit feedback
2018/11/17 (⼟)
坪坂 正志
紹介する論⽂について
• Unbiased offline recommender evaluation for missing-not-at-random implicit
feedback
• ここ最近のレコメンドの研究の⼀つとして、オフラインのデータでレコメンドシステムを評価する際に従
来の評価指標はユーザの選択やシステムの実装などによるバイアスが発⽣するという状況をどう扱うかと
いうものがある。本論⽂もその⼀つ。
• 既存のバイアスについての研究はExplicit な feedback (レビューのように明⽰的な評価がある場合)のレコ
メンドシステムを対象としていた
• Recommendations as Treatments : Debiasing learning and evaluation (ICML 2016)
• 本研究では implicit feedback (クリックや購⼊など低い評価のレビューのようにnegativeなfeedbackをと
もなわない feedback) なレコメンデーションの評価においてバイアスを取り除いて評価する⽅法を提案し
ている
Explicit なレコメンドにおける評価バイアスの例
• 例えば下のような映画レコメンドシステムを既存ログから評価しようとしたときに、既
存のログからはシステムBの⽅がドラマの評価を精度よくあてることができており、よい
レコメンド結果と判定される
• ⼀⽅でホラー映画での評価は⼤きく外しており、このままリリースすると思った精度が
出ないことが考えられる
ホラー1 ドラマ1 ドラマ2 ドラマ3 ドラマ4
ドラマ好き、ホ
ラー嫌いのAさんの
評価
2 4 5 2 5
既存システムA
の評価
新システムBの
評価
2 3 5 5 3
5 4 5 2 5
Implicit なレコメンドの評価の場合
• ⼀⽅でimplicitなレコメンドの評価の場合は通常よくやられるのは、レコメンドシステム
に対して、ユーザがアクションしたアイテムとしなかったアイテムを合わせて並び替え
を実施して、評価したアイテムが何番⽬にくるかを評価する
• この場合はExplicitなレコメンドで起きたような問題は発⽣しないが、後述する別の問題
が起きてくる
ドラマ1 ドラマ2 ドラマ4
Aさんがアクション
したアイテム
既存システムAのア
イテムの並び替え
既存システムBのア
イテムの並び替え
ドラマ2 ドラマ3 ドラマ4 ドラマ1 ホラー1
ホラー2ドラマ2 ドラマ4 ドラマ1
ホラー2
ホラー1 ドラマ3
記法および評価指標について
• 𝑍",$ をレコメンドシステムがユーザuに対してアイテムiをレコメンドする順番とする
• AUC, DCG, Recallなどの評価指標はすべて𝑍",$ についての関数𝑐(𝑍",$)でかける
• 仮にユーザがポジティブなアクションをするアイテムの集合 𝑆"がすべてわかっている場
合は評価については(1)式であらわされるがここで発⽣する問題として𝑆"はすべてわかっ
てないというところにある (ユーザはシステムのすべてのアイテムを認識してるわけでは
ない)
Average-over-all evaluator
• 近似的な評価の⽅法としてAOAというものが⽤いられる
• ここで	𝑆"
∗ をユーザの観測されているポジティブなアクションの集合とする
• このときAOA評価指標は(6)の上の式のようにかける
• また𝑂",$をユーザがそのアイテムをみたかどうかの変数とすると下の式のように変形が可
能となる
AOAの⽋点
• 上の例としてはグレイがユーザが好むアイテム、実線が観測されているアイテムとする
• ここでは 𝑎-, 𝑎., 𝑎/, 𝑏1が観測されている
• 𝑍- はpopular itemを上に持ってきており、このレコメンドシステムの評価は⾼くなる
• 𝑍. は実はユーザの好みを全て当てられているが、上位のアイテムの評価が観測されてい
ないため、レコメンドシステムの評価が低くなる
Unbiased evaluator
• ここで評価についてのバイアスを補正するためにIPSというフレームワークを利⽤して、
各観測データの評価について𝑃",$で割ったものを利⽤する
• またSNIPS (Self-normalized inverse-propensity-scoring) という⽅法を⽤いる
Estimating propensity scores
• 𝑃",$ をユーザによらないものとする
• すなわち 𝑃",$ = 𝑃 𝑂",$ = 1 = 𝑃 𝑂∗,$ = 1 = 𝑃∗,$
• 上の確率をSelect, Interactの⼆つのフェイズでモデル化する
• Select はレコメンドシステムがその商品を選ぶ確率
• Interactはユーザがレコメンドされたアイテムをクリックなどする確率
• 𝑃∗,$ = 𝑃∗,$
567689
・𝑃∗,$
$:96;<89
• ここで
• 𝑃∗,$
$:96;<89
∝ 𝑛$ となる (𝑛$はアイテムの真の⼈気数を意味する、すべてのユーザがすべてのアイテムをみた
ときにアクションする数)
• またselectの確率についてはべき分布を仮定して
• 𝑃∗,$
567689
∝ (𝑛$
∗
)?
	
• とする (𝑛$
∗
はアイテムの観測データ中のアイテムに対するアクション数)
• 	このとき 𝑃∗,$ ∝ 𝑛$(𝑛$
∗
)?
• であるが𝑛$は観測できないという問題がある
Estimating propensity scores
• ⼀⽅で𝑛$
∗
は 𝑛$
∗
~𝐵(𝑛$, 𝑃∗,$)と仮定すると
• 𝑃∗,$ =
:B
∗
:B
∝ 𝑛$(𝑛$
∗
)?
• であるため
• 𝑛$ ∝ (𝑛$
∗
)
CDE
F
• ここから 𝑃∗,$ ∝ (𝑛$
∗
)
CGE
F
• となる
Experiments
• 利⽤するデータセット
• Citeulike : 記事を保存するかどうかをpositiveなfeedbackとして採⽤
• Tradesy : 商品を買う/欲しいものリストに⼊れるかどうか
• Amazon book : 本を購⼊するかどうか
• 検証⽤のアルゴリズム
• BPR, U-CML, A-CML, PMF
Investigating popularity bias
• バイアスには⼆つのバイアスがあり、interaction bias (ユーザは⼈気のある商品をより
クリックなどする)、presentation bias (レコメンドシステムは⼈気のある商品をよりレ
コメンドしやすい)
• これをデータセットから検証を⾏った、Figure 2は各アイテムに対してどの程度positive
なインタラクションがあったかをプロットしたものとなっている
• Amazon bookなどでは99.9%のアイテムがインタラクションが100以下となっており、
interaction biasが発⽣していることがわかる
Investigating popularity bias
• presentation bias については、アイテムの評価数𝑛$
∗
ごとに(20)式のように𝑁$ (アイテムi
がユーザのレコメンド上位50位にでてきた数)の平均をとった
• もしレコメンドシステムが⼈気に⽐例したレコメンドを実施していれば𝑛$
∗
と𝑓(𝑛$
∗
)は⽐例
するはずだが、Figure 3 にあるように検証⽤のアルゴリズム4つともに指数的にレコメン
ドでの表出数は増えており、presentation bias があることがわかる
Exploring the power-law exponent
• オフラインのレコメンド結果から	𝛾 を推定する
• 𝑃∗,$
567689
∝ 𝑛$
∗ ? ∝ 𝑓(𝑛∗ = 𝑛$
∗
) のため(21)式で誤差が最⼩になるような𝛾を推定する
Understanding the unbiased evaluator
• 3つのデータセットに対して4つのレコメンド⼿法について4つの指標をAOAおよび
Unbiased evaluatorで評価を実施した
Understanding the unbiased evaluator
• Unbiased evaluatorによって評価すると評価値は低くなった
• これは従来のレコメンドシステムの評価において、評価値がover estimateされてた可能性を⽰唆している
• Unbiased evaluatorによって評価しても⼿法間の優劣は変わらなかったが、差は変化し
た
• これは従来のレコメンドシステムの評価において⼿法間の優劣の度合いが正確ではなかったことを⽰唆し
ている
• べき分布のパラメータに対して評価がロバストであった
• これは観測パラメータの推定が不正確であったとしても、評価は⼤きく変わらないことを意味している
Evaluating debiasing performance
• Yahoo! Musicのデータを使い、biasのあるデータ、biasのないデータの⼆つを⽤意して
biasのないデータのAOAに対してbiasのあるデータでの評価指標の誤差をみた
• 提案⼿法はbiasのあるデータでAOAを使って評価するよりもより低い誤差となっている
Conclusion & Future work
• IPSという因果推論で使われている⽅法を⽤いて、Implicitなfeedbackを取り除く初めて
の研究を⾏った
• 今後の課題としては今回の研究で仮定したモデルの妥当性の検証がある
• User independent propensity
• 今回はアイテムを⾒る確率はユーザによらないとしたがそれでよかったか
• Selection-independent interaction
• アイテムがレコメンドされる確率、ユーザがレコメンドされた商品にアクションするかどうかを独⽴
としていたがそれでよかったか
• また、バイアスのあるデータから学習を⾏う⽅法についても今後の課題としている

Mais conteúdo relacionado

Mais de 正志 坪坂

KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing正志 坪坂
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model正志 坪坂
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220正志 坪坂
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回正志 坪坂
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict正志 坪坂
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計正志 坪坂
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining正志 坪坂
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit正志 坪坂
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング正志 坪坂
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて正志 坪坂
 

Mais de 正志 坪坂 (20)

WSDM2018Study
WSDM2018StudyWSDM2018Study
WSDM2018Study
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
 
Recsys2015
Recsys2015Recsys2015
Recsys2015
 
KDD 2015読み会
KDD 2015読み会KDD 2015読み会
KDD 2015読み会
 
Recsys2014 recruit
Recsys2014 recruitRecsys2014 recruit
Recsys2014 recruit
 
EMNLP2014_reading
EMNLP2014_readingEMNLP2014_reading
EMNLP2014_reading
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
Tokyowebmining2012
Tokyowebmining2012Tokyowebmining2012
Tokyowebmining2012
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて
 

Recsys2018 unbiased

  • 1. Recsys 2018勉強会 Unbiased offline recommender evaluation for missing-not-at- random implicit feedback 2018/11/17 (⼟) 坪坂 正志
  • 2. 紹介する論⽂について • Unbiased offline recommender evaluation for missing-not-at-random implicit feedback • ここ最近のレコメンドの研究の⼀つとして、オフラインのデータでレコメンドシステムを評価する際に従 来の評価指標はユーザの選択やシステムの実装などによるバイアスが発⽣するという状況をどう扱うかと いうものがある。本論⽂もその⼀つ。 • 既存のバイアスについての研究はExplicit な feedback (レビューのように明⽰的な評価がある場合)のレコ メンドシステムを対象としていた • Recommendations as Treatments : Debiasing learning and evaluation (ICML 2016) • 本研究では implicit feedback (クリックや購⼊など低い評価のレビューのようにnegativeなfeedbackをと もなわない feedback) なレコメンデーションの評価においてバイアスを取り除いて評価する⽅法を提案し ている
  • 3. Explicit なレコメンドにおける評価バイアスの例 • 例えば下のような映画レコメンドシステムを既存ログから評価しようとしたときに、既 存のログからはシステムBの⽅がドラマの評価を精度よくあてることができており、よい レコメンド結果と判定される • ⼀⽅でホラー映画での評価は⼤きく外しており、このままリリースすると思った精度が 出ないことが考えられる ホラー1 ドラマ1 ドラマ2 ドラマ3 ドラマ4 ドラマ好き、ホ ラー嫌いのAさんの 評価 2 4 5 2 5 既存システムA の評価 新システムBの 評価 2 3 5 5 3 5 4 5 2 5
  • 4. Implicit なレコメンドの評価の場合 • ⼀⽅でimplicitなレコメンドの評価の場合は通常よくやられるのは、レコメンドシステム に対して、ユーザがアクションしたアイテムとしなかったアイテムを合わせて並び替え を実施して、評価したアイテムが何番⽬にくるかを評価する • この場合はExplicitなレコメンドで起きたような問題は発⽣しないが、後述する別の問題 が起きてくる ドラマ1 ドラマ2 ドラマ4 Aさんがアクション したアイテム 既存システムAのア イテムの並び替え 既存システムBのア イテムの並び替え ドラマ2 ドラマ3 ドラマ4 ドラマ1 ホラー1 ホラー2ドラマ2 ドラマ4 ドラマ1 ホラー2 ホラー1 ドラマ3
  • 5. 記法および評価指標について • 𝑍",$ をレコメンドシステムがユーザuに対してアイテムiをレコメンドする順番とする • AUC, DCG, Recallなどの評価指標はすべて𝑍",$ についての関数𝑐(𝑍",$)でかける • 仮にユーザがポジティブなアクションをするアイテムの集合 𝑆"がすべてわかっている場 合は評価については(1)式であらわされるがここで発⽣する問題として𝑆"はすべてわかっ てないというところにある (ユーザはシステムのすべてのアイテムを認識してるわけでは ない)
  • 6. Average-over-all evaluator • 近似的な評価の⽅法としてAOAというものが⽤いられる • ここで 𝑆" ∗ をユーザの観測されているポジティブなアクションの集合とする • このときAOA評価指標は(6)の上の式のようにかける • また𝑂",$をユーザがそのアイテムをみたかどうかの変数とすると下の式のように変形が可 能となる
  • 7. AOAの⽋点 • 上の例としてはグレイがユーザが好むアイテム、実線が観測されているアイテムとする • ここでは 𝑎-, 𝑎., 𝑎/, 𝑏1が観測されている • 𝑍- はpopular itemを上に持ってきており、このレコメンドシステムの評価は⾼くなる • 𝑍. は実はユーザの好みを全て当てられているが、上位のアイテムの評価が観測されてい ないため、レコメンドシステムの評価が低くなる
  • 9. Estimating propensity scores • 𝑃",$ をユーザによらないものとする • すなわち 𝑃",$ = 𝑃 𝑂",$ = 1 = 𝑃 𝑂∗,$ = 1 = 𝑃∗,$ • 上の確率をSelect, Interactの⼆つのフェイズでモデル化する • Select はレコメンドシステムがその商品を選ぶ確率 • Interactはユーザがレコメンドされたアイテムをクリックなどする確率 • 𝑃∗,$ = 𝑃∗,$ 567689 ・𝑃∗,$ $:96;<89 • ここで • 𝑃∗,$ $:96;<89 ∝ 𝑛$ となる (𝑛$はアイテムの真の⼈気数を意味する、すべてのユーザがすべてのアイテムをみた ときにアクションする数) • またselectの確率についてはべき分布を仮定して • 𝑃∗,$ 567689 ∝ (𝑛$ ∗ )? • とする (𝑛$ ∗ はアイテムの観測データ中のアイテムに対するアクション数) • このとき 𝑃∗,$ ∝ 𝑛$(𝑛$ ∗ )? • であるが𝑛$は観測できないという問題がある
  • 10. Estimating propensity scores • ⼀⽅で𝑛$ ∗ は 𝑛$ ∗ ~𝐵(𝑛$, 𝑃∗,$)と仮定すると • 𝑃∗,$ = :B ∗ :B ∝ 𝑛$(𝑛$ ∗ )? • であるため • 𝑛$ ∝ (𝑛$ ∗ ) CDE F • ここから 𝑃∗,$ ∝ (𝑛$ ∗ ) CGE F • となる
  • 11. Experiments • 利⽤するデータセット • Citeulike : 記事を保存するかどうかをpositiveなfeedbackとして採⽤ • Tradesy : 商品を買う/欲しいものリストに⼊れるかどうか • Amazon book : 本を購⼊するかどうか • 検証⽤のアルゴリズム • BPR, U-CML, A-CML, PMF
  • 12. Investigating popularity bias • バイアスには⼆つのバイアスがあり、interaction bias (ユーザは⼈気のある商品をより クリックなどする)、presentation bias (レコメンドシステムは⼈気のある商品をよりレ コメンドしやすい) • これをデータセットから検証を⾏った、Figure 2は各アイテムに対してどの程度positive なインタラクションがあったかをプロットしたものとなっている • Amazon bookなどでは99.9%のアイテムがインタラクションが100以下となっており、 interaction biasが発⽣していることがわかる
  • 13. Investigating popularity bias • presentation bias については、アイテムの評価数𝑛$ ∗ ごとに(20)式のように𝑁$ (アイテムi がユーザのレコメンド上位50位にでてきた数)の平均をとった • もしレコメンドシステムが⼈気に⽐例したレコメンドを実施していれば𝑛$ ∗ と𝑓(𝑛$ ∗ )は⽐例 するはずだが、Figure 3 にあるように検証⽤のアルゴリズム4つともに指数的にレコメン ドでの表出数は増えており、presentation bias があることがわかる
  • 14. Exploring the power-law exponent • オフラインのレコメンド結果から 𝛾 を推定する • 𝑃∗,$ 567689 ∝ 𝑛$ ∗ ? ∝ 𝑓(𝑛∗ = 𝑛$ ∗ ) のため(21)式で誤差が最⼩になるような𝛾を推定する
  • 15. Understanding the unbiased evaluator • 3つのデータセットに対して4つのレコメンド⼿法について4つの指標をAOAおよび Unbiased evaluatorで評価を実施した
  • 16. Understanding the unbiased evaluator • Unbiased evaluatorによって評価すると評価値は低くなった • これは従来のレコメンドシステムの評価において、評価値がover estimateされてた可能性を⽰唆している • Unbiased evaluatorによって評価しても⼿法間の優劣は変わらなかったが、差は変化し た • これは従来のレコメンドシステムの評価において⼿法間の優劣の度合いが正確ではなかったことを⽰唆し ている • べき分布のパラメータに対して評価がロバストであった • これは観測パラメータの推定が不正確であったとしても、評価は⼤きく変わらないことを意味している
  • 17. Evaluating debiasing performance • Yahoo! Musicのデータを使い、biasのあるデータ、biasのないデータの⼆つを⽤意して biasのないデータのAOAに対してbiasのあるデータでの評価指標の誤差をみた • 提案⼿法はbiasのあるデータでAOAを使って評価するよりもより低い誤差となっている
  • 18. Conclusion & Future work • IPSという因果推論で使われている⽅法を⽤いて、Implicitなfeedbackを取り除く初めて の研究を⾏った • 今後の課題としては今回の研究で仮定したモデルの妥当性の検証がある • User independent propensity • 今回はアイテムを⾒る確率はユーザによらないとしたがそれでよかったか • Selection-independent interaction • アイテムがレコメンドされる確率、ユーザがレコメンドされた商品にアクションするかどうかを独⽴ としていたがそれでよかったか • また、バイアスのあるデータから学習を⾏う⽅法についても今後の課題としている