Enviar pesquisa
Carregar
Recsys2018 unbiased
•
0 gostou
•
1,622 visualizações
正志 坪坂
Seguir
Recsys 2018勉強会資料
Leia menos
Leia mais
Ciências
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 18
Baixar agora
Baixar para ler offline
Recomendados
CFML_learning_sato.pdf
CFML_learning_sato.pdf
Masahiro Sato
20220521_IR_reading_Sato.pptx
20220521_IR_reading_Sato.pptx
Masahiro Sato
WWW2017 Recommender Systems ふりかえり
WWW2017 Recommender Systems ふりかえり
yyammt
情報アクセス技術のためのテストコレクション作成
情報アクセス技術のためのテストコレクション作成
kt.mako
Sample deck
Sample deck
Yuya Nakata
初期レビューを用いた長期間評価推定
初期レビューを用いた長期間評価推定
Junpei Kawamoto
事例から見るテスト自動化のポイント
事例から見るテスト自動化のポイント
Hiroshi Maekawa
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System
Deep Learning JP
Recomendados
CFML_learning_sato.pdf
CFML_learning_sato.pdf
Masahiro Sato
20220521_IR_reading_Sato.pptx
20220521_IR_reading_Sato.pptx
Masahiro Sato
WWW2017 Recommender Systems ふりかえり
WWW2017 Recommender Systems ふりかえり
yyammt
情報アクセス技術のためのテストコレクション作成
情報アクセス技術のためのテストコレクション作成
kt.mako
Sample deck
Sample deck
Yuya Nakata
初期レビューを用いた長期間評価推定
初期レビューを用いた長期間評価推定
Junpei Kawamoto
事例から見るテスト自動化のポイント
事例から見るテスト自動化のポイント
Hiroshi Maekawa
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System
[DL輪読会]Adversarial Counterfactual Learning and Evaluation for Recommender System
Deep Learning JP
WSDM2018Study
WSDM2018Study
正志 坪坂
Recsys2016勉強会
Recsys2016勉強会
正志 坪坂
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
正志 坪坂
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
正志 坪坂
Deeplearning勉強会20160220
Deeplearning勉強会20160220
正志 坪坂
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
正志 坪坂
Recsys2015
Recsys2015
正志 坪坂
KDD 2015読み会
KDD 2015読み会
正志 坪坂
Recsys2014 recruit
Recsys2014 recruit
正志 坪坂
EMNLP2014_reading
EMNLP2014_reading
正志 坪坂
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
正志 坪坂
KDD2014_study
KDD2014_study
正志 坪坂
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
正志 坪坂
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
正志 坪坂
Introduction to contexual bandit
Introduction to contexual bandit
正志 坪坂
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
正志 坪坂
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
Tokyowebmining2012
Tokyowebmining2012
正志 坪坂
static index pruningについて
static index pruningについて
正志 坪坂
Mais conteúdo relacionado
Mais de 正志 坪坂
WSDM2018Study
WSDM2018Study
正志 坪坂
Recsys2016勉強会
Recsys2016勉強会
正志 坪坂
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
正志 坪坂
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
正志 坪坂
Deeplearning勉強会20160220
Deeplearning勉強会20160220
正志 坪坂
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
正志 坪坂
Recsys2015
Recsys2015
正志 坪坂
KDD 2015読み会
KDD 2015読み会
正志 坪坂
Recsys2014 recruit
Recsys2014 recruit
正志 坪坂
EMNLP2014_reading
EMNLP2014_reading
正志 坪坂
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
正志 坪坂
KDD2014_study
KDD2014_study
正志 坪坂
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
正志 坪坂
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
正志 坪坂
Introduction to contexual bandit
Introduction to contexual bandit
正志 坪坂
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
正志 坪坂
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
Tokyowebmining2012
Tokyowebmining2012
正志 坪坂
static index pruningについて
static index pruningについて
正志 坪坂
Mais de 正志 坪坂
(20)
WSDM2018Study
WSDM2018Study
Recsys2016勉強会
Recsys2016勉強会
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
Deeplearning輪読会
Deeplearning輪読会
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
Deeplearning勉強会20160220
Deeplearning勉強会20160220
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
Recsys2015
Recsys2015
KDD 2015読み会
KDD 2015読み会
Recsys2014 recruit
Recsys2014 recruit
EMNLP2014_reading
EMNLP2014_reading
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
KDD2014_study
KDD2014_study
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
Introduction to contexual bandit
Introduction to contexual bandit
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
Tokyowebmining2012
Tokyowebmining2012
static index pruningについて
static index pruningについて
Recsys2018 unbiased
1.
Recsys 2018勉強会 Unbiased offline
recommender evaluation for missing-not-at- random implicit feedback 2018/11/17 (⼟) 坪坂 正志
2.
紹介する論⽂について • Unbiased offline
recommender evaluation for missing-not-at-random implicit feedback • ここ最近のレコメンドの研究の⼀つとして、オフラインのデータでレコメンドシステムを評価する際に従 来の評価指標はユーザの選択やシステムの実装などによるバイアスが発⽣するという状況をどう扱うかと いうものがある。本論⽂もその⼀つ。 • 既存のバイアスについての研究はExplicit な feedback (レビューのように明⽰的な評価がある場合)のレコ メンドシステムを対象としていた • Recommendations as Treatments : Debiasing learning and evaluation (ICML 2016) • 本研究では implicit feedback (クリックや購⼊など低い評価のレビューのようにnegativeなfeedbackをと もなわない feedback) なレコメンデーションの評価においてバイアスを取り除いて評価する⽅法を提案し ている
3.
Explicit なレコメンドにおける評価バイアスの例 • 例えば下のような映画レコメンドシステムを既存ログから評価しようとしたときに、既 存のログからはシステムBの⽅がドラマの評価を精度よくあてることができており、よい レコメンド結果と判定される •
⼀⽅でホラー映画での評価は⼤きく外しており、このままリリースすると思った精度が 出ないことが考えられる ホラー1 ドラマ1 ドラマ2 ドラマ3 ドラマ4 ドラマ好き、ホ ラー嫌いのAさんの 評価 2 4 5 2 5 既存システムA の評価 新システムBの 評価 2 3 5 5 3 5 4 5 2 5
4.
Implicit なレコメンドの評価の場合 • ⼀⽅でimplicitなレコメンドの評価の場合は通常よくやられるのは、レコメンドシステム に対して、ユーザがアクションしたアイテムとしなかったアイテムを合わせて並び替え を実施して、評価したアイテムが何番⽬にくるかを評価する •
この場合はExplicitなレコメンドで起きたような問題は発⽣しないが、後述する別の問題 が起きてくる ドラマ1 ドラマ2 ドラマ4 Aさんがアクション したアイテム 既存システムAのア イテムの並び替え 既存システムBのア イテムの並び替え ドラマ2 ドラマ3 ドラマ4 ドラマ1 ホラー1 ホラー2ドラマ2 ドラマ4 ドラマ1 ホラー2 ホラー1 ドラマ3
5.
記法および評価指標について • 𝑍",$ をレコメンドシステムがユーザuに対してアイテムiをレコメンドする順番とする •
AUC, DCG, Recallなどの評価指標はすべて𝑍",$ についての関数𝑐(𝑍",$)でかける • 仮にユーザがポジティブなアクションをするアイテムの集合 𝑆"がすべてわかっている場 合は評価については(1)式であらわされるがここで発⽣する問題として𝑆"はすべてわかっ てないというところにある (ユーザはシステムのすべてのアイテムを認識してるわけでは ない)
6.
Average-over-all evaluator • 近似的な評価の⽅法としてAOAというものが⽤いられる •
ここで 𝑆" ∗ をユーザの観測されているポジティブなアクションの集合とする • このときAOA評価指標は(6)の上の式のようにかける • また𝑂",$をユーザがそのアイテムをみたかどうかの変数とすると下の式のように変形が可 能となる
7.
AOAの⽋点 • 上の例としてはグレイがユーザが好むアイテム、実線が観測されているアイテムとする • ここでは
𝑎-, 𝑎., 𝑎/, 𝑏1が観測されている • 𝑍- はpopular itemを上に持ってきており、このレコメンドシステムの評価は⾼くなる • 𝑍. は実はユーザの好みを全て当てられているが、上位のアイテムの評価が観測されてい ないため、レコメンドシステムの評価が低くなる
8.
Unbiased evaluator • ここで評価についてのバイアスを補正するためにIPSというフレームワークを利⽤して、 各観測データの評価について𝑃",$で割ったものを利⽤する •
またSNIPS (Self-normalized inverse-propensity-scoring) という⽅法を⽤いる
9.
Estimating propensity scores •
𝑃",$ をユーザによらないものとする • すなわち 𝑃",$ = 𝑃 𝑂",$ = 1 = 𝑃 𝑂∗,$ = 1 = 𝑃∗,$ • 上の確率をSelect, Interactの⼆つのフェイズでモデル化する • Select はレコメンドシステムがその商品を選ぶ確率 • Interactはユーザがレコメンドされたアイテムをクリックなどする確率 • 𝑃∗,$ = 𝑃∗,$ 567689 ・𝑃∗,$ $:96;<89 • ここで • 𝑃∗,$ $:96;<89 ∝ 𝑛$ となる (𝑛$はアイテムの真の⼈気数を意味する、すべてのユーザがすべてのアイテムをみた ときにアクションする数) • またselectの確率についてはべき分布を仮定して • 𝑃∗,$ 567689 ∝ (𝑛$ ∗ )? • とする (𝑛$ ∗ はアイテムの観測データ中のアイテムに対するアクション数) • このとき 𝑃∗,$ ∝ 𝑛$(𝑛$ ∗ )? • であるが𝑛$は観測できないという問題がある
10.
Estimating propensity scores •
⼀⽅で𝑛$ ∗ は 𝑛$ ∗ ~𝐵(𝑛$, 𝑃∗,$)と仮定すると • 𝑃∗,$ = :B ∗ :B ∝ 𝑛$(𝑛$ ∗ )? • であるため • 𝑛$ ∝ (𝑛$ ∗ ) CDE F • ここから 𝑃∗,$ ∝ (𝑛$ ∗ ) CGE F • となる
11.
Experiments • 利⽤するデータセット • Citeulike
: 記事を保存するかどうかをpositiveなfeedbackとして採⽤ • Tradesy : 商品を買う/欲しいものリストに⼊れるかどうか • Amazon book : 本を購⼊するかどうか • 検証⽤のアルゴリズム • BPR, U-CML, A-CML, PMF
12.
Investigating popularity bias •
バイアスには⼆つのバイアスがあり、interaction bias (ユーザは⼈気のある商品をより クリックなどする)、presentation bias (レコメンドシステムは⼈気のある商品をよりレ コメンドしやすい) • これをデータセットから検証を⾏った、Figure 2は各アイテムに対してどの程度positive なインタラクションがあったかをプロットしたものとなっている • Amazon bookなどでは99.9%のアイテムがインタラクションが100以下となっており、 interaction biasが発⽣していることがわかる
13.
Investigating popularity bias •
presentation bias については、アイテムの評価数𝑛$ ∗ ごとに(20)式のように𝑁$ (アイテムi がユーザのレコメンド上位50位にでてきた数)の平均をとった • もしレコメンドシステムが⼈気に⽐例したレコメンドを実施していれば𝑛$ ∗ と𝑓(𝑛$ ∗ )は⽐例 するはずだが、Figure 3 にあるように検証⽤のアルゴリズム4つともに指数的にレコメン ドでの表出数は増えており、presentation bias があることがわかる
14.
Exploring the power-law
exponent • オフラインのレコメンド結果から 𝛾 を推定する • 𝑃∗,$ 567689 ∝ 𝑛$ ∗ ? ∝ 𝑓(𝑛∗ = 𝑛$ ∗ ) のため(21)式で誤差が最⼩になるような𝛾を推定する
15.
Understanding the unbiased
evaluator • 3つのデータセットに対して4つのレコメンド⼿法について4つの指標をAOAおよび Unbiased evaluatorで評価を実施した
16.
Understanding the unbiased
evaluator • Unbiased evaluatorによって評価すると評価値は低くなった • これは従来のレコメンドシステムの評価において、評価値がover estimateされてた可能性を⽰唆している • Unbiased evaluatorによって評価しても⼿法間の優劣は変わらなかったが、差は変化し た • これは従来のレコメンドシステムの評価において⼿法間の優劣の度合いが正確ではなかったことを⽰唆し ている • べき分布のパラメータに対して評価がロバストであった • これは観測パラメータの推定が不正確であったとしても、評価は⼤きく変わらないことを意味している
17.
Evaluating debiasing performance •
Yahoo! Musicのデータを使い、biasのあるデータ、biasのないデータの⼆つを⽤意して biasのないデータのAOAに対してbiasのあるデータでの評価指標の誤差をみた • 提案⼿法はbiasのあるデータでAOAを使って評価するよりもより低い誤差となっている
18.
Conclusion & Future
work • IPSという因果推論で使われている⽅法を⽤いて、Implicitなfeedbackを取り除く初めて の研究を⾏った • 今後の課題としては今回の研究で仮定したモデルの妥当性の検証がある • User independent propensity • 今回はアイテムを⾒る確率はユーザによらないとしたがそれでよかったか • Selection-independent interaction • アイテムがレコメンドされる確率、ユーザがレコメンドされた商品にアクションするかどうかを独⽴ としていたがそれでよかったか • また、バイアスのあるデータから学習を⾏う⽅法についても今後の課題としている
Baixar agora