NIPS 2012 読む会

坪坂正志
mail : m.tsubosaka(at)gmail(dot)com

紹介論文
 Linear submodular bandits and their
application to diversified retrieval
 Yisong Yue, Carlos Guestrin (Carnegie
Mellon University)

問題
 ニュース記事のレコメンドなどでユーザに
対して複数の記事を提示したい
 提示結果はパーソナライズしたい

Challenge
 Diversification
 なるべく同じ記事が並ばないようにしたい
 Feature-based exploration
 ユーザに記事を提示して、その結果クリックさ
れる/されないというフィードバックを受け取り、
そのユーザがスポーツに興味はあるけど政治に
は興味がないなどの嗜好を効率的に学習したい

Diversification
 ニュース記事が𝑑個のトピック確率によって
表されるとする
 例えば記事Aはスポーツ0.5, 芸能 0.5
 記事Bは政治0.8, 経済0.2など
 Probabilistic coverage
 トピック𝑖に関するcoverageを
 𝐹𝑖 𝐴 = 1 − 𝑎∈𝐴(1 − 𝑃 𝑖 𝑎 )と定義する
 たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1と
なるものが入っていれば、他の記事をどれだけ
追加したかに関わらず𝐹𝑖 𝑎 = 1

評価関数
 記事の集合𝐴に対して、ユーザに関しての評
価関数を
 𝐹 𝐴 𝑤 = 𝑤 𝑇 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 (𝑤 ≥ 0)
 とする
 ここで𝑤はユーザがどのトピックを好むかを
表すベクトルである

Local Linearity
 記事集合𝐴に対して、記事𝑎を追加した場合の利
得は𝑤 𝑇 Δ(𝑎|𝐴)で表される
Δ 𝑎 𝐴 =
 < 𝐹1 𝐴 ∪ 𝑎 − 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 ∪ 𝑎 − 𝐹 𝑑 𝐴 >
 ユーザの興味に合致したトピックでもすでに記事
集合に含まれてるものの利得は小さくなる

Optimization
 argmax 𝐴:𝐴≤ 𝐿 𝐹(𝐴|𝑤)を求める
ここで𝐹にsubmodular性があることを使う
と
 𝑤 𝑇 Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲
1
に追加することで最適解の 1 − ≃ 0.63倍
𝑒
の解が達成できることが保証されている

Submodularとは
 𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき
 𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵)
 が成立するとき𝐹はSubmodular関数である
と言う

Linear Submodular Bandits
Problem
 時刻𝑡 = 1, … , 𝑇まで以下の処理を行う
 アルゴリズムは記事の集合𝐴 𝑡 = (𝑎1 , … , 𝑎 𝑡𝐿 )
𝑡
を選択する
 ユーザは記事集合に関して報酬(クリックす
るor 無視する)𝑟 𝑡 (𝐴 𝑡 )を与える

報酬モデル
 ユーザは記事を上から下に見ていく
 ユーザは𝑙番目の記事に関して、
 確率 w ∗ T Δ(𝑎 𝑙 |𝐴1:𝑙−1 )に従ってクリックする
𝐿
 報酬は和の形𝑟 𝑡 𝐴 = 𝑙=1 𝑟 𝑡𝑙 (𝐴)で表されるとす
る
 このとき期待値は
 𝐸 𝑟 𝑡𝑙 𝐴 = 𝑤 ∗ 𝑇 Δ(𝑎 𝑙 |𝐴1:𝑙−1 )

Regret
 最適な集合の選択をした場合との実際の報
酬との差分
1
 𝑅𝑒𝑔 𝑇 = 1− 𝑡 𝐸 𝑟 𝑡 𝐴∗𝑡 − 𝑡 𝑟 𝑡 (𝐴 𝑡 )
𝑒
1
 = 1− 𝑂𝑃𝑇 − 𝑡 𝑟 𝑡 (𝐴 𝑡 )
𝑒
∗
 ここで最適な𝑤 が求まっても、集合の選択
1
を貪欲に行うと最適解の(1 − )倍までしか
𝑒
達成できないので最適解にかける

Algorithm
データ対(Δ 𝑙𝜏 , 𝑟𝜏𝑙 )を使って線形回帰に
より重みベクトル𝑤 𝑡 を計算する

Algorithm

𝑙番目の記事に関する期待利得と信頼区間を計
算する
信頼区間の上限の部分まで考えて記事を選択
する

Confidence interval
記事1 記事1の方が期待値は低いが信頼区間の
上限は大きいので記事1を選択
記事2

 記事の利得の期待値だけではなく、信頼区
間の大きさも利用して記事を選択する
 データが少ないものについては信頼区間が大き
くなり、値が大きくなる (explore : 探索)
 データが多いものについては期待値をそのまま
利用する

Theory

 logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑
えられる

他のBandit algorithmとの関係
 特徴量を使わない場合
 UCBなど
 固定された記事(数個程度)において最もクリックされやす
いものを探索する
 cf. Finite-time analysis of the multiarmed bandit problem,
Machine Learning 2002
 特徴量を使うが１つだけ選択する場合
 LinUCB
 ユーザや記事の特徴量を用いて記事を選択する(新規記事
に対しても特徴量を使ってCTRを予測できる)
 今回の論文では特徴量はトピックにあたる
 cf. A contextual-bandit approach to personalized news
article recommendation, WWW 2010

Experiment (Simulation)
 正解の𝑤 ∗ が分かっているという状況でシ
ミュレーションを行う
 Synthetic data
 𝑑 = 25, 𝑤 ∗ はランダムに作成
 Blog dataset
 𝑑 = 100, 𝑤 ∗ は事前のユーザスタディにより決定

Competing method
 Multiplicative Weighting
 explorationを行わない手法
 RankLinUCB
 𝐿個の独立なLinUCBを利用する
 ε-Greedy
 確率εでランダムな記事を選択、そうでない場合
最もCTRの高い記事を選ぶ

ユーザによる評価

 2つのアルゴリズムの出力をInterleavingして
どちらのアルゴリズムが好ましいか、ユー
ザの評価から確認した
 static baselineはパーソナライズを行わないもの
になる

まとめ
 ユーザのフィードバックを受け取りながら
Diversified retrievalを行うための一般的なフ
レームワークを提案した
 提案したアルゴリズムであるLSBGreedyが
ユーザアンケートの結果ニュース記事のレ
コメンドにおいては最も良い結果となった

NIPS 2012 読む会

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a NIPS 2012 読む会

Semelhante a NIPS 2012 読む会 (11)

Mais de 正志坪坂

Mais de 正志坪坂 (14)