Topic Model Survey (wsdm2012)

トピックモデル勉強会
WSDM2012

@y_benjo

論文一覧

• Auralist: Introducing Serendipity into Music
Recommendation

• ETF: Extended Tensor Factorization Model for Personalizing
Prediction of Review Helpfulness

• Mining Contrastive Opinions on Political Texts using Cross-
Perspective Topic Model

• Pairwise Cross-Domain Factor Model for Heterogeneous
Transfer Ranking

• Scalable Inference in Latent Variable Models

論文一覧

• Auralist: Introducing Serendipity into Music
推薦の話
Recommendation

• ETF: Extended Tensor Factorization Model for Personalizing
レビューの話
Prediction of Review Helpfulness

• Mining Contrastive Opinions on Political Texts using Cross-
意見の話
Perspective Topic Model

• Pairwise Cross-Domain Factor Model for Heterogeneous
Transfer Ranking ランキングの話

• Scalable Inference in Latent Variable Models
スケーラブルの話

Auralist: Introducing Serendipity
into Music Recommendation

Yuan Cao Zhang, Diarmuid Séaghdha,
Daniele Quercia and Tamas Jambor
(Multimedia and Geo Mining)

Auralist

• 背景
• 音楽を推薦したい
• 解くべき課題: 精度だけじゃいかん
• diversity: 幅広く推薦したい
• novelty: 知らなかったものを推薦したい
• serendipity: 意外なものを推薦したい

Auralist

• 方針:
• accuracy/diversity/novelty/serendipityを考慮した推薦
を実現

• オリジナリティ:
• Artist-userにLDAを使ってp(user¦z)から類似度を測る
• Artist-LDA + Listener Diversity(serendipity)
• トピックの情報量でDiversityを測る

• Artist-LDA + Declustering
• もう既に退屈しているであろうアーティストを除外する

Auralist

• 評価
• データ: Last.fm dataset
• 実験1: 既存指標
• 実験2: ユーザ調査
• 「知らなかった曲を教えてくれて最高だぜ！HAHAHA!」

• 感想
• タイトルがかっこいい
• 手法は超絶アレなグラフィカルモデルが書いてあるわけで
はない

ETF: Extended Tensor Factorization
Model for Personalizing Prediction
of Review Helpfulness
Samaneh Moghaddam, Mohsen Jamali and Martin Ester
(Spotlight on Mining)

ETF

• 背景
• レビューが増えすぎている
• 解くべき課題
• クオリティが高く有用なレビューを抽出したい
• 読む人によってレビューの有用度は異なる

ETF

• 方針
• reviewer，review，rater(読む人)，productを潜在変数と
して考える
• 文章/ソーシャルの要素を考えなくて済む

• オリジナリティ
• MF: rater review で行列分解
• TF: rater reviewer productをテンソル分解
• ETF: TF + レビュアーの全商品に対する得点
• BETF: ETF + バイアス

ETF

• 評価
• データ: Epinions
• 指標: RMSE
• テキストを使ったものより改善

• レビュー数5未満のユーザに対してRMSEが倍近く改善

• 感想
• 読んでわかったけどトピックモデルじゃない
• グラフィカルモデルに釣られた

• テンソル分解とか楽しそうで紹介した

Mining Contrastive Opinions on
Political Texts using the Cross-
perspective Topic Model
Yi Fang, Luo Si, Naveen Somasundaram and Zhengtao Yu

Mining Contrastive Opinions

• 背景
• 異なる観点ごとにまとめ，その違いを定量化したい
• 想定例
• 入力: 新聞社ごとの文章や，政党ごとのマニフェスト
• 出力: それぞれの政策や法案，事件について新聞社や政党ご
との意見

• 方針・オリジナリティ
• Cross-Perspective Topic(CPT) modelの提案
• Jensen-Shannon divergenceで違いを定量化
トピック共通

オピニオン固有オピニオン固有

ﬁg1の簡単なイメージ図
同じトピックから異なるオピニオンワードが生成される


• 評価
• Perplexity，P@N，nDCG，MMR(関連度)
• 質的分析
• トピックごとにそれっぽいか

• 意見の異なりはそれっぽいか

• 感想
• 完全なunsupervisedかと思って途中まで読んでいた
• <document, opinion word, word> が入力形式

• ダライラマに関して新華社とNYTで意見がかなり違うとい
うのに笑った

Pairwise Cross-Domain Factor
Model for Heterogeneous Transfer
Ranking
Bo Long, Yi Chang, Anlei Dong and Jianzhang He

Pairwise Cross-Domain

• 背景
• ランキング学習で二つのジャンルのデータを使いたい
• transfer learning + learning to rankをどう解くか?
• targetとsourceで共通して持つ/持たない特徴量がある場
合にどう解くか

• 方針・オリジナリティ
• 共通する次元は「同じパラメータ」を持つ分布から
• 異なる次元は異なるパラメータを持つ分布から
S固有次元 ST共通次元 ST共通次元 T固有次元

スコアS スコアT

選好順序

ﬁg1のイメージ


• 評価
• データ
• ソース => 普通の英語圏の検索

• ターゲット => スペイン語の普通の検索，英語圏のニュース検索，非
英語圏のQAサイトの検索

• 指標: DCG
• 感想
• グラフィカルモデルが曼荼羅かと思ったが意味は分かった

Scalable Inference in Latent
Variable Models

Amr Ahmed, Mohamed Aly, Joseph Gonzalez, Shravan
Narayanamurthy and Alex Smola

Scalable Latent Variable

• 背景
• 潜在変数が入ったモデルマジ大事
• 大規模，ストリーミングデータへの適用が困難
• 理由: 潜在変数の推論方法に変数の依存関係や全体の状態が必要


• 方針
• Webスケールのストリーミングデータに対してスケーラブ
ルかつ並列に解く

• Collapsed Gibbs Sampling
• オリジナリティ
• グローバルなデータを各machineにコピーする
• コピーできないぐらい大きい時はmemcachedに入れる
• スケジューリングも頑張る


• 評価
• 対数尤度，計算時間
• 感想
• トピックモデルの話というより並列処理の話
• 前提知識足りなくてピンとこなかった
• 早くてすごいと思った(小学生並みの感想)

Topic Model Survey (wsdm2012)

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (9)

Semelhante a Topic Model Survey (wsdm2012)

Semelhante a Topic Model Survey (wsdm2012) (8)

Topic Model Survey (wsdm2012)