SlideShare uma empresa Scribd logo
1 de 23
Baixar para ler offline
トピックモデル勉強会
  WSDM2012

   @y_benjo
論文一覧

•   Auralist: Introducing Serendipity into Music
    Recommendation

•   ETF: Extended Tensor Factorization Model for Personalizing
    Prediction of Review Helpfulness

•   Mining Contrastive Opinions on Political Texts using Cross-
    Perspective Topic Model

•   Pairwise Cross-Domain Factor Model for Heterogeneous
    Transfer Ranking

•   Scalable Inference in Latent Variable Models
論文一覧

•   Auralist: Introducing Serendipity into Music
                           推薦の話
    Recommendation

•   ETF: Extended Tensor Factorization Model for Personalizing
                        レビューの話
    Prediction of Review Helpfulness

•   Mining Contrastive Opinions on Political Texts using Cross-
                         意見の話
    Perspective Topic Model

•   Pairwise Cross-Domain Factor Model for Heterogeneous
    Transfer Ranking ランキングの話

•   Scalable Inference in Latent Variable Models
                     スケーラブルの話
Auralist: Introducing Serendipity
  into Music Recommendation

     Yuan Cao Zhang, Diarmuid Séaghdha,
      Daniele Quercia and Tamas Jambor
         (Multimedia and Geo Mining)
Auralist


• 背景
 • 音楽を推薦したい
• 解くべき課題: 精度だけじゃいかん
 • diversity: 幅広く推薦したい
 • novelty: 知らなかったものを推薦したい
 • serendipity: 意外なものを推薦したい
Auralist

• 方針:
 • accuracy/diversity/novelty/serendipityを考慮した推薦
   を実現

• オリジナリティ:
 • Artist-userにLDAを使ってp(user¦z)から類似度を測る
 • Artist-LDA + Listener Diversity(serendipity)
  •   トピックの情報量でDiversityを測る

 • Artist-LDA + Declustering
  •   もう既に退屈しているであろうアーティストを除外する
Auralist

• 評価
 • データ: Last.fm dataset
 • 実験1: 既存指標
 • 実験2: ユーザ調査
  •   「知らなかった曲を教えてくれて最高だぜ!HAHAHA!」

• 感想
 • タイトルがかっこいい
 • 手法は超絶アレなグラフィカルモデルが書いてあるわけで
   はない
ETF: Extended Tensor Factorization
Model for Personalizing Prediction
      of Review Helpfulness
Samaneh Moghaddam, Mohsen Jamali and Martin Ester
             (Spotlight on Mining)
ETF


• 背景
 • レビューが増えすぎている
• 解くべき課題
 • クオリティが高く有用なレビューを抽出したい
 • 読む人によってレビューの有用度は異なる
ETF

• 方針
 • reviewer,review,rater(読む人),productを潜在変数と
   して考える
  •   文章/ソーシャルの要素を考えなくて済む

• オリジナリティ
 • MF: rater review で行列分解
 • TF: rater reviewer productをテンソル分解
 • ETF: TF + レビュアーの全商品に対する得点
 • BETF: ETF + バイアス
ETF

• 評価
 • データ: Epinions
 • 指標: RMSE
  •   テキストを使ったものより改善

  •   レビュー数5未満のユーザに対してRMSEが倍近く改善

• 感想
 • 読んでわかったけどトピックモデルじゃない
  •   グラフィカルモデルに釣られた

 • テンソル分解とか楽しそうで紹介した
Mining Contrastive Opinions on
   Political Texts using the Cross-
      perspective Topic Model
Yi Fang, Luo Si, Naveen Somasundaram and Zhengtao Yu
                   (Spotlight on Mining)
Mining Contrastive Opinions



• 背景
 • 異なる観点ごとにまとめ,その違いを定量化したい
• 想定例
 • 入力: 新聞社ごとの文章や,政党ごとのマニフェスト
 • 出力: それぞれの政策や法案,事件について新聞社や政党ご
  との意見
Mining Contrastive Opinions
• 方針・オリジナリティ
 • Cross-Perspective Topic(CPT) modelの提案
 • Jensen-Shannon divergenceで違いを定量化
                   トピック共通




          オピニオン固有          オピニオン固有

           fig1の簡単なイメージ図
    同じトピックから異なるオピニオンワードが生成される
Mining Contrastive Opinions

• 評価
 • Perplexity,P@N,nDCG,MMR(関連度)
 • 質的分析
  •   トピックごとにそれっぽいか

  •   意見の異なりはそれっぽいか

• 感想
 • 完全なunsupervisedかと思って途中まで読んでいた
  •   <document, opinion word, word> が入力形式

 • ダライラマに関して新華社とNYTで意見がかなり違うとい
  うのに笑った
Pairwise Cross-Domain Factor
Model for Heterogeneous Transfer
             Ranking
  Bo Long, Yi Chang, Anlei Dong and Jianzhang He
               (Spotlight on Mining)
Pairwise Cross-Domain



• 背景
 • ランキング学習で二つのジャンルのデータを使いたい
• 解くべき課題
 • transfer learning + learning to rankをどう解くか?
 • targetとsourceで共通して持つ/持たない特徴量がある場
   合にどう解くか
Pairwise Cross-Domain
• 方針・オリジナリティ
 • 共通する次元は「同じパラメータ」を持つ分布から
 • 異なる次元は異なるパラメータを持つ分布から
S固有次元     ST共通次元          ST共通次元   T固有次元


        スコアS                   スコアT


                   選好順序

               fig1のイメージ
Pairwise Cross-Domain


• 評価
 • データ
  •   ソース => 普通の英語圏の検索

  •   ターゲット => スペイン語の普通の検索,英語圏のニュース検索,非
      英語圏のQAサイトの検索

 • 指標: DCG
• 感想
 • グラフィカルモデルが曼荼羅かと思ったが意味は分かった
Scalable Inference in Latent
        Variable Models

Amr Ahmed, Mohamed Aly, Joseph Gonzalez, Shravan
        Narayanamurthy and Alex Smola
             (Spotlight on Mining)
Scalable Latent Variable




• 背景
 • 潜在変数が入ったモデルマジ大事
• 解くべき課題
 • 大規模,ストリーミングデータへの適用が困難
  •   理由: 潜在変数の推論方法に変数の依存関係や全体の状態が必要
Scalable Latent Variable


• 方針
 • Webスケールのストリーミングデータに対してスケーラブ
   ルかつ並列に解く

 • Collapsed Gibbs Sampling
• オリジナリティ
 • グローバルなデータを各machineにコピーする
 • コピーできないぐらい大きい時はmemcachedに入れる
 • スケジューリングも頑張る
Scalable Latent Variable



• 評価
 • 対数尤度,計算時間
• 感想
 • トピックモデルの話というより並列処理の話
 • 前提知識足りなくてピンとこなかった
 • 早くてすごいと思った(小学生並みの感想)

Mais conteúdo relacionado

Destaque

とあるサイトの禁書目録(アクセスログ)
とあるサイトの禁書目録(アクセスログ)とあるサイトの禁書目録(アクセスログ)
とあるサイトの禁書目録(アクセスログ)ybenjo
 
AJACS HONGO8 (mining in DBCLS)
AJACS HONGO8 (mining in DBCLS)AJACS HONGO8 (mining in DBCLS)
AJACS HONGO8 (mining in DBCLS)ybenjo
 
Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)
Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)
Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)ybenjo
 
Predicting Cancel Users in Offline Events
Predicting Cancel Users in Offline EventsPredicting Cancel Users in Offline Events
Predicting Cancel Users in Offline Eventsybenjo
 
首都圏における帰宅困難者のモデリング 最終報告
首都圏における帰宅困難者のモデリング 最終報告首都圏における帰宅困難者のモデリング 最終報告
首都圏における帰宅困難者のモデリング 最終報告ybenjo
 
Link prediction
Link predictionLink prediction
Link predictionybenjo
 
Modeling intransitivity in matchup and comparison data (WSDM 2016)
Modeling intransitivity in matchup and comparison data (WSDM 2016)Modeling intransitivity in matchup and comparison data (WSDM 2016)
Modeling intransitivity in matchup and comparison data (WSDM 2016)ybenjo
 
anohana
anohanaanohana
anohanaybenjo
 
Query Suggestion @ tokyotextmining#2
Query Suggestion @ tokyotextmining#2Query Suggestion @ tokyotextmining#2
Query Suggestion @ tokyotextmining#2ybenjo
 

Destaque (9)

とあるサイトの禁書目録(アクセスログ)
とあるサイトの禁書目録(アクセスログ)とあるサイトの禁書目録(アクセスログ)
とあるサイトの禁書目録(アクセスログ)
 
AJACS HONGO8 (mining in DBCLS)
AJACS HONGO8 (mining in DBCLS)AJACS HONGO8 (mining in DBCLS)
AJACS HONGO8 (mining in DBCLS)
 
Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)
Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)
Nonlinear latent factorization by embedding multiple user interests(Recsys 2013)
 
Predicting Cancel Users in Offline Events
Predicting Cancel Users in Offline EventsPredicting Cancel Users in Offline Events
Predicting Cancel Users in Offline Events
 
首都圏における帰宅困難者のモデリング 最終報告
首都圏における帰宅困難者のモデリング 最終報告首都圏における帰宅困難者のモデリング 最終報告
首都圏における帰宅困難者のモデリング 最終報告
 
Link prediction
Link predictionLink prediction
Link prediction
 
Modeling intransitivity in matchup and comparison data (WSDM 2016)
Modeling intransitivity in matchup and comparison data (WSDM 2016)Modeling intransitivity in matchup and comparison data (WSDM 2016)
Modeling intransitivity in matchup and comparison data (WSDM 2016)
 
anohana
anohanaanohana
anohana
 
Query Suggestion @ tokyotextmining#2
Query Suggestion @ tokyotextmining#2Query Suggestion @ tokyotextmining#2
Query Suggestion @ tokyotextmining#2
 

Semelhante a Topic Model Survey (wsdm2012)

トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本hoxo_m
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKSDeep Learning JP
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニングNaoaki Okazaki
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本hoxo_m
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方Satoshi Miura
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールhoxo_m
 

Semelhante a Topic Model Survey (wsdm2012) (8)

トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
トピックモデルによる統計的潜在意味解析読書会 3.7 評価方法 - 3.9 モデル選択 #トピ本
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニング
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
 
論文の書き方・読み方
論文の書き方・読み方論文の書き方・読み方
論文の書き方・読み方
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
 

Topic Model Survey (wsdm2012)

  • 2. 論文一覧 • Auralist: Introducing Serendipity into Music Recommendation • ETF: Extended Tensor Factorization Model for Personalizing Prediction of Review Helpfulness • Mining Contrastive Opinions on Political Texts using Cross- Perspective Topic Model • Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking • Scalable Inference in Latent Variable Models
  • 3. 論文一覧 • Auralist: Introducing Serendipity into Music 推薦の話 Recommendation • ETF: Extended Tensor Factorization Model for Personalizing レビューの話 Prediction of Review Helpfulness • Mining Contrastive Opinions on Political Texts using Cross- 意見の話 Perspective Topic Model • Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking ランキングの話 • Scalable Inference in Latent Variable Models スケーラブルの話
  • 4. Auralist: Introducing Serendipity into Music Recommendation Yuan Cao Zhang, Diarmuid Séaghdha, Daniele Quercia and Tamas Jambor (Multimedia and Geo Mining)
  • 5. Auralist • 背景 • 音楽を推薦したい • 解くべき課題: 精度だけじゃいかん • diversity: 幅広く推薦したい • novelty: 知らなかったものを推薦したい • serendipity: 意外なものを推薦したい
  • 6. Auralist • 方針: • accuracy/diversity/novelty/serendipityを考慮した推薦 を実現 • オリジナリティ: • Artist-userにLDAを使ってp(user¦z)から類似度を測る • Artist-LDA + Listener Diversity(serendipity) • トピックの情報量でDiversityを測る • Artist-LDA + Declustering • もう既に退屈しているであろうアーティストを除外する
  • 7. Auralist • 評価 • データ: Last.fm dataset • 実験1: 既存指標 • 実験2: ユーザ調査 • 「知らなかった曲を教えてくれて最高だぜ!HAHAHA!」 • 感想 • タイトルがかっこいい • 手法は超絶アレなグラフィカルモデルが書いてあるわけで はない
  • 8. ETF: Extended Tensor Factorization Model for Personalizing Prediction of Review Helpfulness Samaneh Moghaddam, Mohsen Jamali and Martin Ester (Spotlight on Mining)
  • 9. ETF • 背景 • レビューが増えすぎている • 解くべき課題 • クオリティが高く有用なレビューを抽出したい • 読む人によってレビューの有用度は異なる
  • 10. ETF • 方針 • reviewer,review,rater(読む人),productを潜在変数と して考える • 文章/ソーシャルの要素を考えなくて済む • オリジナリティ • MF: rater review で行列分解 • TF: rater reviewer productをテンソル分解 • ETF: TF + レビュアーの全商品に対する得点 • BETF: ETF + バイアス
  • 11. ETF • 評価 • データ: Epinions • 指標: RMSE • テキストを使ったものより改善 • レビュー数5未満のユーザに対してRMSEが倍近く改善 • 感想 • 読んでわかったけどトピックモデルじゃない • グラフィカルモデルに釣られた • テンソル分解とか楽しそうで紹介した
  • 12. Mining Contrastive Opinions on Political Texts using the Cross- perspective Topic Model Yi Fang, Luo Si, Naveen Somasundaram and Zhengtao Yu (Spotlight on Mining)
  • 13. Mining Contrastive Opinions • 背景 • 異なる観点ごとにまとめ,その違いを定量化したい • 想定例 • 入力: 新聞社ごとの文章や,政党ごとのマニフェスト • 出力: それぞれの政策や法案,事件について新聞社や政党ご との意見
  • 14. Mining Contrastive Opinions • 方針・オリジナリティ • Cross-Perspective Topic(CPT) modelの提案 • Jensen-Shannon divergenceで違いを定量化 トピック共通 オピニオン固有 オピニオン固有 fig1の簡単なイメージ図 同じトピックから異なるオピニオンワードが生成される
  • 15. Mining Contrastive Opinions • 評価 • Perplexity,P@N,nDCG,MMR(関連度) • 質的分析 • トピックごとにそれっぽいか • 意見の異なりはそれっぽいか • 感想 • 完全なunsupervisedかと思って途中まで読んでいた • <document, opinion word, word> が入力形式 • ダライラマに関して新華社とNYTで意見がかなり違うとい うのに笑った
  • 16. Pairwise Cross-Domain Factor Model for Heterogeneous Transfer Ranking Bo Long, Yi Chang, Anlei Dong and Jianzhang He (Spotlight on Mining)
  • 17. Pairwise Cross-Domain • 背景 • ランキング学習で二つのジャンルのデータを使いたい • 解くべき課題 • transfer learning + learning to rankをどう解くか? • targetとsourceで共通して持つ/持たない特徴量がある場 合にどう解くか
  • 18. Pairwise Cross-Domain • 方針・オリジナリティ • 共通する次元は「同じパラメータ」を持つ分布から • 異なる次元は異なるパラメータを持つ分布から S固有次元 ST共通次元 ST共通次元 T固有次元 スコアS スコアT 選好順序 fig1のイメージ
  • 19. Pairwise Cross-Domain • 評価 • データ • ソース => 普通の英語圏の検索 • ターゲット => スペイン語の普通の検索,英語圏のニュース検索,非 英語圏のQAサイトの検索 • 指標: DCG • 感想 • グラフィカルモデルが曼荼羅かと思ったが意味は分かった
  • 20. Scalable Inference in Latent Variable Models Amr Ahmed, Mohamed Aly, Joseph Gonzalez, Shravan Narayanamurthy and Alex Smola (Spotlight on Mining)
  • 21. Scalable Latent Variable • 背景 • 潜在変数が入ったモデルマジ大事 • 解くべき課題 • 大規模,ストリーミングデータへの適用が困難 • 理由: 潜在変数の推論方法に変数の依存関係や全体の状態が必要
  • 22. Scalable Latent Variable • 方針 • Webスケールのストリーミングデータに対してスケーラブ ルかつ並列に解く • Collapsed Gibbs Sampling • オリジナリティ • グローバルなデータを各machineにコピーする • コピーできないぐらい大きい時はmemcachedに入れる • スケジューリングも頑張る
  • 23. Scalable Latent Variable • 評価 • 対数尤度,計算時間 • 感想 • トピックモデルの話というより並列処理の話 • 前提知識足りなくてピンとこなかった • 早くてすごいと思った(小学生並みの感想)