O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Sexi勉強会0630

1.124 visualizações

Publicada em

  • Seja o primeiro a comentar

Sexi勉強会0630

  1. 1. Connecting Comments and Tags: Improved Modeling of Social Tagging Systems Yoshifumi Seki Gunosy Inc. / University of Tokyo @SEXI2013 読み会 / 2013.06.30
  2. 2. 紹介する論文 • Connecting Comments and Tags: Improved Modeling of Social Tagging Systems (WSDM 2013) – Dawei Yin, Brian D. Davison • Lehigh Univesity – ShengboGuo, Boris Chidlovskii, Cedric Archambeau, Guillaume Bouchard • Xerox Research Center Europe • Social Tagging Systemのモデル化に関する研究 • データ構造の提案が多分メイン – 変数がいっぱいでてきて辛い
  3. 3. Abstract • ウェブに於いてタグ付けという行為は広く行われており, コンテンツに付けられるタグを予測したり,ユーザがつ けようとするであろうタグを推薦することはユーザ体験 を高める – これまでの研究ではユーザの過去のタグ付け情報のみが扱われ ており,他の行動は無視されてきた • Social Tagging Systemにおけるタグ付け予測モデルの改 善を行う – 高次のインタラクションの結合 – スパース性 – cold start • Flickr, Bibsonomyのデータセットにおいて過去の提案手 法より良い結果を示した
  4. 4. Introduction • タグ付けは多くのウェブサービスにおいて,コンテンツを管 理するための手法として用いられている. – 大規模なサービスにおいてはウェブ全体のサイズと比較するとごく 一部にしかタグが付けられていない • これまでの手法はユーザの過去のタグ付け履歴しか参照して いない – コンテンツへのコメント – ユーザ同士のフレンド情報 • ベイズ的手法を元にしたgeneralized latent factor modelを提 案しSocial Tagging Systemをより良くモデル化した • コメントとタグを同じモデルに組み込み結果を向上させるこ とに成功した • 実際のデータセットにおける実験で,ベイジアン的なモデル が確率的モデルより優れていること,また既存手法より提案 手法がすくぐれていることを明らかにした.
  5. 5. Preliminary Experiments • user, item, tag, comment, contentというentityとそれらを 結ぶrelationが存在する. • cliqueではなくentity-relation間のbipartite graphを考える
  6. 6. Dataset • Flicker – user : 2,866 – 60,399 tags – 32,752 comment – 46,733 items • Bibsonomy – ECML PKDD 09
  7. 7. Dataset
  8. 8. Dataset • Cold Start – Graphベースのシステムを考えた時,新しいアイテムにタグ付けを することは非常に難しい • Data Sparsity – SNSデータはスパース性が高い • MoviewLens – 1,000,000 rating for 6,000 user and 4,000 moviews – density 4.17% • Flicker – 373,125 recods user-tag-item – density 4.6170 * 10^-8
  9. 9. Multi-Relational Data Model • データ構造
  10. 10. • multi dimentional dot – 2次元だと内積になる
  11. 11. Bayesian Treatment • データのスパース性が高いとMAP推定よりもベイズ推定 がよいとされている – Overfitting
  12. 12. Inference – hyper parameter
  13. 13. Inference – model parameter
  14. 14. Experiment • Method – PRA ( Probabilistic Relational Analysis ) • 提案手法, MAP推定 – BPRA ( Bayesian Probabilistic Relational Analysis ) • 提案手法,Bayes – PMF ( Probabilistic Matrix Factorization ) • 行列因子分解を用いた協調フィルタリング – BPMF ( Bayesian Probabilistic Matrix Factorization ) – TF ( Rendle’s Tensor Factorization) • graph-base – BPTF (Bayesian Probabilistic Tensor Factorization ) • 高次のデータを考慮した協調フィルタリング • Evaluation – 平均二乗誤差
  15. 15. Flicker Experiment • 2010.04.01で訓練データとテストデータを分離 – use-item-tag • training 2,613,388 • test 205,880 – user-item-comment • training 1,366,068 • test 341,043 • 全部正例なので,50個のtagをランダムに選択し、負例 として生成する.
  16. 16. Result • BPRA, PRAとの比較で全てにおいてBPRAのほうが優れ ていた – HyperParameterの収束もよい. • itemはcold startの問題があるのでPMF, BPMFは計算不 可能 • commentではTFが一番悪い -> high-orderではないので
  17. 17. どのContextを用いるか • 関係性を減らすと精度は下がっていく
  18. 18. Bibsonomy
  19. 19. Conclusion • Social Tagging Systemのモデリングにおいてcommentな どの情報を結合して,有効な結果を示した. • 今回扱ったような高次のデータ構造は最近の研究として は注目されている分野であり,そこにベイズ的な扱いを 加えることで精度が向上することを示した. • 今後の拡張 – 時間因子をモデルに組み込む – 収束速度の差の解決 • core tensor • 各エンティティの次元を共通化できるようになる – 収束の高速化 • ギブスサンプリングから最急降下法に変える
  20. 20. 感想 • しっかりとコールドスタート問題に取り組んでいる珍し い論文 – 多くの論文では情報が少ないという状況からはじめるが,情報 のないコンテンツにたいしても取り組んでいる. • データ構造勝負な感じ – Social Tagging系はこういう論文が多いイメージ – 変数が多くて読むのが大変 – モデル的には特別なことはしてない感じ • でも知識がなくて辛かった – いろいろ使いどころはありそう

×