SlideShare uma empresa Scribd logo
1 de 8
Baixar para ler offline
Slice Samplingを用いた
LDAの推論アルゴリズムの高速化
            坪坂正志
   m(dot)tsubosaka@gmail.com
    Blog/twitter ID: tsubosaka
LDA
• LDAの推論では潜在変数������������������ に関して、条件付
                              ������������������ +������
 き確率������ ������������������ = ������ … ∝                   (������������������   + ������)を
                              ������������ +������������
 計算する
 – T. L. Griffiths and M. Steyvers. Finding scientific
   topics. In PNAS, 101, pp. 5228—5235, 2004
• トピック数Kが多いときに各トピックに対して確
  率を計算するのはコストが高い
cf:既存の高速化手法
• Ian Porteous, David Newman, Alexander Ihler,
  Arthur Asuncion, Padhraic Smyth and Max
  Welling. Fast Collapsed Gibbs Sampling For Latent
  Dirichlet Allocation, In SIGKDD, 2008
  – 最大10倍ぐらいの高速化
• Limin Yao, David Mimno and Andrew McCallum.
  Efficient Methods for Topic Model Inference on
  Streaming Document Collections, In SIGKDD,
  2009
  – 最大20倍ぐらいの高速化
Slice Sampling
• ������ ������ ∝ ������(������)������(������)の形で書ける分布から������をサ
  ンプリングする手法
• 1. ������~������(0, ������ ������ )で一様乱数をサンプリング(こ
  こで������は現在の値)
• 2. ������ ������ ≥ ������なる������に関して������(������)に従って������をサ
  ンプルする
LDAへの適応
• ������ ������ = ������������������ + ������とする。
• 一様乱数������~������(0, ������ ������ )を発生させ、
  ������������������ ≥ ������ − ������なる������の集合を������とする
  – 文章ごとのトピック頻度をソートした配列を保持し
    ておけば、この操作は容易にできる
            ������������������ +������
• ������ ������ =              に比例する確率で������から������をサ
            ������������ +������������
 ンプリングする
������ = 200
������ = 200
まとめ
• サンプリング速度はナイーブなギブスサンプ
  ラーと比較して2-3倍程度に高速化された
• Perplexityの収束はギブスサンプラーの方が
  高速
• 既存の高速化手法には及ばなかったものの
  スライスサンプリングが割と汎用的に使える
  手法であることを確認できた

Mais conteúdo relacionado

Destaque

TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet正志 坪坂
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた正志 坪坂
 
マーケティングサイエンス徹底入門と実践Part2
マーケティングサイエンス徹底入門と実践Part2マーケティングサイエンス徹底入門と実践Part2
マーケティングサイエンス徹底入門と実践Part2宏喜 佐野
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict正志 坪坂
 

Destaque (6)

TokyowebminingInferNet
TokyowebminingInferNetTokyowebminingInferNet
TokyowebminingInferNet
 
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみたInfer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
 
マーケティングサイエンス徹底入門と実践Part2
マーケティングサイエンス徹底入門と実践Part2マーケティングサイエンス徹底入門と実践Part2
マーケティングサイエンス徹底入門と実践Part2
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
LDA入門
LDA入門LDA入門
LDA入門
 
Tokyowebmining ctr-predict
Tokyowebmining ctr-predictTokyowebmining ctr-predict
Tokyowebmining ctr-predict
 

Mais de 正志 坪坂

KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing正志 坪坂
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model正志 坪坂
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220正志 坪坂
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回正志 坪坂
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計正志 坪坂
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining正志 坪坂
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit正志 坪坂
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング正志 坪坂
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて正志 坪坂
 

Mais de 正志 坪坂 (20)

Recsys2018 unbiased
Recsys2018 unbiasedRecsys2018 unbiased
Recsys2018 unbiased
 
WSDM2018Study
WSDM2018StudyWSDM2018Study
WSDM2018Study
 
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossingKDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor modelWSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
 
Deeplearning勉強会20160220
Deeplearning勉強会20160220Deeplearning勉強会20160220
Deeplearning勉強会20160220
 
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
 
Recsys2015
Recsys2015Recsys2015
Recsys2015
 
KDD 2015読み会
KDD 2015読み会KDD 2015読み会
KDD 2015読み会
 
Recsys2014 recruit
Recsys2014 recruitRecsys2014 recruit
Recsys2014 recruit
 
EMNLP2014_reading
EMNLP2014_readingEMNLP2014_reading
EMNLP2014_reading
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
 
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMiningContexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
 
Introduction to contexual bandit
Introduction to contexual banditIntroduction to contexual bandit
Introduction to contexual bandit
 
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
Tokyowebmining2012
Tokyowebmining2012Tokyowebmining2012
Tokyowebmining2012
 
static index pruningについて
static index pruningについてstatic index pruningについて
static index pruningについて
 
NIPS 2012 読む会
NIPS 2012 読む会NIPS 2012 読む会
NIPS 2012 読む会
 

Prml Hackathon

  • 1. Slice Samplingを用いた LDAの推論アルゴリズムの高速化 坪坂正志 m(dot)tsubosaka@gmail.com Blog/twitter ID: tsubosaka
  • 2. LDA • LDAの推論では潜在変数������������������ に関して、条件付 ������������������ +������ き確率������ ������������������ = ������ … ∝ (������������������ + ������)を ������������ +������������ 計算する – T. L. Griffiths and M. Steyvers. Finding scientific topics. In PNAS, 101, pp. 5228—5235, 2004 • トピック数Kが多いときに各トピックに対して確 率を計算するのはコストが高い
  • 3. cf:既存の高速化手法 • Ian Porteous, David Newman, Alexander Ihler, Arthur Asuncion, Padhraic Smyth and Max Welling. Fast Collapsed Gibbs Sampling For Latent Dirichlet Allocation, In SIGKDD, 2008 – 最大10倍ぐらいの高速化 • Limin Yao, David Mimno and Andrew McCallum. Efficient Methods for Topic Model Inference on Streaming Document Collections, In SIGKDD, 2009 – 最大20倍ぐらいの高速化
  • 4. Slice Sampling • ������ ������ ∝ ������(������)������(������)の形で書ける分布から������をサ ンプリングする手法 • 1. ������~������(0, ������ ������ )で一様乱数をサンプリング(こ こで������は現在の値) • 2. ������ ������ ≥ ������なる������に関して������(������)に従って������をサ ンプルする
  • 5. LDAへの適応 • ������ ������ = ������������������ + ������とする。 • 一様乱数������~������(0, ������ ������ )を発生させ、 ������������������ ≥ ������ − ������なる������の集合を������とする – 文章ごとのトピック頻度をソートした配列を保持し ておけば、この操作は容易にできる ������������������ +������ • ������ ������ = に比例する確率で������から������をサ ������������ +������������ ンプリングする
  • 8. まとめ • サンプリング速度はナイーブなギブスサンプ ラーと比較して2-3倍程度に高速化された • Perplexityの収束はギブスサンプラーの方が 高速 • 既存の高速化手法には及ばなかったものの スライスサンプリングが割と汎用的に使える 手法であることを確認できた