Prml Hackathon

Slice Samplingを用いた
LDAの推論アルゴリズムの高速化
坪坂正志
m(dot)tsubosaka@gmail.com
Blog/twitter ID: tsubosaka

LDA
• LDAの推論では潜在変数�� に関して、条件付
�� +��
き確率�� = �� … ∝ (�� + ��)を
�� +��
計算する
– T. L. Griffiths and M. Steyvers. Finding scientific
topics. In PNAS, 101, pp. 5228—5235, 2004
• トピック数Kが多いときに各トピックに対して確
率を計算するのはコストが高い

cf:既存の高速化手法
• Ian Porteous, David Newman, Alexander Ihler,
Arthur Asuncion, Padhraic Smyth and Max
Welling. Fast Collapsed Gibbs Sampling For Latent
Dirichlet Allocation, In SIGKDD, 2008
– 最大10倍ぐらいの高速化
• Limin Yao, David Mimno and Andrew McCallum.
Efficient Methods for Topic Model Inference on
Streaming Document Collections, In SIGKDD,
2009
– 最大20倍ぐらいの高速化

Slice Sampling
• �� ∝ ��(��)��(��)の形で書ける分布から��をサ
ンプリングする手法
• 1. ��~��(0, �� )で一様乱数をサンプリング(こ
こで��は現在の値)
• 2. �� ≥ ��なる��に関して��(��)に従って��をサ
ンプルする

LDAへの適応
• �� = �� + ��とする。
• 一様乱数��~��(0, �� )を発生させ、
�� ≥ �� − ��なる��の集合を��とする
– 文章ごとのトピック頻度をソートした配列を保持し
ておけば、この操作は容易にできる
�� +��
• �� = に比例する確率で��から��をサ
�� +��
ンプリングする

まとめ
• サンプリング速度はナイーブなギブスサンプ
ラーと比較して2-3倍程度に高速化された
• Perplexityの収束はギブスサンプラーの方が
高速
• 既存の高速化手法には及ばなかったものの
スライスサンプリングが割と汎用的に使える
手法であることを確認できた

Prml Hackathon

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (6)

Mais de 正志坪坂

Mais de 正志坪坂 (20)

Prml Hackathon

Prml Hackathon

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (6)

Mais de 正志 坪坂

Mais de 正志 坪坂 (20)

Prml Hackathon

Mais de 正志坪坂

Mais de 正志坪坂 (20)