O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

20150730 トピ本第4回 3.4節

8.466 visualizações

Publicada em

トピックモデルによる統計的潜在意味解析読書会
第4回 3.4節

Publicada em: Dados e análise
  • Seja o primeiro a comentar

20150730 トピ本第4回 3.4節

  1. 1. 第4回 トピックモデルによる統計的潜在意味解析 読書会 3.4 逐次ベイズ学習―変分近似法の場合― @MOTOGRILL 2015.07.30
  2. 2. LDAの確率的変分ベイズ法 KL情報量を最小にする近似事後分布q(z, θ, Φ)を求める 変分下限Fを最大にする近似事後分布q(z, θ, Φ)を求める 𝑞 𝜙 𝑘 = 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘 𝜙 𝑞 𝜃 𝑑 = 𝐷𝑖𝑟 𝜃 𝑑 𝜉 𝑑 𝜃 𝑞 𝑧 𝑑,𝑖 = 𝑘 勾配降下法により𝜉 𝑘 𝜙 を求める 確率的勾配降下法により𝜉 𝑘 𝜙 を求める 同義(メリット:目的関数の結合分布化) 変分法 オンライン化 ドキュメントd毎に推計全ドキュメントに対して推計 𝛼 𝜃 𝑑 𝛽 𝜙 𝑘 ドキュメント 𝑑 = 1,2, … , 𝑀 トピック 𝑘 = 1,2, … , 𝐾 データ i= 1,2, … , 𝑛 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝜋? 𝐷𝑖𝑟 𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖 𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾 𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉 (3.99)(3.90)(3.96)
  3. 3. 勾配降下法 最適化問題 𝑥∗ = argmin 𝑥 𝑓 𝑥 (3.132) 数値解 𝑥(𝑠) = 𝑥(𝑠−1) − 𝜈(𝑠−1) 𝛻𝑥 𝑓 𝑥(𝑠−1) (3.133) ステップサイズ 勾配 𝛻𝑥 = 𝜕 𝜕𝑥 = 𝜕 𝜕𝑥1 𝜕 𝜕𝑥2 ⋮ しかし、目的関数が 𝑓 𝑥 = 𝑖=1 𝑛 𝑓𝑖 𝑥 で n が大きいと 勾配の計算にかかるコストが大きい 𝑓 𝜉 = 𝑑=1 𝑀 𝑖=1 𝑛 𝑑 𝑓 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖 𝜉観測データ 𝑤 𝑑,𝑖 , 𝑧 𝑑,𝑖 目的関数
  4. 4. 確率的勾配降下法 𝑓 𝑥 = 𝑖=1 𝑛 𝑓𝑖 𝑥 = 𝑛 𝑖=1 𝑛 1 𝑛 𝑓𝑖 𝑥 𝑝 𝑖 = 1 𝑛 𝑛𝔼 𝑝 𝑖 𝑓𝑖 𝑥 𝑖~𝑝 𝑖 = 1 𝑛 サンプリング近似 𝑛𝑓𝑖 𝑥 (確率的)勾配 𝑛𝛻𝑥 𝑓𝑖 𝑥𝑥(𝑠) = 𝑥(𝑠−1) − 𝜈(𝑠−1) 𝑛𝛻𝑥 𝑓𝑖 𝑥(𝑠−1) 確率的勾配降下法 真の勾配と確率的勾配との差:𝜈 𝑠−1 𝛻𝑥 𝑓𝑖 𝑥 𝑠−1 − 𝛻𝑥 𝔼 𝑝 𝑖 𝑓𝑖 𝑥 𝑠−1 𝜈 𝑠 に対する制約: (局所)最適解を得るために 𝑠=1 ∞ 𝜈 𝑠 = ∞, 𝑠=1 ∞ 𝜈 𝑠 2 < ∞ よく用いられる :𝜈 𝑠 𝜈 𝑠 = 𝑎 𝑏 + 𝑠 𝜅 𝑎 > 0, 𝑏 > 0, 𝜅 ∈ (0.5,1 (3.137) (3.138) (3.136)
  5. 5. http://qiita.com/kenmatsu4/items/d282054ddedbd68fecb0
  6. 6. 統計的学習と確率的勾配降下法 統計的学習 𝜙∗ = argmax 𝜙 1 𝑛 𝑖=1 𝑛 log 𝑝 𝑥𝑖 𝜙 (3.8) KL情報量の最小化 最適化問題: 確率的最適化: 𝜙(𝑠) = 𝜙(𝑠−1) − 𝜈(𝑠−1) 𝑛𝛻 𝜙 log 𝑝 𝑥𝑖 𝜙 𝑠−1
  7. 7. 自然勾配法 勾配を最適化問題の解として定義 argmax 𝛿𝜃: 𝛿𝜃 2≤𝜖 𝛻𝜃 𝑓 𝜃 ⊺ 𝛿𝜃 = 𝜖 𝛻𝜃 𝑓 𝜃 2 𝛻𝜃 𝑓 𝜃 = 𝜈𝛻𝜃 𝑓 𝜃 𝜈 ベクトルの内積 制約条件 𝛻𝜃 𝑓 𝜃𝛿𝜃∗ は の定数倍 𝛻𝜃 𝑓 𝜃 𝛿𝜃 𝛿𝜃 2 = 𝜖 𝛿𝜃に対する制約をKL情報量を用いて確率分布間の距離で与える 統計モデルの最適化に応用 argmax 𝛿𝜃:𝐾𝐿 𝑝 𝑥 𝜃 ∥𝑝 𝑥 𝜃 + 𝛿𝜃 ≤𝜖 𝛻𝜃 𝑓 𝜃 ⊺ 𝛿𝜃勾配: (3.142) (3.140) (3.141)
  8. 8. フィッシャーの情報行列 𝐺 𝜃 = − 𝑝 𝑥 𝜃 𝛻𝜃 2 log 𝑝 𝑥 𝜃 𝑑𝑥 𝐺𝑗,𝑖 𝜃 = − 𝑝 𝑥 𝜃 𝜕2 𝜕𝜃𝑗 𝜕𝜃𝑖 log 𝑝 𝑥 𝜃 𝑑𝑥 = 𝑝 𝑥 𝜃 𝜕 𝜕𝜃𝑗 log 𝑝 𝑥 𝜃 𝜕 𝜕𝜃𝑖 log 𝑝 𝑥 𝜃 ⊺ 𝑑𝑥 (3.143) (3.144) (3.146) KL情報量をフィッシャーの情報行列𝐺 𝜃 を用いて近似 𝐾𝐿 𝑝 𝑥 𝜃 ∥ 𝑝 𝑥 𝜃 + 𝛿𝜃 ≈ 1 2 𝛿𝜃⊺ 𝐺 𝜃 𝛿𝜃 近似した最適化問題の解としての自然勾配 (3.147) argmax 𝛿𝜃: 1 2 𝛿𝜃⊺ 𝐺 𝜃 𝛿𝜃≤𝜖 𝛻𝜃 𝑓 𝜃 ⊺ 𝛿𝜃 = 𝜈𝐺 𝜃 −1 𝛻𝜃 𝑓 𝜃 (3.150) θの更新式: 𝜃 𝑠 = 𝜃 𝑠−1 + 𝜈 𝑠−1 𝐺 𝜃 𝑠−1 −1 𝛻𝜃 𝑓 𝑝 𝑥 𝜃 𝑠−1 (3.151)
  9. 9. LDAに対する自然勾配法 𝑞 𝜙 𝑘 𝜉 𝑘 𝜙 = 𝐷𝑖𝑟 𝜙 𝑘 𝜉 𝑘 𝜙 = Γ 𝑣=1 𝑉 𝜉 𝑘,𝑣 𝜙 𝑣=1 𝑉 Γ 𝜉 𝑘,𝑣 𝜙 𝑣=1 𝑉 𝜙 𝑘,𝑣 𝜉 𝑘,𝑣 𝜙 −1 𝛼 𝜃 𝑑 𝛽 𝜙 𝑘 ドキュメント 𝑑 = 1,2, … , 𝑀 トピック 𝑘 = 1,2, … , 𝐾 データ i= 1,2, … , 𝑛 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝜋? 𝐷𝑖𝑟 𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖 𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾 𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉 (3.96) 𝐺 𝜉 = − 𝑞 𝜙 𝑘 𝜉 𝑘 𝜙 𝛻2 𝜉 𝑘 𝜙 log 𝑞 𝜙 𝑘 𝜉 𝑘 𝜙 𝑑𝜙 𝑘 argmax 𝛿𝜉: 1 2 𝛿𝜉⊺ 𝐺 𝜉 𝛿𝜉≤𝜖 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 ⊺ 𝛿𝜉 = 𝜈𝐺 𝜉 −1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝜉 𝑘 (𝑠+1) = 𝜉 𝑘 (𝑠) + 𝜈 𝑠 𝐺 𝜉 𝑘 −1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 𝑠 (3.156) 𝜈 𝑠 𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘 (𝑠) (3.155) (3.152)~(3.154), (3.104)
  10. 10. LDAの確率的最適化 𝔼 𝑞 𝑧 𝑛 𝑘 + 𝛽 − 𝜉 𝑘 (𝑠) LDAの勾配: 全ドキュメントに対する平均 𝛼 𝜃 𝑑 𝛽 𝜙 𝑘 ドキュメント 𝑑 = 1,2, … , 𝑀 トピック 𝑘 = 1,2, … , 𝐾 データ i= 1,2, … , 𝑛 𝑑 𝑧 𝑑,𝑖 𝑤 𝑑,𝑖 𝜋? 𝐷𝑖𝑟 𝐷𝑖𝑟 𝑀𝑢𝑙𝑡𝑖 𝑧 𝑑,𝑖 ∈ 𝑘 1,2, ⋯ , 𝐾 𝑤 𝑑,𝑖 ∈ 𝑣 1,2, ⋯ , 𝑉 サンプリングされたドキュメントの値から近似 𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘 + 𝛽 − 𝜉 𝑘 (𝑠) 𝑣成分ごとに𝜉の更新式を書き下すと 𝜉 𝑘,𝑣 (𝑠+1) = 𝜉 𝑘,𝑣 (𝑠) + 𝜈 𝑠 𝑀𝔼 𝑞 𝑧 𝑛 𝑑,𝑘,𝑣 + 𝛽𝑣 − 𝜉 𝑘,𝑣 (𝑠) (3.159)
  11. 11. おまけ LDAの自然勾配の𝑣成分が式(3.155)になることの確認 𝐺 𝜉 𝑘 ∙ 𝐺 𝜉 𝑘 −1 𝛻𝜉 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 = 𝜕 𝜕𝜉 𝑘 𝐹 𝑞 𝑧, 𝜃, 𝜙 𝜉 𝑘 勾配 𝜕 𝜕𝜉 𝑘,𝑣 𝔼 𝑞 𝜙 𝑘 𝜉 𝑘 log 𝜙 𝑘,𝑣′ 𝑋 𝑣′𝐺𝑣,𝑣′ 両辺の𝑣成分 (左辺) 𝑣′=1 𝑉 𝑋 𝑣′ ∙ 𝜕 𝜕𝜉 𝑘,𝑣 𝔼 𝑞 𝜙 𝑘 𝜉 𝑘 log 𝜙 𝑘,𝑣′ (3.154) (右辺) 𝑣′=1 𝑉 𝔼 𝑞 𝑧 𝑛 𝑘,𝑣′ + 𝛽𝑣′ − 𝜉 𝑘,𝑣′ ∙ 𝜕 𝜕𝜉 𝑘,𝑣 𝔼 𝑞 𝜙 𝑘 𝜉 𝑘 log 𝜙 𝑘,𝑣′ (3.104)

×