A derivation of the sampling formulas for An Entity-Topic Model for Entity Li...
A Note on Sparse Stochastic Inference for Latent Dirichlet Allocation
1. A derivation of Eqs. (4) and (5) of
Sparse stochastic inference for latent Dirichlet allocation
Tomonari MASADA @ Nagasaki University
May 23, 2013
The evidence can be written as follows:
p(w|α, η) =
z k
p(βk|η)
d
p(θd|α)p(zd|θd)p(w|zd, β) dθdβ . (1)
By integrating θ out, we have
p(w|α, η) =
z k
p(βk|η)
d
p(zd|α)p(w|zd, β) dβ . (2)
By applying Jensen’s inequality, we have a lower bound of the evidence as follows:
log p(w|α, η) = log
z k
p(βk|η)
d
p(zd|α)p(w|zd, β)dβ
= log
z d
q(zd)
k
q(βk) k p(βk|η) d p(zd|α)p(w|zd, β)
d q(zd) k q(βk)
dβ
≥
z d
q(zd)
k
q(βk) log k p(βk|η) d p(zd|α)p(w|zd, β)
d q(zd) k q(βk)
dβ
=
k
q(βk) log p(βk|η)dβk +
d zd
q(zd) log p(zd|α)
+
k
q(βk)
d zd
q(zd) log p(w|zd, β)dβ + H(q)
=
k
q(βk) log p(βk|η)dβk +
d zd
q(zd) log p(zd|α)
+
k
q(βk)
d zd
q(zd)
Nd
i=1
log βzdiwdi
dβ + H(q) , (3)
where H(q) = k q(βk) log q(βk)dβk + d zd
q(zd) log q(zd). Let L denote the lower bound in Eq. (3).
By picking up the terms related to zd from L, we define Lzd
as follows:
Lzd
=
zd
q(zd) log p(zd|α) +
k
q(βk)
zd
q(zd)
Nd
i=1
log βzdiwdi
dβ −
zd
q(zd) log q(zd) . (4)
We obtain a functional derivative of Lzd
with respect to q(zd) as follows:
δLzd
δq(zd)
= lim
→0
zd
{q(zd) + δ(zd − zd)} log p(zd|α) − zd
q(zd) log p(zd|α)
+ lim
→0
k q(βk) zd
{q(zd) + δ(zd − zd)}
Nd
i=1 log βzdiwdi
− zd
q(zd)
Nd
i=1 log βzdiwdi
dβ
− lim
→0
zd
{q(zd) + δ(zd − zd)} log{q(zd) + δ(zd − zd)} − zd
q(zd) log q(zd)
, (5)
1
2. where
lim
→0
zd
{q(zd) + δ(zd − zd)} log{q(zd) + δ(zd − zd)} − zd
q(zd) log q(zd)
= lim
→0
zd
q(zd) log
q(zd)+ δ(zd−zd)
q(zd) + zd
δ(zd − zd) log{q(zd) + δ(zd − zd)}
= lim
→0
zd
q(zd)
δ(zd−zd)
q(zd) + O( 2
)
+ lim
→0
zd
δ(zd − zd) log{q(zd) + δ(zd − zd)}
=
zd
δ(zd − zd) +
zd
δ(zd − zd) log q(zd) = 1 + log q(zd) . (6)
Therefore,
δLzd
δq(zd)
= log p(zd|α) +
k
q(βk)
Nd
i=1
log βzdiwdi
dβ − 1 − log q(zd) (7)
By solving
δLzd
δq(zd) = 0, we obtain
q(zd) ∝ p(zd|α) · exp
k
q(βk)
Nd
i=1
log βzdiwdi
dβ
= p(zd|α) ·
Nd
i=1
exp
k
q(βk) log βzdiwdi
dβ
∝
Γ(Kα)
Γ(Kα + Nd)
k
Γ(α + i Izdi=k)
Γ(α)
×
i
exp Eq log βzdiwdi
(8)
We assume that q(βk) =
Γ( w λkw)
w Γ(λkw) w βλkw−1
kw . By picking up the terms related to λ from L, we
define Lλ as follows:
Lλ =
k
q(βk) log p(βk|η)dβk +
k
q(βk)
d zd
q(zd)
Nd
i=1
log βzdiwdi
dβ
−
k
q(βk) log q(βk)dβk . (9)
Each term in Eq. (9) can be rewritten as below.
q(βk) log p(βk|η)dβk = log Γ(Wη) −
w
log Γ(η) +
w
(η − 1) Ψ(λkw) − Ψ(
w
λkw) (10)
q(βk) log q(βk)dβk = log Γ(
w
λkw) −
w
log Γ(λkw) +
w
(λkw − 1) Ψ(λkw) − Ψ(
w
λkw) (11)
k
q(βk)
d zd
q(zd)
Nd
i=1
log βzdiwdi
dβ
=
k
q(βk)
d zd
q(zd)
Nd
i=1 k w
I(zdi
= k, wdi
= w) · log βkw dβ
=
k
q(βk)
k w
log βkw
d zd
q(zd)
Nd
i=1
I(zdi = k, wdi = w) dβ
=
k w
Ψ(λkw) − Ψ(
w
λkw)
d zd
q(zd)
Nd
i=1
I(zdi = k, wdi = w) (12)
2
3. Therefore,
∂Lλ
∂λkw
= η − λkw +
d zd
q(zd)
Nd
i=1
I(zdi = k, wdi = w) Ψ (λkw)
− η − λkw +
d zd
q(zd)
Nd
i=1
I(zdi
= k, wdi
= w) Ψ (
w
λkw) . (13)
By solving ∂Lλ
∂λkw
= 0, we obtain
λkw = η +
d zd
q(zd)
Nd
i=1
I(zdi
= k, wdi
= w) . (14)
3