rinko2010

CRF
2010 12 10 10

1 ( )

4
[Lafferty+, 01] Conditional Random Fields: Probabilistic Models
for Segmenting and Labeling Sequence Data. John Lafferty, Andrew
McCallum, Fernando Pereira. Proceedings of ICML’01, 2001.

[Collins, 02] Discriminative training methods for hidden markov
models: Theory and experiments with perceptron algorithms.
Michael Collins. Proceedings of EMNLP’02, 2002.

[Morency+, 07] Latent-dynamic discriminative models for
continuous gesture recognition. Louis-Philippe Morency, Ariadna
Quattoni, and Trevor Darrell. Proceedings of CVPR’07, 2007.

[Sun+, 09] Latent Variable Perceptron Algorithm for Structured
Classification. Xu Sun, Takuya Matsuzaki, Daisuke Okanohara and
Jun’ichi Tsujii. Proceedings of IJCAI’09, 2009 3

‣
‣

CRF Structured
(Conditional Random Field) Perceptron
1 2
3 4
DPLVM Latent Variable
(Discriminative Probabilistic
Latent Variable Model) Perceptron

‣ 4

x= x1 x2 xm

y= y1 y2 ym

y1 , . . . , ym ∈ Y

5

( : NP-chunking)

x1 x2 x3 x4 x5
He is her brother .

B O B I O
y1 y2 y3 y4 y5
Y = {B, I, O}
6

‣
‣

CRF Structured
1 2
3 4

‣ 7

Θ
P (y|x, Θ)
P (yi |xi , Θ)
∗

Θ
{(xi , yi )}i=1
∗ d

..
.

..
. d
8

Θ
P (y|x, Θ)

x
ˆ
y = argmax P (y|x, Θ)
ˆ
y

9

(x, y)

→
   
f1 (y, x) Θ1

 f2 (y, x)  
  Θ2 

 .
.   .
. 
n
 . · .  = F (y|x, Θ)
   
 .
.
  .
.

 .   . 
fn (y, x) Θn
=

=

f (y, x) Θ 10

CRF: Conditional Random Field (sequential)

yj−1 yj

s(j, x, yj )
t(j, x, yj−1 , yj )
⇒

13

CRF: Conditional Random Field (sequential)

yj−1 yj

s(j, x, yj )
t(j, x, yj−1 , yj )
⇒

14

CRF

d

maximize log P (yi |xi , Θ)
∗
− R(Θ)
i=1

R(Θ) Θ

15

‣
‣

CRF Structured
1 2
3 4

‣ 16

Structured Perceptron

‣
‣ (xi , yi )
∗
F (yi |xi , Θ)
∗
=Θ· f (yi , xi )
∗

(xi , yi )
∗

yi = argmax F (y|xi , Θ ) i
y

yi = ∗
yi yi = ∗
yi

Θ i+1
=Θ + i
f (yi , xi )
∗
− f (yi , xi ) Θ i+1
=Θ i

17


Θ i+1
=Θ + i
f (yi , xi )
∗
− f (yi , xi )

Θ i+1
· (f (yi , xi )
∗
− f (yi , xi ))
2
=Θ · i
(f (yi , xi )
∗
− f (yi , xi )) + f (yi , xi )
∗
− f (yi , xi )2

⇔ F (yi |xi , Θ )
∗ i+1
− F (yi |xi , Θ i+1
)
2
= F (yi |xi , Θi )
∗
− F (yi |xi , Θ ) +
i
f (yi , xi )
∗
− f (yi , xi )2
≥0
18


Θ i+1
=Θ + i
f (yi , xi )
∗
− f (yi , xi )

∗
yi yi

F (yi |xi , Θ )
∗ i+1
− F (yi |xi , Θ i+1
)
2
= F (yi |xi , Θi )
∗
− F (yi |xi , Θ ) +
i
f (yi , xi )
∗
− f (yi , xi )2
≥0
19


‣
‣

d
M

20

separability

G(xi ) = {all possible label sequences for an example xi },
G(xi ) = G(xi ) − ∗
{yi }

{(xi , yi )}d
∗
i=1 δ0
U2 = 1 U
∀i, ∀z ∈ G(xi ), F (yi |xi , U) − F (z|xi , U) ≥ δ.
∗

21

mistake bound

δ0
{(xi , yi )}d
∗
i=1
M
2
R
M≤ 2
δ
R ∀i, ∀z ∈ G(xi ), f (yi , xi ) − f (z, xi )2 ≤ R
∗

d 22

‣
‣

CRF Structured
1 2
3 4

‣ 23

They are her ﬂowers .
B O B I O

They gave her ﬂowers .
B O B B O

24

They are her ﬂowers .
B O B I O
B1
They gave her ﬂowers .
B O B B O
B2
25

DPLVM - Discriminative Probabilistic Latent Variable Model

Y ={ B , I , O }



















HB = { B1 , . . . , B|HB | }

|HB |

26

DPLVM - Discriminative Probabilistic Latent Variable Model

y= y1 y2 ym

h= h1 h2 hm

∀j, hj ∈ Hyj
def.
⇐⇒ Proj(h) = y
27

DPLVM

(x, h)

→
   
f1 (h, x) Θ1
 f2 (h, x)   Θ2 
   
 .
.   .
. 
 . · .  = F (h|x, Θ)
   
 .   . 
 .
.   .
. 
fn (h, x) Θn
=

=

f (h, x) Θ 28

DPLVM

d

maximize log P (yi |xi , Θ)
∗
− R(Θ)
i=1

R(Θ) Θ

31

‣
‣

CRF Structured
1 2
3 4

‣ 32

Latent Variable Perceptron

(xi , yi )
∗
hi = argmax F (hi |xi , Θ),
h
yi = Proj(hi )

yi = ∗
yi yi = ∗
yi

Θ i+1
=Θ +i
f (hi , xi )
∗
− f (h, xi ) Θ i+1
=Θ i

∗
hi
∗
hi = argmax F (h|xi , Θ )
i
∗
h:Proj(h)=yi 33

mistake bound

δ0
{(xi , yi )}i=1
∗ d

M

2T M 2 2
M≤
δ2
T d
M = max f (y, xi )2 .
i,y

34

‣
‣

CRF Structured
1 2
3 4

‣ 35

( )
‣ X = {a, b}
‣ Y = {A, B}
‣ HA = {A1 , A2 }, HB = {B1 , B2 }
‣ P (hj |hj−1 )
P (xj |hj ) h x
‣ y = Proj(h)

‣ {(xi , yi )}i=1
∗ d

‣ 36

( )
‣ p
from to A1 A2 B1 B2
A1 (1 − p)/3 (1 − p)/3 (1 − p)/3 p
A2 p (1 − p)/3 (1 − p)/3 (1 − p)/3
B1 (1 − p)/3 p (1 − p)/3 (1 − p)/3
B2 (1 − p)/3 (1 − p)/3 p (1 − p)/3

‣ P (xi = a|hi )
hi = A1 hi = A2 hi = B1 hi = B2
0.1 0.7 0.7 0.6 37

( )

Latent Variable Perceptron Structured Perceptron

100

90
accuracy [%]

80

70

60

50

40
0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95
p
38

‣

‣

‣

‣

‣
39

rinko2010

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a rinko2010

Semelhante a rinko2010 (20)

Mais de Seiya Tokui

Mais de Seiya Tokui (18)

Último

Último (20)

rinko2010