Markov hidden

Anwendungen und Problemstellungen

Probabilistische Graphische Modelle

Sven Wachsmuth

Universit¨t Bielefeld, Technische Fakult¨t, AG Angewandte Informatik
a a

WS 2006/2007

Probabilistische Graphische Modelle 1


¨
Ubersicht uber die Vorlesung
¨

1 Anwendungen und Problemstellungen
Anwendungen: Bayes-Netze



1.2+1.3 Wk.theorie + Probabilistische Inferenz

Zusammenfassung
Frequentisten vs. Bayesianer
Cox Axiome
Maximum-Likelihood-Sch¨tzer
a
posterior ∝ likelihood × prior
Bernoulli-Verteilung / Beta-Verteilung
Multinomial-Verteilung / Dirichlet-Verteilung
Normal-Verteilung / Normal-Verteilung
Forward probabilities / inverse probabilities
Dichtesch¨tzung, Regression, Klassiﬁkation
a


Anwendungen und Problemstellungen Anwendungen: Bayes-Netze

2. Varianten von PGMs

Es sind verschiedene Auspr¨gungen von PGMs getrennt von
a
einander entstanden, deren Theorie erst sp¨ter uber den Begriﬀ der
a ¨
Graphical Models zusammengef¨hrt wurden:
u
Bayes’sche Netzwerke (BN)
Finn V. Jensen, An Introduction to Bayesian Networks,
London: UCL Press Limited, 1996, Kap. 2.3, 3.3.
Hidden Markov Modelle (HMM)
Gernot A. Fink, Mustererkennung mit Markov-Modellen,
Wiesbaden: Teubner, 2003, Kap. 5.
Markov Random Fields (MRF) Stan Z. Li, Markov Random
Field Modeling in Computer Vision, New York, Berlin,
Heidelberg, Tokyo: Springer, 1995, Kap. 1.



2.1 Varianten von PGMs: Bayes’sche Netzwerke

Bayes’sche Netzwerke (BN)
Die Verbundwahrscheinlichkeit uber eine Variablenmenge
¨
X = {X1 , X2 , . . . , Xn } wird auf der Basis der Produkt- oder
Kettenregel faktorisiert:

P(x1 , x2 , . . . , xn ) =P(x1 |x2 , . . . , xn ) P(x2 |x3 , . . . , xn ) . . .
. . . P(xn−1 |xn )P(xn )

d.h. es wird eine Ordnung auf den Variablen angenommen
(aus unterschiedlichen Ordnungen resultieren unterschiedliche
BN’s).
¨
Uber Annahmen einer bed. Unabh. zwischen Variablen,
k¨nnen die Variablen in der Bedingung eingeschr¨nkt werden
o a



Bed. Unabh¨ngigkeit in BNs
a
In BNs werden bedingte Unabh¨ngigkeiten H uber sogenannte
a ¨
Eltern (parents) deﬁniert:
n
P(x1 , x2 , . . . , xn |H) ≡ P(xi |xπi )
i=1

wobei πi ⊆ {Xi+1 , . . . , Xn } Eltern von xi .

¨
Uber die Eltern-Kind-Beziehung deﬁniert sich der zugeh¨rige
o
gerichtete Graph.




Beispiel:
Paul arbeitet in seinem B¨ro in Californien. Sein Haus in einem
u
Vorort ist durch eine Alarmanlage gesichert.
Nach einer Sitzung bekommt er die Nachricht, dass seine
Nachbarin Mary versucht hat ihn zu erreichen. Ist vielleicht seine
Alarmanlage losgegangen? Hat eventuell ein Einbruch
stattgefunden?
Nach der n¨chsten Sitzung erf¨hrt er, dass auch sein anderer
a a
Nachbar John versucht hat ihn anzurufen. Sehr beunruhigt setzt er
sich in sein Auto und f¨hrt nach Hause.
a
Unterwegs h¨rt er im Radio, dass ein kleines Erdbeben
o
stattgefunden hat, ohne Sch¨den zu verursachen. Wieder beruhigt
a
kehrt er zur Arbeitsstelle zur¨ck.
u




Anwendung der Kettenregel:

P(John, Mary , Alarm, Einbruch, Erdbeben)
= P(John|Mary , Alarm, Einbruch, Erdbeben)
P(Mary |Alarm, Einbruch, Erdbeben)
P(Alarm|Einbruch, Erdbeden)
P(Einbruch|Erdbeben) P(Erdbeben)

und Anwendung der bedingten Unabh¨ngigkeitsannahmen H ...
a



Einbruch Erdbeben

Alarm

JohnCalls MaryCalls

P(John, Mary , Alarm, Einbruch, Erdbeben|H)
= P(John|Alarm) P(Mary |Alarm)
P(Alarm|Einbruch, Erdbeden) P(Einbruch) P(Erdbeben)

wobei H die Menge der bed. Unabh¨ngigkeitsannahmen.
a


Def. (diskretes) Bayes’sches Netzwerk (BN) (I)
Ein BN besteht aus:
Einer Menge von Variablen (Knoten) und einer Menge von
gerichteten Kanten zwischen Variablen.
Jede Variable hat eine endliche Menge von sich gegenseitig
ausschließenden Zust¨nden.
a
Die Variablen bilden zusammen mit den gerichteten Kanten
einen gerichteten azyklischen Graphen (directed acyclic graph
- DAG).
D.h. Es existiert kein gerichteter Pfad mit

X1 → · · · → Xk , so dass X1 = Xk

...



Def. (diskretes) Bayes’sches Netzwerk (BN) (II)
Ein BN besteht aus (Fortsetzung):
Jeder Variablen Xi mit Eltern πi ist eine Tabelle von
bedingten Wahrscheinlichkeiten zugeordnet:
 
(1) (1) (1) (L)
p(xi |xπi ) . . . p(xi |xπi )
P(Xi |Xπi ) ≡  ... ...
 

(K ) (1) (K ) (L)
p(xi |xπi ) . . . p(xi |xπi )



Inferenz bei BNs (Problemstellungen):
Sei X = {X1 , X2 , . . . , Xn } die Menge von ZV’en des BN.
Sei O = (XJ = xJ ) = (Xj1 = xj1 , . . . , XjJ = xjJ ) gegeben.
Belief updating (Bel):

P(xi |O) = P(Xi = xi |Xj1 = xj1 , . . . , XjJ = xjJ )

Most probable explanation (MPE):

arg max P(xI |xJ ), wobei XI = X XJ
xI ∈AXI

Maximum a posteriori hypothesis (MAP):

arg max P(xI |xJ ), wobei XI ⊆ X XJ
xI ∈AXI



Modellierung in BN’en
Problem großer bed. Wk.-Tabellen P(A|B, C , D):
Es liegen Sch¨tzungen f¨r P(A|B), P(A|C ), P(A|D) vor,
a u
wie beschreiben wir ihre Kombination in P(A|B, C , D)?
Jede Ursache hat eine unabh¨ngige Wirkung,
a
wie kann dies modelliert werden?




Beispiel (Noisy-or)
Es gibt 3 Ereignisse, die dazu f¨hren, dass die Alarmanlage los
u
geht:
Hintergrund-Ereignis: 0,1% aus unspeziﬁschen Gr¨nden
u
Einbrecher: 95%
Erdbeben: 29%
Annahme: Die Faktoren, die dazu f¨hren, dass das Ereignis
u
trotzdem nicht eintritt sind unabh¨ngig.
a



Noisy-or
Seien A1 , . . . , An bin¨re Variablen der m¨glichen Ursachen von
a o
dem Ereignis der bin¨ren Variablen B.
a
Ai = true verursacht B = true, solange dies nicht durch
andere Faktoren verhindert wird.
Sei P(B = false|Ai = true) = qi die bed. Wk., dass B
trotzdem nicht eintritt.
Annahme: Verhinderungsfaktoren der Ereignisse von
A1 , . . . , An sind unabh¨ngig, d.h. z.B.:
a

P(B = true|A1 = true, A2 = true, A3 = · · · = An = false)
= 1 − P(B = false|A1 = true, A2 = true, A3 = · · · = An = false)
= 1 − q1 q2



Beispiel (unabh¨ngige Ursachen)
a
Kopfschmerzen (Ko) k¨nnen durch Fieber (Fi), einen Kater (Ka),
o
Rheuma (Rh), einen Gehirntumor (Ge), oder andere Gr¨nde (An)
u
verursacht werden. Eventuell wird Aspirin (As) zur Linderung der
Kopfschmerzen eingenommen.
Die einzelnen Ursachen verst¨rken den Eﬀekt.
a
Der Einﬂuss der Ursachen auf die Wirkung ist unabh¨ngig.
a




unabh¨ngige Ursachen
a
Seien C1 , . . . , Cn die Elternknoten von A.
C1 , . . . , Cn sind unabh¨ngig, falls das folgende f¨r alle
a u
Konﬁgurationen (c1 , . . . , cn ) und f¨r alle i gilt:
u
Falls A = a und Ci = ci ¨ndert sich nach Ci = ci , dann wird
a
die resultierende Verteilung von A nur durch eine Funktion
von a, ci , ci bestimmt.




Divorcing
Noisy-or und kausale Unabh¨ngigkeit sind Spezialf¨lle von der
a a
Methode Divorcing (scheiden).
Seien A1 , . . . , An Elternknoten von B.
A1 , . . . , Ai is divorced from Ai+1 , . . . , An durch die Einf¨hrung
u
einer Zwischenvariablen C mit
C wird gemeinsames Kind von A1 , . . . , Ai .
C wird neben Ai+1 , . . . , An Elternknoten von B.
Annahme: Die Konﬁgurationen von A1 , . . . , Ai k¨nnen o
partitioniert werden in die Mengen c (1) , . . . , c (K ) , so dass f¨r
u
zwei Konﬁgurationen a[1,i] , a[1,i] aus einer Menge c (j) gilt:

P(B|a[1,i] , a[i+1,K ] ) = P(B|a[1,i] , a[i+1,K ] )




Beispiel (Ungerichtete Relationen):
Um zwei zusammengeh¨rige Socken zu finden, kann man diese
o
nach Farbe und Muster klassifizieren. Nach mehrfachem Waschen
ist dies jedoch nicht immer ganz einfach.
In der letzten Waschmaschine waren 2 Paar Socken, die nicht mehr
ganz eindeutig auseinander zu halten sind. Nichtsdestotrotz
m¨ssen wir zwei passende finden.
u
Die Beschr¨nkung dabei ist, dass es jeweils exakt 2 Socken des
a
gleichen Typs gibt.




Ungerichtete Relationen
Sei R(A, B, C ) eine ungerichtete Relation zwischen den Variablen
A, B, C , die durch die Werte {0, 1} beschrieben wird.
F¨ge eine Variable D mit AD = {true, false}.
u
Deﬁniere P(D = true|A, B, C ) = R(A, B, C ).
Deﬁniere P(D = false|A, B, C ) = 1 − R(A, B, C ).
Setze die Evidenz D = true.



Zusammenfassung Bayes-Netze
Ein BN ist ein DAG, wobei jedem Knoten (Variablen) eine
bedingte Wk.-Tabelle zugeordnet ist.
Gerichtete Kanten des DAG ergeben sich h¨uﬁg uber kausale
a ¨
Beziehungen der in den ZV modellierten Ereignisse.
Die Faktorisierung der Verbundwk. ergibt sich uber die
¨
Kettenregel bzw. die Elternknoten.
Jede Instanziierung eines BNs (partielle Belegung der
Variablen mit Werten – Evidenzen) wird als unabh¨ngiges
a
Ereignis betrachtet.
Die Theorie von Bayes-Netzen kann auch auf kontinuierliche
Variablen ausgedehnt werden (→ hybride Bayes-Netze)
Ziel ist die Berechnung der bedingten Wahrscheinlichkeit von
nicht beobachteten Variablen.


2.2 Varianten von PGMs: Hidden Markov Modelle

Hidden Markov Modelle (HMM)
HMMs beschreiben einen 2-stuﬁgen stochastischen Prozess
erste Stufe:
diskreter stochastischer Prozess,
station¨r, kausal, einfach,
a
endliche Zustandsmenge,
¨
endlicher Automat mit Ubergangswk.
P(st |s1 , s2 , . . . , st−1 ) = P(st |st−1 )
zweite Stufe:
Zu jedem Zeitpunkt t wird eine Ausgabe (Emission) ot
generiert,
die Ausgabe ist nur vom aktuellen Zustand st abh¨ngig
a
P(ot |o1 , . . . , ot−1 , s1 , . . . , st ) = P(ot |st )




Beispiel
Paul ist neu in der Stadt und versucht Mary, die sich in der Stadt
recht gut auskennt, zu erkl¨ren, wo er gestern lang gegangen ist.
a
“Ich bin an einer großen Kreuzung gestartet. Dann bin ich bei einer
Kirche herausgekommen und weiter gegangen zu einem Platz mit
einem Brunnen. Von dort bin ich dann an einer Eisdiele vorbei
gegangen, habe ein St¨ck weiter Straßenbahngleise uberquert und
u ¨
bin bei meinem Hotel herausgekommen.

Welcher Weg wurde genommen?
An welchem Hotel ist Paul angekommen?




Die Zustandsmenge besteht aus
den markierten Stellen im
Stadtplan.
Die Beobachtungen sind
markante Objekte an diesen
Orten.
Welcher Weg wurde
genommen?
An welchem Hotel ist Paul
angekommen?




Def. Hidden Markov Modelle
Ein HMM 1. Ordnung wird vollst¨ndig beschrieben durch:
a
eine endliche Menge von Zust¨nden St ∈ {s|1 ≤ s ≤ N}
a
eine Matrix A von Zustands¨bergangswk.
u
A = {aij |aij = P(St = j|St−1 = i)}
einen Vektor π von Zustandsstartwk.
π = {πi |πi = P(S1 = i)}.
zustandsspeziﬁsche Emissionsverteilungen
B = {bkj |bkj = P(Ot = ok |St = j)}

bzw. {bj (x)|bj (x) = p(x|St = j)} (kont. Dichten)




Modellierung der Modellemissionen
Meistens wird eine kontinuierliche Dichte durch eine
Mischverteilung approximiert:
Mj
bj (x) = cjk N (x|µjk , Kjk )
k=1

wobei cjk das Mischungsgewicht mit k ck = 1 und ck ≥ 0 ∀k,
µjk der zustandsabh. Mittelwert der Komponente,
Kjk die zustandsabh. Kovarianzmatrix der Komponente.




Semikontinuierliche HMMs
Die zu mischenden Komponenten sind unabh¨ngig vom Zustand:
a
Mj
bj (x) = cjk N (x|µk , Kk )
k=1

wobei cjk das Mischungsgewicht mit k ck = 1 und ck ≥ 0 ∀k,
µk der komponentenspeziﬁsche Mittelwert,
Kk die komponentenspeziﬁsche Kovarianzmatrix.




Inferenz bei HMMs (Problemstellungen)
Sei S = (S1 , . . . , ST ) eine Folge von Zustandsvariablen.
Sei O = (O1 = ok1 , . . . , Ot = okT ) eine Folge von Beobachtungen.
Produktionswk. von HMM λ (Evaluierung)

P(O|λ) = P(O, s1 , . . . , sT |λ)
s1 ,...,sT

optimale Produktionswk. von HMM λ (Dekodierung)

P ∗ (O|λ) = P(O, s ∗ |λ) = max P(O, s1 , . . . , sT |λ)
s1 ,...,sT




Inferenz bei HMMs (Problemstellungen II)
Sei S = (S1 , . . . , ST ) eine Folge von Zustandsvariablen.
Sei O = (O1 = ok1 , . . . , Ot = okT ) eine Folge von Beobachtungen.
Klassiﬁkation (zwei oder mehr HMMs λi )

P(O|λi ) P(λi )
P(λi ∗ |O) = max
i P(O)




Zusammenfassung HMMs
Ein HMM ist ein zweistuﬁger Zufallsprozess
(Zust¨nde der ersten Stufe sind nicht beobachtbar).
a
Aufeinander folgende Ereignisse sind nicht unabh¨ngig!
a
Ein HMM wird beschrieben durch λ = (A, π, B).
Es wird meistens zur Modellierung zeitlich organisierter
Prozesse verwendet.
Komplexere Problemstellungen werden meistens durch
Verbund-Modelle realisiert (Zusammenschaltung einfacher
Modelle)
Ein entrolltes HMM entspricht einem einfachen Bayes-Netz
mit rechtsseitiger Baumstruktur.



2.3 Varianten von PGMs: Markov Random Fields

Markov Random Fields (MRF)
MRFs beschreiben ein Feld von Zufallsvariablen X mit
ungerichteten direkten Abh¨ngigkeiten. Dies ist darstellbar durch
a
einen ungerichteten Graphen mit einer Nachbarschaft XNi von
Knoten Xi .

Jede Variable Xi ist unabh¨ngig von den Zust¨nden der ubrigen
a a ¨
Variablen XJ gegeben die Menge der Nachbarschaftsknoten XNi :

P(xi |xNi , xJ ) = P(xi |xNi ), wobei X = {Xi } ∪ XJ ∪ XNi




Beispiel
Auf dem Tankstellenmarkt herrscht ein harter Preiskampf. Jeder
Tankstellenbetreiber versucht seine Preise anhand des lokalen
Preisgef¨ges der benachbarten Tankstellen und des
u
Weltmarktpreises zu optimieren.

Der Autofahrer unterwegs kennt zwar die Preise von Tankstelle
A, B, und C , kann aber den Preis seiner n¨chsten Tankstelle D an
a
einem Ort zwischen der teuren Tankstelle A und der g¨nstigen
u
Tankstelle C nur sch¨tzen.
a

Lohnt sich der Weg zur Tankstelle C ?




Welche Verteilung modelliert die Unabh¨ngigkeitsbed. eines
a
MRF?

Gedankenexperiment
Gegeben sei ein physikalisches System mit diskreten
Energiezust¨nden 1 , 2 , . . . , m .
a
N identische solche Systeme werden in einen abgeschlossenen
Raum gesperrt, k¨nnen aber untereinander Energie austauschen.
o
Was ist die Verteilung der Energiezust¨nde, die sich einstellt (am
a
wahrscheinlichsten ist)?




Boltzmann-Verteilung
∗
Ns exp{−β s }
=
N s exp{−β s }

wobei ∗
Ns die Anzahl der Systeme im Zustand s.
N die Gesamtanzahl der Systeme.
β temperaturabh. Parameter.




Die Faktorisierung der Boltzmann-Verteilung ergibt sich aus einer
Zerlegung des Energiezustandes s in eine Summe aus einzelnen
Energietermen Ei (s).

Faktorisierung der Boltzmann-Verteilung
∗
Ns exp{−β i Ei (s)}
=
N Z
wobei s = i Ei (s)
Z= s exp{−β i Ei (s )} (Zustandssumme)




Ein Systemzustand s wird modelliert durch eine Menge von
Zufallsvariablen X = {X1 , . . . , Xn } und entspricht einer
Systemkonﬁguration

s ≡ (x1 , x2 , . . . , xn )

Ein Energieterm (Potentialfunktion VI (xI )) kann dabei nur von
einer Teilmenge XI ⊆ X der ZV abh¨ngen.
a

1
P(x1 , . . . , xn ) = exp{−β VI (xI )}
Z
I∈Q

wobei Q ⊆ P({1, 2, . . . , n}) (P: Potenzmenge).




1
P(x1 , . . . , xn ) = exp{−β VI (xI )}
Z
I∈Q

Umsetzung der Zerlegung der Zustandsenergie s = I∈Q VI (xI )
in einen Graphen:
Deﬁniere f¨r jede ZV einen Knoten.
u
Ziehe genau dann eine Kante (i, j) zwischen zwei Knoten,
wenn beide ZV in einem Teilenergieterm VI (xI ) vorkommen.
(∃I∈Q Xi , Xj ∈ XI )

⇒ Hieraus folgt die Unabh¨ngigkeitbed. in einem MRF.
a

P(xi |xNi , xJ ) = P(xi |xNi ), wobei Ni Nachbarschaft von Xi




Def. Markov Random Fields
Ein (diskretes) MRF wird beschreiben durch:
Einer Menge von Variablen (Knoten) X und einer Menge von
ungerichteten Kanten E.
Jede Variable hat eine endliche Menge von sich gegenseitig
ausschließenden Zust¨nden.
a
Die Variablen bilden zusammen mit den ungerichteten Kanten
einen ungerichteten Graphen G = (X , E)
Es gilt die Unabh¨ngigkeitsbed. (X = {Xi } ∪ XNi ∪ XJ )
a

P(xi |xNi , xJ ) = P(xi |xNi ), ∀j∈J (i, j) ∈ E ∀k∈Ni (i, k) ∈ E




Bisher haben wir gezeigt, dass die Boltzmann-(Gibbs-)Verteilung
die MRF-Bedingungen erf¨llt.
u
Hammersley-Cliﬀord Theorem
X ist genau dann ein MRF in Bezug auf ein Nachbarschaftssystem
N , wenn P(x) eine Boltzmann-Gibbs-Verteilung ist.

1
P(x1 , . . . , xn ) = exp{−β VI (xI )}
Z
I∈Q

wobei Q die Menge der (maximalen) Cliquen des Graphen mit
Nachbarschaftssystem N ist.




Def. Clique
Eine Clique C in einem Graphen G = (X , E) ist eine
Knotenteilmenge von G , d.h. C ⊆ X , die vollverbunden ist, d.h.

∀ Xi , Xj : Xi ∈ C ∧ Xj ∈ C ⇒ (i, j) ∈ E

Die Beschr¨nkung im Hammersley-Clifford-Theorem auf
a
maximale Cliquen bedeutet keine Einschr¨nkung f¨r das
a u
Modell.
Hüfig werden gr¨ßere Cliquen durch die Summe von
a o
Potentialfunktionen von Teil-Cliquen beschrieben.




Inferenz bei MRFs (Problemstellung)
Sei X = (X1 , . . . , Xn ) ein Feld von Zustandsvariablen.
Sei O = {O1 = o1 , . . . , On = on } eine Menge von Beobachtungen.
Most probable explanation (MPE):

arg max P(x|o) = arg max P(o|x) P(x)
x x

entspricht einer Energieminimierung
(meistens Annahme einer bed. Unabh. im Datenterm):
n
arg min E (x) = arg min VI (xI ) − log P(oi |xi )
x x
I∈Q i=1




Wahl des Priors U(x) = I∈Q VI (xI ) (Beispiele):
Multi-level logistic model (nicht geordnete Labelmenge)

ζI falls alle xi , i ∈ I den gleichen Wert haben
VI (xI ) =
−ζI sonst.

Glattheits-Prior (meistens paarweise)

U(x) = VI (xI ) = V2 (xi , xi ), S = {1, . . . , n}
I∈Q i∈S i ∈Ni
1
mit V2 (xi , xi ) = (xi − xi )2 .
2
andere anwendungsabh. Wahl m¨glich.
o




Zusammenfassung MRFs
Ein MRF ist ein ungerichteter Graph, wobei den Cliquen des
Graphs Potentialfunktionen zugeordnet sind.
Die Faktorisierung der Verbundwk. ergibt sich uber die
¨
Summe der Potentialfunktionen.
Jede Instantiierung einen MRFs wird als unabh¨ngiges
a
Ereignis betrachtet.
Die Theorie von MRFs kann auch auf kontinuierliche
Variablen ausgedehnt werden.
Das Minimieren der Gesamtenergie des MRF entspricht der
Berechnung einer most probable explanation der
entsprechenden Boltzmann-Gibbs-Verteilung.



2.4 Varianten von PGMs: Gemeinsame Sicht

Probabilistische Graphische Modelle kann man sich vorstellen als
probabilistische Datenbasis, die wir uber einen
¨
Anfragemechanismus bez¨glich der Werte von Zufallsvariablen
u
abfragen k¨nnen.
o

Modelliert wird jedes mal die Verbundwahrscheinlichkeit uber
¨
einer Menge von Zufallsvariablen.
Unabh¨ngigkeitsannahmen H ergeben sich aus der
a
Graphstruktur und spiegeln sich in der Faktorisierung der
Verbundwk.

P(x1 , . . . , xn |H) = fI (xI )
I∈Q




P(x1 , . . . , xn |H) = fI (xI )
I∈Q

Dabei ist ...
Bayes-Netze:
Q = {({Xi } ∪ Xπi )|i ∈ {1, . . . , n}}
fI (xI ) = P(xi |xπi ), wobei I = ({Xi } ∪ Xπi )
ausgerollte HMMs k¨nnen als Spezialfall eines BNs verstanden
o
werden.
MRFs:
Q Menge der (maximalen) Cliques uber dem Graph.
¨
fI (xI ) = exp{−βVI (xI )}



Bayes-Netze und MRFs modellieren
eine Folge von unabh¨ngigen, identisch verteilten (IID)
a
Verbund-Ensembles.
Es besteht kein zeitlicher Zusammenhang zwischen zwei
aufeinander folgenden Belegungen
HMMs modellieren
eine Folge von abh¨ngigen Verbund-Ensembles
a
(Zustand, Beobachtung).
der “zeitliche” Zusammenhang ist meistens auf den vorherigen
Zustand beschr¨nkt.
a

⇒ Erweiterung von Bayes-Netzen und MRFs
auf dynamische PGMs.




Gemeinsame Fragestellungen:
Lassen sich Bayes-Netze und MRFs auf einander abbilden?
Wo liegen die Grenzen,
was kann modelliert werden? was nicht?
Gibt es ein gemeinsames Schema f¨r Inferenzalgorithmen?
u
Wie k¨nnen Parameter und Struktur
o
aus Daten gelernt werden?


Markov hidden

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (13)

Último

Último (6)

Markov hidden