Redes Neurais: Técnicas Bayesianas

Técnicas Bayesianas

Renato Vicente
rvicente@if.usp.br
10/01, mpmmf, IME/FEA – USP

Técnicas Bayesianas
Teorema de Bayes
Modelos Hierárquicos
Inferência de Parâmetros
Inferência de Hiperparâmetros
Seleção de Modelos

Teorema de Bayes
Seja dado um conjunto de dados D e um conjunto de
hipóteses sobre os dados H1 , H2 , ..., Hn.

A teoria elementar de probabilidades nos fornece:

P ( D, H k ) = P ( D H k ) P ( H k ) = P ( H k D ) P ( D )

Daí decorre que:
P( D H k ) P( H k )
P( H k D) =
P( D)

Bayes em Palavras

VEROSSIMILHANÇA × A PRIORI
POSTERIOR =
ˆ
EVIDENCIA

Bayesianos X Freqüencistas
Freqüencistas: Probabilidades como “freqüência” de ocorrência de
um evento ao repetir-se o experimento infinitas vezes.

N
1
P( A) = lim
N
∑χ
j =1
A (x j )
N →∞

χ A ( x j ) = 1 se x j ∈ A, ou = 0 c.c.

Bayesianos: Probabilidades como “grau de crença” na ocorrência de
um evento.

Jaynes, Probability: The Logic of Science
http://omega.albany.edu:8008/JaynesBook.html

Perceptron Contínuo

⎛ ⎞ 1

y = g ⎜ ∑ wj x j + μ ⎟ Função de 0.8
⎝ j ⎠ transferência 0.6
1
g (a ) =
0.4

−a
1+ e 0.2

-4 -2 2 4

Bayes, Perceptron e Classificação
Dados em duas classes C1 e C2 são gerados
a partir de duas Gaussianas centradas em m1 e m2. Assim:

1 ⎧ 1 ⎫
P (x C1 ) = exp ⎨ − ( x - m1 ) ⋅ Σ -1 (x - m1 ) ⎬
( 2π ) ⎩ 2 ⎭
d /2
Det ( Σ)1/ 2
Utilizando o Teorema de Bayes:

P ( x C1 ) P (C1 )
P (C1 x ) =
P ( x C1 ) P (C1 ) + P ( x C2 ) P (C2 )


Assumindo a seguinte forma para o posterior P(C1|x):

1
P (C1 x) = −a
= g (a)
1+ e
⎡ P ( x C1 ) P (C1 ) ⎤
a ≡ ln ⎢ ⎥
⎣ P ( x C2 ) P (C2 ) ⎦
Retomando o Perceptron:

⎛ ⎞
y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x)
⎝ j ⎠

Retomando o Perceptron:
⎛ ⎞
y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x)
⎝ j ⎠

Com
w = Σ -1 (m1 - m 2 )
1 1 ⎛ P (C1 ) ⎞
μ = − m1 ⋅ Σ m 2 + m1 ⋅ Σ m 2 + log ⎜
-1 -1
⎟
2 2 ⎝ P(C2 ) ⎠

Modelos Hierárquicos
Dados D são produzidos por um processo estocástico com
parâmetros w , P(D|w).

Os parâmetros w são, por sua vez, produzidos por um processo
estocástico com hiperparâmetros α , P(w| α).

A hierarquia pode continuar indefinidamente ...

... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 ,
..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).

Ex: Perceptron Contínuo
H i : y ( x, w ) = g ( w ⋅ x ) t = t0 + ε , ε ∼ N (0, σ )
D = {( xn , tn )}n =1
N

N
1
P( D | w ) = ∏ P(tn | xn ,w ) P(w | H i ) =
n =1 Ωi
1 ⎧ [ yn ( x, w ) − tn ]2 ⎫
P(tn | xn , w ) = exp ⎨− ⎬
2πσ 2
⎩ 2σ 2
⎭
1 N
E ( w ) = ∑ [ yn ( x, w ) − t n ]
2

2 n =1

Intervalos de Confiança

ln P(w | D, H i ) ≈ ln P (w* | D, H i ) − (w − w*)∇E *
1
− (w − w*) ⋅ H *(w − w*)
2

⎡ 1 ⎤
P (w | D, H i ) ≈ P (w* | D, H i ) exp ⎢ − (w − w*) ⋅ H *(w − w*) ⎥
⎣ 2 ⎦
0.8

0.6

0.4

0.2

0
2
1 2
0 1
0
-1 -1
-2 -2

Inferência de Hiperparâmetros

D = {xm , tm } H = {g } K
j j =1
K
y ( x) = ∑ w j g j ( x)
j =1

Ruido : tm = y ( xm ) + ε ε ∼ N (0, σ )

Hiperparâmetro da Verossimilhança

1
P( D | w, β , H , Ruido) = exp [ − β ED ( D | w, H ) ]
ZD (β )
N
⎛ 1 ⎞ ⎡ 1 N 2⎤
P(D| w, β, H, Ruido) =⎜ 2 ⎟ exp⎢− 2 ∑ y(xm)−tm) ⎥
(
2

⎝ 2πσ ⎠ ⎣ 2σ m=1 ⎦

1
β=
σ 2

Hiperparâmetro da Distribuição a Priori

P( y | α , R) =
1
Z y (α )
{
exp −α ∫ dx [ y′′( x) ]
2
}
K
H : y′′( x) = ∑ w j g ′′( x)
j
j =1

1
P(w | α , H , R) = exp [ −α EW (w | H , R) ]
ZW (α )
K
EW (w | H , R) = ∑ w w ∫ dx g ′′( x) g ′′( x)
j ,i =1
j i j i

ZW (α ) = ∫ d w exp [ −α EW (w | H , R) ]

Seleção de Modelos
Maximiza-se a evidência

P( H i | D) ∝ P( D | H i ) P( H i )

Não há necessidade de normalização já que sempre
podemos introduzir um novo modelo para comparação
com os demais.

Navalha de Occam
Entre modelos de mesma capacidade explicativa o mais
simples deve ser preferido.

P ( D | H1 )
P( D | H 2 )

D
Ω
P( D) prior

Bibliografia

David MacKay, Information Theory, Inference, and Learning
Algorithms (http://wol.ra.phy.cam.ac.uk/mackay/)

David MacKay, Bayesian Methods for Adaptive Models
(http://wol.ra.phy.cam.ac.uk/mackay/)

Differential Geometry in Statistical Inference
(Ims Lecture Notes-Monograph Ser.: Vol. 10)
by S. Amari

Redes Neurais: Técnicas Bayesianas

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Redes Neurais: Técnicas Bayesianas

Semelhante a Redes Neurais: Técnicas Bayesianas (20)

Último

Último (20)

Redes Neurais: Técnicas Bayesianas