Redes Neurais: Técnicas Bayesianas

909 visualizações

Publicada em

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
909
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
26
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Redes Neurais: Técnicas Bayesianas

  1. 1. Técnicas Bayesianas Renato Vicente rvicente@if.usp.br 10/01, mpmmf, IME/FEA – USP
  2. 2. Técnicas BayesianasTeorema de BayesModelos HierárquicosInferência de ParâmetrosInferência de HiperparâmetrosSeleção de Modelos
  3. 3. Teorema de BayesSeja dado um conjunto de dados D e um conjunto dehipóteses sobre os dados H1 , H2 , ..., Hn.A teoria elementar de probabilidades nos fornece: P ( D, H k ) = P ( D H k ) P ( H k ) = P ( H k D ) P ( D )Daí decorre que: P( D H k ) P( H k ) P( H k D) = P( D)
  4. 4. Bayes em Palavras VEROSSIMILHANÇA × A PRIORIPOSTERIOR = ˆ EVIDENCIA
  5. 5. Bayesianos X FreqüencistasFreqüencistas: Probabilidades como “freqüência” de ocorrência de um evento ao repetir-se o experimento infinitas vezes. N 1 P( A) = lim N ∑χ j =1 A (x j ) N →∞ χ A ( x j ) = 1 se x j ∈ A, ou = 0 c.c.Bayesianos: Probabilidades como “grau de crença” na ocorrência deum evento. Jaynes, Probability: The Logic of Science http://omega.albany.edu:8008/JaynesBook.html
  6. 6. Perceptron Contínuo ⎛ ⎞ 1 y = g ⎜ ∑ wj x j + μ ⎟ Função de 0.8 ⎝ j ⎠ transferência 0.6 1g (a ) = 0.4 −a 1+ e 0.2 -4 -2 2 4
  7. 7. Bayes, Perceptron e ClassificaçãoDados em duas classes C1 e C2 são geradosa partir de duas Gaussianas centradas em m1 e m2. Assim: 1 ⎧ 1 ⎫ P (x C1 ) = exp ⎨ − ( x - m1 ) ⋅ Σ -1 (x - m1 ) ⎬ ( 2π ) ⎩ 2 ⎭ d /2 Det ( Σ)1/ 2Utilizando o Teorema de Bayes: P ( x C1 ) P (C1 ) P (C1 x ) = P ( x C1 ) P (C1 ) + P ( x C2 ) P (C2 )
  8. 8. Bayes, Perceptron e Classificação Assumindo a seguinte forma para o posterior P(C1|x): 1 P (C1 x) = −a = g (a) 1+ e ⎡ P ( x C1 ) P (C1 ) ⎤ a ≡ ln ⎢ ⎥ ⎣ P ( x C2 ) P (C2 ) ⎦ Retomando o Perceptron: ⎛ ⎞ y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x) ⎝ j ⎠
  9. 9. Bayes, Perceptron e ClassificaçãoRetomando o Perceptron: ⎛ ⎞ y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x) ⎝ j ⎠Com w = Σ -1 (m1 - m 2 ) 1 1 ⎛ P (C1 ) ⎞ μ = − m1 ⋅ Σ m 2 + m1 ⋅ Σ m 2 + log ⎜ -1 -1 ⎟ 2 2 ⎝ P(C2 ) ⎠
  10. 10. Modelos HierárquicosDados D são produzidos por um processo estocástico comparâmetros w , P(D|w).Os parâmetros w são, por sua vez, produzidos por um processoestocástico com hiperparâmetros α , P(w| α).A hierarquia pode continuar indefinidamente ...... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 ,..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).
  11. 11. Inferência de ParâmetrosDado um conjunto de dados D e um modelo Hi , encontrar osparâmetros mais prováveis w* . P( D | w, H i ) P(w | H i ) P ( w | D, H i ) = P( D | H i )Deve-se minimizar a função “erro” a seguir E (w ) = − ln P(w | D, H i ) = = − ln P ( D | w, H i ) − ln P(w | H i ) + cte max verossimilhança conhecimento a priori
  12. 12. Ex: Perceptron ContínuoH i : y ( x, w ) = g ( w ⋅ x ) t = t0 + ε , ε ∼ N (0, σ ) D = {( xn , tn )}n =1 N N 1 P( D | w ) = ∏ P(tn | xn ,w ) P(w | H i ) = n =1 Ωi 1 ⎧ [ yn ( x, w ) − tn ]2 ⎫ P(tn | xn , w ) = exp ⎨− ⎬ 2πσ 2 ⎩ 2σ 2 ⎭ 1 N E ( w ) = ∑ [ yn ( x, w ) − t n ] 2 2 n =1
  13. 13. Intervalos de Confiança ln P(w | D, H i ) ≈ ln P (w* | D, H i ) − (w − w*)∇E * 1 − (w − w*) ⋅ H *(w − w*) 2 ⎡ 1 ⎤P (w | D, H i ) ≈ P (w* | D, H i ) exp ⎢ − (w − w*) ⋅ H *(w − w*) ⎥ ⎣ 2 ⎦ 0.8 0.6 0.4 0.2 0 2 1 2 0 1 0 -1 -1 -2 -2
  14. 14. Inferência de HiperparâmetrosD = {xm , tm } H = {g } K j j =1 Ky ( x) = ∑ w j g j ( x) j =1Ruido : tm = y ( xm ) + ε ε ∼ N (0, σ )
  15. 15. Hiperparâmetro da Verossimilhança 1P( D | w, β , H , Ruido) = exp [ − β ED ( D | w, H ) ] ZD (β ) N ⎛ 1 ⎞ ⎡ 1 N 2⎤P(D| w, β, H, Ruido) =⎜ 2 ⎟ exp⎢− 2 ∑ y(xm)−tm) ⎥ ( 2 ⎝ 2πσ ⎠ ⎣ 2σ m=1 ⎦ 1 β= σ 2
  16. 16. Hiperparâmetro da Distribuição a Priori P( y | α , R) = 1 Z y (α ) { exp −α ∫ dx [ y′′( x) ] 2 } K H : y′′( x) = ∑ w j g ′′( x) j j =1 1 P(w | α , H , R) = exp [ −α EW (w | H , R) ] ZW (α ) K EW (w | H , R) = ∑ w w ∫ dx g ′′( x) g ′′( x) j ,i =1 j i j i ZW (α ) = ∫ d w exp [ −α EW (w | H , R) ]
  17. 17. Estimação de hiperparâmetros verossimilhança Pr ior flat P( D | α , β , H ) P(α , β | H )P(α , β | D, H ) = P( D | H ) Evidencia Z E (α , β ) P( D | α , β , H ) = Z D ( β ) ZW (α ) (α *, β *) = arg max P(α , β | D, H )
  18. 18. Seleção de Modelos Maximiza-se a evidência P( H i | D) ∝ P( D | H i ) P( H i ) Não há necessidade de normalização já que semprepodemos introduzir um novo modelo para comparação com os demais.
  19. 19. Navalha de OccamEntre modelos de mesma capacidade explicativa o maissimples deve ser preferido. P ( D | H1 ) P( D | H 2 ) D Ω P( D) prior
  20. 20. Avaliando a EvidênciaP ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i )P( D | H i ) P( D | w*, H i ) P (w* | H i )Δw Evidencia max verossimilhança Fator de Occam Δw j F .O. = Δw 2 Δw 0 Δw1 D Δw 0
  21. 21. Aproximação para a EvidênciaP ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i ) ⎡ 1 ⎤P( D | H i ) P( D | w*, H i ) P(w* | H i ) ∫ dw exp ⎢ − (w − w*) ⋅ H (w − w*) ⎥ ⎣ 2 ⎦ = P( D | w*, H i ) P(w* | H i ) (2π ) K / 2 Det ( H ) Fator de Occam
  22. 22. Bibliografia David MacKay, Information Theory, Inference, and LearningAlgorithms (http://wol.ra.phy.cam.ac.uk/mackay/) David MacKay, Bayesian Methods for Adaptive Models(http://wol.ra.phy.cam.ac.uk/mackay/) Differential Geometry in Statistical Inference(Ims Lecture Notes-Monograph Ser.: Vol. 10)by S. Amari

×