SlideShare uma empresa Scribd logo
1 de 22
Baixar para ler offline
Técnicas Bayesianas


          Renato Vicente
        rvicente@if.usp.br
  10/01, mpmmf, IME/FEA – USP
Técnicas Bayesianas
Teorema de Bayes
Modelos Hierárquicos
Inferência de Parâmetros
Inferência de Hiperparâmetros
Seleção de Modelos
Teorema de Bayes
Seja dado um conjunto de dados D e um conjunto de
hipóteses sobre os dados H1 , H2 , ..., Hn.

A teoria elementar de probabilidades nos fornece:

   P ( D, H k ) = P ( D H k ) P ( H k ) = P ( H k D ) P ( D )

Daí decorre que:
                         P( D H k ) P( H k )
             P( H k D) =
                              P( D)
Bayes em Palavras


            VEROSSIMILHANÇA × A PRIORI
POSTERIOR =
                        ˆ
                    EVIDENCIA
Bayesianos X Freqüencistas
Freqüencistas: Probabilidades como “freqüência” de ocorrência de
 um evento ao repetir-se o experimento infinitas vezes.

                                   N
                               1
             P( A) = lim
                               N
                                   ∑χ
                                   j =1
                                          A   (x j )
                        N →∞

             χ A ( x j ) = 1 se x j ∈ A, ou = 0 c.c.

Bayesianos: Probabilidades como “grau de crença” na ocorrência de
um evento.

             Jaynes, Probability: The Logic of Science
         http://omega.albany.edu:8008/JaynesBook.html
Perceptron Contínuo




       ⎛              ⎞                   1

 y = g ⎜ ∑ wj x j + μ ⎟     Função de 0.8
       ⎝ j            ⎠   transferência 0.6
           1
g (a ) =
                                         0.4

              −a
         1+ e                            0.2


                               -4   -2         2   4
Bayes, Perceptron e Classificação
Dados em duas classes C1 e C2 são gerados
a partir de duas Gaussianas centradas em m1 e m2. Assim:


                                1                  ⎧ 1                             ⎫
  P (x C1 ) =                                  exp ⎨ − ( x - m1 ) ⋅ Σ -1 (x - m1 ) ⎬
                ( 2π )                             ⎩ 2                             ⎭
                         d /2
                                Det ( Σ)1/ 2
Utilizando o Teorema de Bayes:



                                   P ( x C1 ) P (C1 )
            P (C1 x ) =
                        P ( x C1 ) P (C1 ) + P ( x C2 ) P (C2 )
Bayes, Perceptron e Classificação

   Assumindo a seguinte forma para o posterior P(C1|x):


                             1
             P (C1 x) =        −a
                                   = g (a)
                          1+ e
                    ⎡ P ( x C1 ) P (C1 ) ⎤
             a ≡ ln ⎢                    ⎥
                    ⎣ P ( x C2 ) P (C2 ) ⎦
   Retomando o Perceptron:


                 ⎛               ⎞
           y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x)
                 ⎝ j             ⎠
Bayes, Perceptron e Classificação
Retomando o Perceptron:
                      ⎛               ⎞
                y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x)
                      ⎝ j             ⎠

Com
       w = Σ -1 (m1 - m 2 )
            1            1                 ⎛ P (C1 ) ⎞
       μ = − m1 ⋅ Σ m 2 + m1 ⋅ Σ m 2 + log ⎜
                   -1           -1
                                                     ⎟
            2            2                 ⎝ P(C2 ) ⎠
Modelos Hierárquicos
Dados D são produzidos por um processo estocástico com
parâmetros w , P(D|w).


Os parâmetros w são, por sua vez, produzidos por um processo
estocástico com hiperparâmetros α , P(w| α).


A hierarquia pode continuar indefinidamente ...


... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 ,
..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).
Inferência de Parâmetros
Dado um conjunto de dados D e um modelo Hi , encontrar os
parâmetros mais prováveis w* .

                        P( D | w, H i ) P(w | H i )
     P ( w | D, H i ) =
                               P( D | H i )
Deve-se minimizar a função “erro” a seguir

  E (w ) = − ln P(w | D, H i ) =
          = − ln P ( D | w, H i ) − ln P(w | H i ) + cte
               max verossimilhança   conhecimento a priori
Ex: Perceptron Contínuo
H i : y ( x, w ) = g ( w ⋅ x )              t = t0 + ε , ε ∼ N (0, σ )
                                            D = {( xn , tn )}n =1
                                                             N



                     N
                                                          1
      P( D | w ) = ∏ P(tn | xn ,w )         P(w | H i ) =
                    n =1                                  Ωi
                           1          ⎧ [ yn ( x, w ) − tn ]2 ⎫
      P(tn | xn , w ) =        exp ⎨−                         ⎬
                        2πσ  2
                                      ⎩         2σ  2
                                                              ⎭
                1 N
      E ( w ) = ∑ [ yn ( x, w ) − t n ]
                                       2

                2 n =1
Intervalos de Confiança

   ln P(w | D, H i ) ≈ ln P (w* | D, H i ) − (w − w*)∇E *
                      1
                     − (w − w*) ⋅ H *(w − w*)
                      2

                                       ⎡ 1                        ⎤
P (w | D, H i ) ≈ P (w* | D, H i ) exp ⎢ − (w − w*) ⋅ H *(w − w*) ⎥
                                       ⎣ 2                        ⎦
                       0.8


                       0.6


                       0.4


                       0.2


                        0
                        2
                             1                                   2
                                 0                           1
                                                         0
                                     -1             -1
                                          -2   -2
Inferência de Hiperparâmetros

D = {xm , tm }                H = {g }  K
                                      j j =1
         K
y ( x) = ∑ w j g j ( x)
         j =1

Ruido : tm = y ( xm ) + ε   ε ∼ N (0, σ )
Hiperparâmetro da Verossimilhança

                             1
P( D | w, β , H , Ruido) =         exp [ − β ED ( D | w, H ) ]
                           ZD (β )
                                 N
                      ⎛   1 ⎞  ⎡  1 N          2⎤
P(D| w, β, H, Ruido) =⎜ 2 ⎟ exp⎢− 2 ∑ y(xm)−tm) ⎥
                                       (
                                 2

                      ⎝ 2πσ ⎠  ⎣ 2σ m=1         ⎦

                                 1
                          β=
                                σ    2
Hiperparâmetro da Distribuição a Priori

     P( y | α , R) =
                        1
                     Z y (α )
                                            {
                              exp −α ∫ dx [ y′′( x) ]
                                                     2
                                                         }
                    K
     H : y′′( x) = ∑ w j g ′′( x)
                            j
                   j =1

                          1
     P(w | α , H , R) =         exp [ −α EW (w | H , R) ]
                        ZW (α )
                           K
     EW (w | H , R) =     ∑ w w ∫ dx g ′′( x) g ′′( x)
                          j ,i =1
                                    j   i       j   i



    ZW (α ) = ∫ d w exp [ −α EW (w | H , R) ]
Estimação de hiperparâmetros

                       verossimilhança         Pr ior flat

                   P( D | α , β , H ) P(α , β | H )
P(α , β | D, H ) =
                              P( D | H )
                                   Evidencia


                              Z E (α , β )
       P( D | α , β , H ) =
                            Z D ( β ) ZW (α )

      (α *, β *) = arg max P(α , β | D, H )
Seleção de Modelos
           Maximiza-se a evidência


    P( H i | D) ∝ P( D | H i ) P( H i )

 Não há necessidade de normalização já que sempre
podemos introduzir um novo modelo para comparação
                  com os demais.
Navalha de Occam
Entre modelos de mesma capacidade explicativa o mais
simples deve ser preferido.

         P ( D | H1 )
                                      P( D | H 2 )

                                                     D
                        Ω
                                   P( D)    prior
Avaliando a Evidência

P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i )
P( D | H i )   P( D | w*, H i ) P (w* | H i )Δw
  Evidencia     max verossimilhança     Fator de Occam

                                                Δw j
                                      F .O. =
                Δw 2                            Δw 0
                                  Δw1
                                                         D

                          Δw 0
Aproximação para a Evidência


P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i )
                                                        ⎡ 1                       ⎤
P( D | H i )     P( D | w*, H i ) P(w* | H i ) ∫ dw exp ⎢ − (w − w*) ⋅ H (w − w*) ⎥
                                                        ⎣ 2                       ⎦
               = P( D | w*, H i ) P(w* | H i ) (2π ) K / 2 Det ( H )
                                                       Fator de Occam
Bibliografia

  David MacKay, Information Theory, Inference, and Learning
Algorithms (http://wol.ra.phy.cam.ac.uk/mackay/)


  David MacKay, Bayesian Methods for Adaptive Models
(http://wol.ra.phy.cam.ac.uk/mackay/)


 Differential Geometry in Statistical Inference
(Ims Lecture Notes-Monograph Ser.: Vol. 10)
by S. Amari

Mais conteúdo relacionado

Mais procurados

Anatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de CréditoAnatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de Crédito
Renato Vicente
 
[Robson] 7. Programação Não Linear Irrestrita
[Robson] 7. Programação Não Linear Irrestrita[Robson] 7. Programação Não Linear Irrestrita
[Robson] 7. Programação Não Linear Irrestrita
lapodcc
 
Integral de linha campo vetorial - calculo iii
Integral de linha   campo vetorial - calculo iiiIntegral de linha   campo vetorial - calculo iii
Integral de linha campo vetorial - calculo iii
Jailson Nascimento
 
Calculo vetorial
Calculo vetorialCalculo vetorial
Calculo vetorial
tooonks
 
[Robson] 4. Dualidade
[Robson] 4. Dualidade[Robson] 4. Dualidade
[Robson] 4. Dualidade
lapodcc
 
[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade
lapodcc
 
[Robson] 3. Método Simplex
[Robson] 3. Método Simplex[Robson] 3. Método Simplex
[Robson] 3. Método Simplex
lapodcc
 
[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita
lapodcc
 
funçoes
funçoesfunçoes
funçoes
tagma33
 
V@R ajustado a liquidez
V@R ajustado a liquidezV@R ajustado a liquidez
V@R ajustado a liquidez
Renato Vicente
 
[Alexandre] 2. Geometria
[Alexandre] 2. Geometria[Alexandre] 2. Geometria
[Alexandre] 2. Geometria
lapodcc
 
Cálculo Diferencial em R
Cálculo Diferencial em RCálculo Diferencial em R
Cálculo Diferencial em R
tintintest
 

Mais procurados (20)

Anatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de CréditoAnatomia Comparativa de Modelos de Risco de Crédito
Anatomia Comparativa de Modelos de Risco de Crédito
 
Aula 05 derivadas - conceitos iniciais
Aula 05   derivadas - conceitos iniciaisAula 05   derivadas - conceitos iniciais
Aula 05 derivadas - conceitos iniciais
 
Derivada
DerivadaDerivada
Derivada
 
[Robson] 1. Programação Linear
[Robson] 1. Programação Linear[Robson] 1. Programação Linear
[Robson] 1. Programação Linear
 
[Robson] 7. Programação Não Linear Irrestrita
[Robson] 7. Programação Não Linear Irrestrita[Robson] 7. Programação Não Linear Irrestrita
[Robson] 7. Programação Não Linear Irrestrita
 
Integral de linha campo vetorial - calculo iii
Integral de linha   campo vetorial - calculo iiiIntegral de linha   campo vetorial - calculo iii
Integral de linha campo vetorial - calculo iii
 
Derivadas
DerivadasDerivadas
Derivadas
 
Calculo vetorial
Calculo vetorialCalculo vetorial
Calculo vetorial
 
[Robson] 4. Dualidade
[Robson] 4. Dualidade[Robson] 4. Dualidade
[Robson] 4. Dualidade
 
[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade[Robson] 5. Análise de Sensibilidade
[Robson] 5. Análise de Sensibilidade
 
Derivadas Aplicações
Derivadas AplicaçõesDerivadas Aplicações
Derivadas Aplicações
 
Ex algebra (8)
Ex algebra  (8)Ex algebra  (8)
Ex algebra (8)
 
[Robson] 3. Método Simplex
[Robson] 3. Método Simplex[Robson] 3. Método Simplex
[Robson] 3. Método Simplex
 
[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita[Alexandre] 8. Não Linear Restrita
[Alexandre] 8. Não Linear Restrita
 
funçoes
funçoesfunçoes
funçoes
 
V@R ajustado a liquidez
V@R ajustado a liquidezV@R ajustado a liquidez
V@R ajustado a liquidez
 
Formulário - Estatística
Formulário - EstatísticaFormulário - Estatística
Formulário - Estatística
 
Esboço - Gráfico de Função
Esboço - Gráfico de FunçãoEsboço - Gráfico de Função
Esboço - Gráfico de Função
 
[Alexandre] 2. Geometria
[Alexandre] 2. Geometria[Alexandre] 2. Geometria
[Alexandre] 2. Geometria
 
Cálculo Diferencial em R
Cálculo Diferencial em RCálculo Diferencial em R
Cálculo Diferencial em R
 

Destaque (20)

Inteligencia financeira II
Inteligencia financeira IIInteligencia financeira II
Inteligencia financeira II
 
Inteligencia financeira I
Inteligencia financeira IInteligencia financeira I
Inteligencia financeira I
 
Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+Risco de Crédito 2: CreditRisk+
Risco de Crédito 2: CreditRisk+
 
Estatística: introdução
Estatística: introduçãoEstatística: introdução
Estatística: introdução
 
Risco sistêmico
Risco sistêmicoRisco sistêmico
Risco sistêmico
 
Backtesting
BacktestingBacktesting
Backtesting
 
Testes de Stress
Testes de StressTestes de Stress
Testes de Stress
 
Estatistica: introducao a teoria de decisao
Estatistica: introducao a teoria de decisaoEstatistica: introducao a teoria de decisao
Estatistica: introducao a teoria de decisao
 
Estatística: Probabilidade
Estatística: ProbabilidadeEstatística: Probabilidade
Estatística: Probabilidade
 
Estatística: Modelos Discretos
Estatística: Modelos DiscretosEstatística: Modelos Discretos
Estatística: Modelos Discretos
 
Estatística: Introduçao à Estimacao Bayesiana
Estatística: Introduçao à Estimacao BayesianaEstatística: Introduçao à Estimacao Bayesiana
Estatística: Introduçao à Estimacao Bayesiana
 
Risco de derivativos
Risco de derivativosRisco de derivativos
Risco de derivativos
 
Risco de Crédito 1
Risco de Crédito 1Risco de Crédito 1
Risco de Crédito 1
 
V@R Histórico
V@R HistóricoV@R Histórico
V@R Histórico
 
V@R Monte Carlo
V@R Monte CarloV@R Monte Carlo
V@R Monte Carlo
 
Seminário redes bayesianas
Seminário redes bayesianasSeminário redes bayesianas
Seminário redes bayesianas
 
Teorema de bayes
Teorema de bayesTeorema de bayes
Teorema de bayes
 
Teorema de bayes
Teorema de bayesTeorema de bayes
Teorema de bayes
 
Teorema de bayes
Teorema de bayesTeorema de bayes
Teorema de bayes
 
Ejemplos del teorema de Bayes
Ejemplos del teorema de BayesEjemplos del teorema de Bayes
Ejemplos del teorema de Bayes
 

Semelhante a Redes Neurais: Técnicas Bayesianas

OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2
guestd49fc4
 
OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2
guestd49fc4
 
As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...
leosilveira
 
Variaveis+aleatorias
Variaveis+aleatoriasVariaveis+aleatorias
Variaveis+aleatorias
Fagner Talles
 
Revisão de polinômios
Revisão de polinômiosRevisão de polinômios
Revisão de polinômios
matheuslw
 

Semelhante a Redes Neurais: Técnicas Bayesianas (20)

Lista polinomio equaçoes_3_ano_2012_pdf
Lista polinomio equaçoes_3_ano_2012_pdfLista polinomio equaçoes_3_ano_2012_pdf
Lista polinomio equaçoes_3_ano_2012_pdf
 
Formulário de Análise Matemática
Formulário de Análise MatemáticaFormulário de Análise Matemática
Formulário de Análise Matemática
 
Polinomios
PolinomiosPolinomios
Polinomios
 
Mat polinomios 002
Mat polinomios  002Mat polinomios  002
Mat polinomios 002
 
Apostila 1 calculo i
Apostila 1 calculo iApostila 1 calculo i
Apostila 1 calculo i
 
Lista 3 - Bases Matemáticas - Indução
Lista 3  - Bases Matemáticas - InduçãoLista 3  - Bases Matemáticas - Indução
Lista 3 - Bases Matemáticas - Indução
 
Polinômios cn 2013 - exercícios
Polinômios  cn 2013 - exercíciosPolinômios  cn 2013 - exercícios
Polinômios cn 2013 - exercícios
 
OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2
 
OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2OperaçõEs Com PolinôMios2
OperaçõEs Com PolinôMios2
 
Polinomios
PolinomiosPolinomios
Polinomios
 
Polinomios
PolinomiosPolinomios
Polinomios
 
As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...
 
Sessao 2 Introdução à T.I e Entropias
Sessao 2 Introdução à T.I e EntropiasSessao 2 Introdução à T.I e Entropias
Sessao 2 Introdução à T.I e Entropias
 
Ex algebra (14)
Ex algebra  (14)Ex algebra  (14)
Ex algebra (14)
 
Polinomios aula
Polinomios aulaPolinomios aula
Polinomios aula
 
Mat logaritmos 005
Mat logaritmos  005Mat logaritmos  005
Mat logaritmos 005
 
Variaveis+aleatorias
Variaveis+aleatoriasVariaveis+aleatorias
Variaveis+aleatorias
 
Revisão de polinômios
Revisão de polinômiosRevisão de polinômios
Revisão de polinômios
 
Formulario estatistica descritiva univariada e bivariava 2013
Formulario estatistica descritiva univariada e bivariava  2013Formulario estatistica descritiva univariada e bivariava  2013
Formulario estatistica descritiva univariada e bivariava 2013
 
Aula 4 - Educação física
Aula 4 - Educação físicaAula 4 - Educação física
Aula 4 - Educação física
 

Último

Regulamento do Festival de Teatro Negro - FESTIAFRO 2024 - 10ª edição - CEI...
Regulamento do Festival de Teatro Negro -  FESTIAFRO 2024 - 10ª edição -  CEI...Regulamento do Festival de Teatro Negro -  FESTIAFRO 2024 - 10ª edição -  CEI...
Regulamento do Festival de Teatro Negro - FESTIAFRO 2024 - 10ª edição - CEI...
Eró Cunha
 
História concisa da literatura brasileira- Alfredo Bosi..pdf
História concisa da literatura brasileira- Alfredo Bosi..pdfHistória concisa da literatura brasileira- Alfredo Bosi..pdf
História concisa da literatura brasileira- Alfredo Bosi..pdf
GisellySobral
 

Último (20)

Poema - Aedes Aegypt.
Poema - Aedes Aegypt.Poema - Aedes Aegypt.
Poema - Aedes Aegypt.
 
Regulamento do Festival de Teatro Negro - FESTIAFRO 2024 - 10ª edição - CEI...
Regulamento do Festival de Teatro Negro -  FESTIAFRO 2024 - 10ª edição -  CEI...Regulamento do Festival de Teatro Negro -  FESTIAFRO 2024 - 10ª edição -  CEI...
Regulamento do Festival de Teatro Negro - FESTIAFRO 2024 - 10ª edição - CEI...
 
História concisa da literatura brasileira- Alfredo Bosi..pdf
História concisa da literatura brasileira- Alfredo Bosi..pdfHistória concisa da literatura brasileira- Alfredo Bosi..pdf
História concisa da literatura brasileira- Alfredo Bosi..pdf
 
Proposta de redação Soneto de texto do gênero poema para a,usos do 9 ano do e...
Proposta de redação Soneto de texto do gênero poema para a,usos do 9 ano do e...Proposta de redação Soneto de texto do gênero poema para a,usos do 9 ano do e...
Proposta de redação Soneto de texto do gênero poema para a,usos do 9 ano do e...
 
Nós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos AnimaisNós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
Nós Propomos! Canil/Gatil na Sertã - Amigos dos Animais
 
Modelos de Inteligencia Emocional segundo diversos autores
Modelos de Inteligencia Emocional segundo diversos autoresModelos de Inteligencia Emocional segundo diversos autores
Modelos de Inteligencia Emocional segundo diversos autores
 
Histogramas.pptx...............................
Histogramas.pptx...............................Histogramas.pptx...............................
Histogramas.pptx...............................
 
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
5. EJEMPLOS DE ESTRUCTURASQUINTO GRADO.pptx
 
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PE
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PEEdital do processo seletivo para contratação de agentes de saúde em Floresta, PE
Edital do processo seletivo para contratação de agentes de saúde em Floresta, PE
 
EB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptx
EB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptxEB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptx
EB1 Cumeada Co(n)Vida à Leitura - Livros à Solta_Serta.pptx
 
UFCD_8291_Preparação e confeção de peixes e mariscos_índice.pdf
UFCD_8291_Preparação e confeção de peixes e mariscos_índice.pdfUFCD_8291_Preparação e confeção de peixes e mariscos_índice.pdf
UFCD_8291_Preparação e confeção de peixes e mariscos_índice.pdf
 
Slides Lição 7, CPAD, O Perigo Da Murmuração, 2Tr24.pptx
Slides Lição 7, CPAD, O Perigo Da Murmuração, 2Tr24.pptxSlides Lição 7, CPAD, O Perigo Da Murmuração, 2Tr24.pptx
Slides Lição 7, CPAD, O Perigo Da Murmuração, 2Tr24.pptx
 
Tema de redação - A prática do catfish e seus perigos.pdf
Tema de redação - A prática do catfish e seus perigos.pdfTema de redação - A prática do catfish e seus perigos.pdf
Tema de redação - A prática do catfish e seus perigos.pdf
 
[2.3.3] 100%_CN7_CAP_[FichaAvaliacao3].docx
[2.3.3] 100%_CN7_CAP_[FichaAvaliacao3].docx[2.3.3] 100%_CN7_CAP_[FichaAvaliacao3].docx
[2.3.3] 100%_CN7_CAP_[FichaAvaliacao3].docx
 
QUESTÃO 4 Os estudos das competências pessoais é de extrema importância, pr...
QUESTÃO 4   Os estudos das competências pessoais é de extrema importância, pr...QUESTÃO 4   Os estudos das competências pessoais é de extrema importância, pr...
QUESTÃO 4 Os estudos das competências pessoais é de extrema importância, pr...
 
transcrição fonética para aulas de língua
transcrição fonética para aulas de línguatranscrição fonética para aulas de língua
transcrição fonética para aulas de língua
 
Apresentação sobre Robots e processos educativos
Apresentação sobre Robots e processos educativosApresentação sobre Robots e processos educativos
Apresentação sobre Robots e processos educativos
 
"Nós Propomos! Escola Secundária em Pedrógão Grande"
"Nós Propomos! Escola Secundária em Pedrógão Grande""Nós Propomos! Escola Secundária em Pedrógão Grande"
"Nós Propomos! Escola Secundária em Pedrógão Grande"
 
Religiosidade de Assaré - Prof. Francisco Leite
Religiosidade de Assaré - Prof. Francisco LeiteReligiosidade de Assaré - Prof. Francisco Leite
Religiosidade de Assaré - Prof. Francisco Leite
 
Periodo da escravidAo O Brasil tem seu corpo na América e sua alma na África
Periodo da escravidAo O Brasil tem seu corpo na América e sua alma na ÁfricaPeriodo da escravidAo O Brasil tem seu corpo na América e sua alma na África
Periodo da escravidAo O Brasil tem seu corpo na América e sua alma na África
 

Redes Neurais: Técnicas Bayesianas

  • 1. Técnicas Bayesianas Renato Vicente rvicente@if.usp.br 10/01, mpmmf, IME/FEA – USP
  • 2. Técnicas Bayesianas Teorema de Bayes Modelos Hierárquicos Inferência de Parâmetros Inferência de Hiperparâmetros Seleção de Modelos
  • 3. Teorema de Bayes Seja dado um conjunto de dados D e um conjunto de hipóteses sobre os dados H1 , H2 , ..., Hn. A teoria elementar de probabilidades nos fornece: P ( D, H k ) = P ( D H k ) P ( H k ) = P ( H k D ) P ( D ) Daí decorre que: P( D H k ) P( H k ) P( H k D) = P( D)
  • 4. Bayes em Palavras VEROSSIMILHANÇA × A PRIORI POSTERIOR = ˆ EVIDENCIA
  • 5. Bayesianos X Freqüencistas Freqüencistas: Probabilidades como “freqüência” de ocorrência de um evento ao repetir-se o experimento infinitas vezes. N 1 P( A) = lim N ∑χ j =1 A (x j ) N →∞ χ A ( x j ) = 1 se x j ∈ A, ou = 0 c.c. Bayesianos: Probabilidades como “grau de crença” na ocorrência de um evento. Jaynes, Probability: The Logic of Science http://omega.albany.edu:8008/JaynesBook.html
  • 6. Perceptron Contínuo ⎛ ⎞ 1 y = g ⎜ ∑ wj x j + μ ⎟ Função de 0.8 ⎝ j ⎠ transferência 0.6 1 g (a ) = 0.4 −a 1+ e 0.2 -4 -2 2 4
  • 7. Bayes, Perceptron e Classificação Dados em duas classes C1 e C2 são gerados a partir de duas Gaussianas centradas em m1 e m2. Assim: 1 ⎧ 1 ⎫ P (x C1 ) = exp ⎨ − ( x - m1 ) ⋅ Σ -1 (x - m1 ) ⎬ ( 2π ) ⎩ 2 ⎭ d /2 Det ( Σ)1/ 2 Utilizando o Teorema de Bayes: P ( x C1 ) P (C1 ) P (C1 x ) = P ( x C1 ) P (C1 ) + P ( x C2 ) P (C2 )
  • 8. Bayes, Perceptron e Classificação Assumindo a seguinte forma para o posterior P(C1|x): 1 P (C1 x) = −a = g (a) 1+ e ⎡ P ( x C1 ) P (C1 ) ⎤ a ≡ ln ⎢ ⎥ ⎣ P ( x C2 ) P (C2 ) ⎦ Retomando o Perceptron: ⎛ ⎞ y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x) ⎝ j ⎠
  • 9. Bayes, Perceptron e Classificação Retomando o Perceptron: ⎛ ⎞ y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x) ⎝ j ⎠ Com w = Σ -1 (m1 - m 2 ) 1 1 ⎛ P (C1 ) ⎞ μ = − m1 ⋅ Σ m 2 + m1 ⋅ Σ m 2 + log ⎜ -1 -1 ⎟ 2 2 ⎝ P(C2 ) ⎠
  • 10. Modelos Hierárquicos Dados D são produzidos por um processo estocástico com parâmetros w , P(D|w). Os parâmetros w são, por sua vez, produzidos por um processo estocástico com hiperparâmetros α , P(w| α). A hierarquia pode continuar indefinidamente ... ... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 , ..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).
  • 11. Inferência de Parâmetros Dado um conjunto de dados D e um modelo Hi , encontrar os parâmetros mais prováveis w* . P( D | w, H i ) P(w | H i ) P ( w | D, H i ) = P( D | H i ) Deve-se minimizar a função “erro” a seguir E (w ) = − ln P(w | D, H i ) = = − ln P ( D | w, H i ) − ln P(w | H i ) + cte max verossimilhança conhecimento a priori
  • 12. Ex: Perceptron Contínuo H i : y ( x, w ) = g ( w ⋅ x ) t = t0 + ε , ε ∼ N (0, σ ) D = {( xn , tn )}n =1 N N 1 P( D | w ) = ∏ P(tn | xn ,w ) P(w | H i ) = n =1 Ωi 1 ⎧ [ yn ( x, w ) − tn ]2 ⎫ P(tn | xn , w ) = exp ⎨− ⎬ 2πσ 2 ⎩ 2σ 2 ⎭ 1 N E ( w ) = ∑ [ yn ( x, w ) − t n ] 2 2 n =1
  • 13. Intervalos de Confiança ln P(w | D, H i ) ≈ ln P (w* | D, H i ) − (w − w*)∇E * 1 − (w − w*) ⋅ H *(w − w*) 2 ⎡ 1 ⎤ P (w | D, H i ) ≈ P (w* | D, H i ) exp ⎢ − (w − w*) ⋅ H *(w − w*) ⎥ ⎣ 2 ⎦ 0.8 0.6 0.4 0.2 0 2 1 2 0 1 0 -1 -1 -2 -2
  • 14. Inferência de Hiperparâmetros D = {xm , tm } H = {g } K j j =1 K y ( x) = ∑ w j g j ( x) j =1 Ruido : tm = y ( xm ) + ε ε ∼ N (0, σ )
  • 15. Hiperparâmetro da Verossimilhança 1 P( D | w, β , H , Ruido) = exp [ − β ED ( D | w, H ) ] ZD (β ) N ⎛ 1 ⎞ ⎡ 1 N 2⎤ P(D| w, β, H, Ruido) =⎜ 2 ⎟ exp⎢− 2 ∑ y(xm)−tm) ⎥ ( 2 ⎝ 2πσ ⎠ ⎣ 2σ m=1 ⎦ 1 β= σ 2
  • 16. Hiperparâmetro da Distribuição a Priori P( y | α , R) = 1 Z y (α ) { exp −α ∫ dx [ y′′( x) ] 2 } K H : y′′( x) = ∑ w j g ′′( x) j j =1 1 P(w | α , H , R) = exp [ −α EW (w | H , R) ] ZW (α ) K EW (w | H , R) = ∑ w w ∫ dx g ′′( x) g ′′( x) j ,i =1 j i j i ZW (α ) = ∫ d w exp [ −α EW (w | H , R) ]
  • 17. Estimação de hiperparâmetros verossimilhança Pr ior flat P( D | α , β , H ) P(α , β | H ) P(α , β | D, H ) = P( D | H ) Evidencia Z E (α , β ) P( D | α , β , H ) = Z D ( β ) ZW (α ) (α *, β *) = arg max P(α , β | D, H )
  • 18. Seleção de Modelos Maximiza-se a evidência P( H i | D) ∝ P( D | H i ) P( H i ) Não há necessidade de normalização já que sempre podemos introduzir um novo modelo para comparação com os demais.
  • 19. Navalha de Occam Entre modelos de mesma capacidade explicativa o mais simples deve ser preferido. P ( D | H1 ) P( D | H 2 ) D Ω P( D) prior
  • 20. Avaliando a Evidência P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i ) P( D | H i ) P( D | w*, H i ) P (w* | H i )Δw Evidencia max verossimilhança Fator de Occam Δw j F .O. = Δw 2 Δw 0 Δw1 D Δw 0
  • 21. Aproximação para a Evidência P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i ) ⎡ 1 ⎤ P( D | H i ) P( D | w*, H i ) P(w* | H i ) ∫ dw exp ⎢ − (w − w*) ⋅ H (w − w*) ⎥ ⎣ 2 ⎦ = P( D | w*, H i ) P(w* | H i ) (2π ) K / 2 Det ( H ) Fator de Occam
  • 22. Bibliografia David MacKay, Information Theory, Inference, and Learning Algorithms (http://wol.ra.phy.cam.ac.uk/mackay/) David MacKay, Bayesian Methods for Adaptive Models (http://wol.ra.phy.cam.ac.uk/mackay/) Differential Geometry in Statistical Inference (Ims Lecture Notes-Monograph Ser.: Vol. 10) by S. Amari