O documento discute técnicas bayesianas, incluindo o teorema de Bayes, modelos hierárquicos, inferência de parâmetros e hiperparâmetros, e seleção de modelos. É apresentado o uso do teorema de Bayes para classificação de dados através de um perceptron contínuo. Métodos bayesianos são comparados a métodos frequentistas e discutidas aproximações para inferência bayesiana.
Teoria da Informação e Introdução ao conceito de Entropia.
Créditos reservados ao Centro de Cálculo e investigação do Instituto Superior de Engenharia de Lisboa.
LIVRO MPARADIDATICO SOBRE BULLYING PARA TRABALHAR COM ALUNOS EM SALA DE AULA OU LEITURA EXTRA CLASSE, COM FOCO NUM PROBLEMA CRUCIAL E QUE ESTÁ TÃO PRESENTE NAS ESCOLAS BRASILEIRAS. OS ALUNOS PODEM LER EM SALA DE AULA. MATERIAL EXCELENTE PARA SER ADOTADO NAS ESCOLAS
Projeto de articulação curricular:
"aLeR+ o Ambiente - Os animais são nossos amigos" - Seleção de poemas da obra «Bicho em perigo», de Maria Teresa Maia Gonzalez
proposta curricular para educação de jovens e adultos- Língua portuguesa- anos finais do ensino fundamental (6º ao 9º ano). Planejamento de unidades letivas para professores da EJA da disciplina língua portuguesa- pode ser trabalhado nos dois segmentos - proposta para trabalhar com alunos da EJA com a disciplina língua portuguesa.Sugestão de proposta curricular da disciplina português para turmas de educação de jovens e adultos - ensino fundamental. A proposta curricular da EJa lingua portuguesa traz sugestões para professores dos anos finais (6º ao 9º ano), sabendo que essa modalidade deve ser trabalhada com metodologias diversificadas para que o aluno não desista de estudar.
Sistema de Bibliotecas UCS - Chronica do emperador Clarimundo, donde os reis ...Biblioteca UCS
A biblioteca abriga, em seu acervo de coleções especiais o terceiro volume da obra editada em Lisboa, em 1843. Sua exibe
detalhes dourados e vermelhos. A obra narra um romance de cavalaria, relatando a
vida e façanhas do cavaleiro Clarimundo,
que se torna Rei da Hungria e Imperador
de Constantinopla.
Slides Lição 9, Betel, Ordenança para uma vida de santificação, 2Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 10, Betel, Ordenança para buscar a paz e fazer o bem, 2Tr24, Pr Henrique, EBD NA TV, 2° TRIMESTRE DE 2024, ADULTOS, EDITORA BETEL, TEMA, ORDENANÇAS BÍBLICAS, Doutrina Fundamentais Imperativas aos Cristãos para uma vida bem-sucedida e de Comunhão com DEUS, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Comentários, Bispo Abner Ferreira, Com. Extra Pr. Luiz Henrique, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique
2. Técnicas Bayesianas
Teorema de Bayes
Modelos Hierárquicos
Inferência de Parâmetros
Inferência de Hiperparâmetros
Seleção de Modelos
3. Teorema de Bayes
Seja dado um conjunto de dados D e um conjunto de
hipóteses sobre os dados H1 , H2 , ..., Hn.
A teoria elementar de probabilidades nos fornece:
P ( D, H k ) = P ( D H k ) P ( H k ) = P ( H k D ) P ( D )
Daí decorre que:
P( D H k ) P( H k )
P( H k D) =
P( D)
5. Bayesianos X Freqüencistas
Freqüencistas: Probabilidades como “freqüência” de ocorrência de
um evento ao repetir-se o experimento infinitas vezes.
N
1
P( A) = lim
N
∑χ
j =1
A (x j )
N →∞
χ A ( x j ) = 1 se x j ∈ A, ou = 0 c.c.
Bayesianos: Probabilidades como “grau de crença” na ocorrência de
um evento.
Jaynes, Probability: The Logic of Science
http://omega.albany.edu:8008/JaynesBook.html
6. Perceptron Contínuo
⎛ ⎞ 1
y = g ⎜ ∑ wj x j + μ ⎟ Função de 0.8
⎝ j ⎠ transferência 0.6
1
g (a ) =
0.4
−a
1+ e 0.2
-4 -2 2 4
7. Bayes, Perceptron e Classificação
Dados em duas classes C1 e C2 são gerados
a partir de duas Gaussianas centradas em m1 e m2. Assim:
1 ⎧ 1 ⎫
P (x C1 ) = exp ⎨ − ( x - m1 ) ⋅ Σ -1 (x - m1 ) ⎬
( 2π ) ⎩ 2 ⎭
d /2
Det ( Σ)1/ 2
Utilizando o Teorema de Bayes:
P ( x C1 ) P (C1 )
P (C1 x ) =
P ( x C1 ) P (C1 ) + P ( x C2 ) P (C2 )
8. Bayes, Perceptron e Classificação
Assumindo a seguinte forma para o posterior P(C1|x):
1
P (C1 x) = −a
= g (a)
1+ e
⎡ P ( x C1 ) P (C1 ) ⎤
a ≡ ln ⎢ ⎥
⎣ P ( x C2 ) P (C2 ) ⎦
Retomando o Perceptron:
⎛ ⎞
y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x)
⎝ j ⎠
9. Bayes, Perceptron e Classificação
Retomando o Perceptron:
⎛ ⎞
y = g ⎜ ∑ w j x j + μ ⎟ = P (C1 | x)
⎝ j ⎠
Com
w = Σ -1 (m1 - m 2 )
1 1 ⎛ P (C1 ) ⎞
μ = − m1 ⋅ Σ m 2 + m1 ⋅ Σ m 2 + log ⎜
-1 -1
⎟
2 2 ⎝ P(C2 ) ⎠
10. Modelos Hierárquicos
Dados D são produzidos por um processo estocástico com
parâmetros w , P(D|w).
Os parâmetros w são, por sua vez, produzidos por um processo
estocástico com hiperparâmetros α , P(w| α).
A hierarquia pode continuar indefinidamente ...
... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 ,
..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).
11. Inferência de Parâmetros
Dado um conjunto de dados D e um modelo Hi , encontrar os
parâmetros mais prováveis w* .
P( D | w, H i ) P(w | H i )
P ( w | D, H i ) =
P( D | H i )
Deve-se minimizar a função “erro” a seguir
E (w ) = − ln P(w | D, H i ) =
= − ln P ( D | w, H i ) − ln P(w | H i ) + cte
max verossimilhança conhecimento a priori
12. Ex: Perceptron Contínuo
H i : y ( x, w ) = g ( w ⋅ x ) t = t0 + ε , ε ∼ N (0, σ )
D = {( xn , tn )}n =1
N
N
1
P( D | w ) = ∏ P(tn | xn ,w ) P(w | H i ) =
n =1 Ωi
1 ⎧ [ yn ( x, w ) − tn ]2 ⎫
P(tn | xn , w ) = exp ⎨− ⎬
2πσ 2
⎩ 2σ 2
⎭
1 N
E ( w ) = ∑ [ yn ( x, w ) − t n ]
2
2 n =1
13. Intervalos de Confiança
ln P(w | D, H i ) ≈ ln P (w* | D, H i ) − (w − w*)∇E *
1
− (w − w*) ⋅ H *(w − w*)
2
⎡ 1 ⎤
P (w | D, H i ) ≈ P (w* | D, H i ) exp ⎢ − (w − w*) ⋅ H *(w − w*) ⎥
⎣ 2 ⎦
0.8
0.6
0.4
0.2
0
2
1 2
0 1
0
-1 -1
-2 -2
14. Inferência de Hiperparâmetros
D = {xm , tm } H = {g } K
j j =1
K
y ( x) = ∑ w j g j ( x)
j =1
Ruido : tm = y ( xm ) + ε ε ∼ N (0, σ )
15. Hiperparâmetro da Verossimilhança
1
P( D | w, β , H , Ruido) = exp [ − β ED ( D | w, H ) ]
ZD (β )
N
⎛ 1 ⎞ ⎡ 1 N 2⎤
P(D| w, β, H, Ruido) =⎜ 2 ⎟ exp⎢− 2 ∑ y(xm)−tm) ⎥
(
2
⎝ 2πσ ⎠ ⎣ 2σ m=1 ⎦
1
β=
σ 2
16. Hiperparâmetro da Distribuição a Priori
P( y | α , R) =
1
Z y (α )
{
exp −α ∫ dx [ y′′( x) ]
2
}
K
H : y′′( x) = ∑ w j g ′′( x)
j
j =1
1
P(w | α , H , R) = exp [ −α EW (w | H , R) ]
ZW (α )
K
EW (w | H , R) = ∑ w w ∫ dx g ′′( x) g ′′( x)
j ,i =1
j i j i
ZW (α ) = ∫ d w exp [ −α EW (w | H , R) ]
17. Estimação de hiperparâmetros
verossimilhança Pr ior flat
P( D | α , β , H ) P(α , β | H )
P(α , β | D, H ) =
P( D | H )
Evidencia
Z E (α , β )
P( D | α , β , H ) =
Z D ( β ) ZW (α )
(α *, β *) = arg max P(α , β | D, H )
18. Seleção de Modelos
Maximiza-se a evidência
P( H i | D) ∝ P( D | H i ) P( H i )
Não há necessidade de normalização já que sempre
podemos introduzir um novo modelo para comparação
com os demais.
19. Navalha de Occam
Entre modelos de mesma capacidade explicativa o mais
simples deve ser preferido.
P ( D | H1 )
P( D | H 2 )
D
Ω
P( D) prior
20. Avaliando a Evidência
P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i )
P( D | H i ) P( D | w*, H i ) P (w* | H i )Δw
Evidencia max verossimilhança Fator de Occam
Δw j
F .O. =
Δw 2 Δw 0
Δw1
D
Δw 0
21. Aproximação para a Evidência
P ( D | H i ) = ∫ dw P ( D | w , H i ) P ( w | H i )
⎡ 1 ⎤
P( D | H i ) P( D | w*, H i ) P(w* | H i ) ∫ dw exp ⎢ − (w − w*) ⋅ H (w − w*) ⎥
⎣ 2 ⎦
= P( D | w*, H i ) P(w* | H i ) (2π ) K / 2 Det ( H )
Fator de Occam
22. Bibliografia
David MacKay, Information Theory, Inference, and Learning
Algorithms (http://wol.ra.phy.cam.ac.uk/mackay/)
David MacKay, Bayesian Methods for Adaptive Models
(http://wol.ra.phy.cam.ac.uk/mackay/)
Differential Geometry in Statistical Inference
(Ims Lecture Notes-Monograph Ser.: Vol. 10)
by S. Amari