INFERˆENCIA BAYESIANARICARDO S. EHLERSPrimeira publica¸c ao em 2002Segunda edi¸c˜ao publicada em 2004Terceira edi¸c˜ao pub...
Sum´ario1 Introdu¸c˜ao 11.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Princ´ıpio da Vero...
ii SUM ´ARIO4 M´etodos Aproximados 484.1 Computa¸c˜ao Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 484.2 Uma ...
SUM ´ARIO iiiB Alguns Endere¸cos Interessantes 99References 101
Cap´ıtulo 1Introdu¸c˜aoA informa¸c˜ao que se tem sobre uma quantidade de interesse θ ´e fundamental naEstat´ıstica. O verd...
2 CAP´ITULO 1. INTRODU¸C ˜AOlhan¸ca, s˜ao combinadas levando `a distribui¸c˜ao a posteriori de θ, p(θ|x). Assim,a forma us...
1.1. TEOREMA DE BAYES 3X e Y dado θ est´a presente e a distribui¸c˜ao preditiva ficap(y|x) = p(y|θ)p(θ|x)dθ.Note no entanto...
4 CAP´ITULO 1. INTRODU¸C ˜AOde interesse desconhecida ´e o indicador de doen¸caθ =1, se o paciente tem a doen¸ca0, se o pa...
1.1. TEOREMA DE BAYES 5e note que p(θ|x) ´e a priori em rela¸c˜ao a Y . Assim,P(Y = 1 | X = 1) = P(Y = 1 | θ = 0)P(θ = 0 |...
6 CAP´ITULO 1. INTRODU¸C ˜AOExemplo 1.2 : Seja Y ∼ Binomial(12, θ) e em um experimento observou-seY = 9. A fun¸c˜ao de ver...
1.1. TEOREMA DE BAYES 70.0 0.2 0.4 0.6 0.8 1.00.00.51.01.52.02.53.0θp(θ)N(0.5,0.5)N(0,0.5)N(1,0.5)N(2,0.5)Figura 1.1: Dens...
8 CAP´ITULO 1. INTRODU¸C ˜AO0.0 0.2 0.4 0.6 0.8 1.001234θp(θ)N(−1,0.25)N(1,1)N(0,4)Figura 1.2: Densidades a priori tipo lo...
1.1. TEOREMA DE BAYES 90.0 0.2 0.4 0.6 0.8 1.0012345θp(θ)Beta(1.5,4)Beta(2,0.5)Beta(7,1.5)Beta(3,3)Figura 1.3: Densidades ...
10 CAP´ITULO 1. INTRODU¸C ˜AOnormal. Al´em disso,E(X) = E(θ) + E(ǫ) = µ0V ar(X) = V ar(θ) + V ar(ǫ) = τ20 + σ2Conclus˜ao, ...
1.2. PRINC´IPIO DA VEROSSIMILHAN¸CA 11> norm.norm <- function(x, mu0, tau0, s0) {+ precisao = 1/tau0 + length(x)/s0+ tau1 ...
12 CAP´ITULO 1. INTRODU¸C ˜AO(iv) Itens ser˜ao selecionados ao acaso at´e que o inspetor decida que j´a acumulouinforma¸c˜...
1.3. EXERC´ICIOS 13(b) Qual a probabilidade dele estar inadimplente ?(c) Sabendo que ele est´a inadimplente, qual a sua cl...
Cap´ıtulo 2Distribui¸c˜oes a PrioriA utiliza¸c˜ao de informa¸c˜ao a priori em inferˆencia Bayesiana requer a especifica¸c˜a...
2.2. CONJUGA¸C ˜AO NA FAM´ILIA EXPONENCIAL 15conjugada nem sempre ´e uma representa¸c˜ao adequada da incerteza a priori. S...
16 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIfixa. Veremos adiante que a classe conjugada de distribui¸c˜oes ´e muito f´acil de...
2.2. CONJUGA¸C ˜AO NA FAM´ILIA EXPONENCIAL 17r + x e s + n − x, i.e.p(θ|x) ∝ exp (r + x − 1)φ(θ) +s + r − 2 + nnb(θ)∝ θr+x...
18 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORINo Exemplo 2.2 suponha novamente que n = 12, X = 9 e usamos as priorisconjugadas ...
2.3. PRINCIPAIS FAM´ILIAS CONJUGADAS 19com α0 = α e β0 = β. Ap´os n observa¸c˜oes temos queαn = α +ni=1u(xi)βn = β + ne a ...
20 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIo Teorema 1.1 com as devidas substitui¸c˜oes, i.e. a distribui¸c˜ao a posteriori ...
2.3. PRINCIPAIS FAM´ILIAS CONJUGADAS 21A densidade a posteriori ficap(θ|x) ∝ θα+t−1exp {−(β + n)θ}que corresponde `a densid...
22 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORINote que esta ´e uma generaliza¸c˜ao da distribui¸c˜ao binomial que tem apenas du...
2.3. PRINCIPAIS FAM´ILIAS CONJUGADAS 23distribui¸c˜ao a posteriori de φ,p(φ|x) ∝ φn/2exp −φ2ns20 φn0/2−1exp −φ2n0σ20= φ(n0...
24 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIθ por integra¸c˜aop(θ) = p(θ|φ)p(φ)dφ∝∞0φ(n0+1)/2−1exp −φ2[n0σ20 + c0(θ − µ0)2] d...
2.4. PRIORI N ˜AO INFORMATIVA 25posteriori marginal de θ ficaθ | x ∼ tn1 (µ1, σ21/c1).Em muitas situa¸c˜oes ´e mais f´acil ...
26 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORI(ii) Se φ = g(θ) ´e uma reparametriza¸c˜ao n˜ao linear mon´otona de θ ent˜ao p(φ)...
2.4. PRIORI N ˜AO INFORMATIVA 27Se θ for um vetor param´etrico ent˜ao p(θ) ∝ | det I(θ)|1/2.Exemplo 2.3 : Seja X1, . . . ,...
28 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIDefini¸c˜ao 2.7 X tem um modelo de loca¸c˜ao e escala se existem uma fun¸c˜ao fe a...
2.5. PRIORIS HIER ´ARQUICAS 29A distribui¸c˜ao a posteriori conjunta ficap(θ, φ|x) ∝ p(x|θ, φ)p(θ|φ)p(φ) ∝ p(x|θ)p(θ|φ)p(φ)...
30 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIe a distribui¸c˜ao a posteriori de φi ´e obtida comop(φi) =m(x|φi)p(φ)p(x).Portan...
2.6. PROBLEMAS 310.0 0.2 0.4 0.6 0.8 1.001234θ.33B(4,10)+.33B(15,28)+.33B(50,70).25 B(3,8)+.75 B(8,3)Figura 2.2: Misturas ...
32 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORI(b) Em uma amostra de tamanho n = 10 foi observado X = 1 eni=1(Xi − X)2= 8. Obten...
2.6. PROBLEMAS 3310. Para uma vari´avel aleat´oria θ > 0 a fam´ılia de distribui¸c˜oes Gama-invertidatem fun¸c˜ao de densi...
34 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORI17. Se X ∼ Binomial Negativa(v, θ) obtenha a priori de Jeffreys para θ.18. Se X ∼ ...
Cap´ıtulo 3Estima¸c˜aoA distribui¸c˜ao a posteriori de um parˆametro θ cont´em toda a informa¸c˜ao prob-abil´ıstica a resp...
36 CAP´ITULO 3. ESTIMA¸C ˜AOExemplo 3.1 : Um laborat´orio farmaceutico deve decidir pelo lan¸camento oun˜ao de uma nova dr...
3.2. ESTIMADORES DE BAYES 37valor da perda. Neste caso, a perda esperada a posteriori ´e dada porE[L(a, θ)|x] = L(a, θ)p(θ...
38 CAP´ITULO 3. ESTIMA¸C ˜AONote que isto equivale a obter a solu¸c˜ao de∂p(x|θ)p(θ)∂θ= 0e n˜ao ´e necess´ario conhecer a ...
3.4. ESTIMA¸C ˜AO NO MODELO NORMAL 39intervalo de credibilidade (ou intervalo de confian¸ca Bayesiano) baseado no dis-tribu...
40 CAP´ITULO 3. ESTIMA¸C ˜AOamostras e em modelos de regress˜ao linear. A an´alise ser´a feita com priori con-jugada e pri...
3.4. ESTIMA¸C ˜AO NO MODELO NORMAL 413.4.2 M´edia e Variˆancia desconhecidasNeste caso, usando a priori conjugada Normal-G...
42 CAP´ITULO 3. ESTIMA¸C ˜AOn0 = −1. Neste caso a distribui¸c˜ao a posteriori marginal de θ ficaθ|x ∼ tn−1(x, s2/n)sendo s2...
3.4. ESTIMA¸C ˜AO NO MODELO NORMAL 43posteriori j´a quep(θ1, θ2|x1, x2) =p(x1|θ1)p(θ1)p(x1)×p(x2|θ2)p(θ2)p(x2).Se usarmos ...
44 CAP´ITULO 3. ESTIMA¸C ˜AO(θ1, θ2, φ) ´ep(θ1, θ2, φ) = p(θ1|φ)p(θ2|φ)p(φ)∝ φn0/2exp −φ2n0σ20 + c1(θ1 − µ1)2+ c2(θ2 − µ2)...
3.4. ESTIMA¸C ˜AO NO MODELO NORMAL 45onde n∗0 = n0 + n1 + n2 e n∗0σ∗20 = n0σ20 + νs2+ 2i=1 cini(µi − xi)2/c∗i . Ainda pora...
46 CAP´ITULO 3. ESTIMA¸C ˜AOe vamos adotar prioris conjugadas normal-gama independentes com parˆametros(µi, ci, νi, σ20i) ...
3.5. EXERC´ICIOS 473.5 Exerc´ıcios1. Gere 2 amostras de tamanho 50 da distribui¸c˜ao N(0, 1). Agora construa umintervalo M...
Cap´ıtulo 4M´etodos Aproximados4.1 Computa¸c˜ao BayesianaExistem v´arias formas de resumir a informa¸c˜ao descrita na dist...
4.3. O PROBLEMA GERAL DA INFERˆENCIA BAYESIANA 49Al´em disso, sempre que poss´ıvel deve-se utilizar solu¸c˜oes exatas, i.e...
50 CAP´ITULO 4. M´ETODOS APROXIMADOS4.4 M´etodo de Monte Carlo SimplesA id´eia do m´etodo ´e justamente escrever a integra...
4.4. M´ETODO DE MONTE CARLO SIMPLES 51integral ´e 2 100i=1 yi/100. Por outro lado, sabemos que exp(−x) ´e a fun¸c˜ao deden...
52 CAP´ITULO 4. M´ETODOS APROXIMADOS0.20 0.25 0.30 0.35 0.4002468Figura 4.1: Histograma de 50 estimativas de Monte Carlo d...
4.4. M´ETODO DE MONTE CARLO SIMPLES 5320 50 100 200 5000.200.250.300.350.40Figura 4.2: Boxplots para 50 estimativas da int...
54 CAP´ITULO 4. M´ETODOS APROXIMADOS> Sigma = matrix(c(1, 0.5, 0.5, 1), 2, 2)> m = c(0, 0)> require(MASS)> y = mvrnorm(n =...
4.4. M´ETODO DE MONTE CARLO SIMPLES 55−4 −2 0 2 40.00.10.20.30.4xp(x)−4 −2 0 2 40.00.10.20.30.4yp(y)−4 −2 0 20.00.10.20.30...
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Apostila inferência bayesiana   ricardo ehlers
Próximos SlideShares
Carregando em…5
×

Apostila inferência bayesiana ricardo ehlers

705 visualizações

Publicada em

0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
705
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
25
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Apostila inferência bayesiana ricardo ehlers

  1. 1. INFERˆENCIA BAYESIANARICARDO S. EHLERSPrimeira publica¸c ao em 2002Segunda edi¸c˜ao publicada em 2004Terceira edi¸c˜ao publicada em 2005Quarta edi¸c˜ao publicada em 2006Quinta edi¸c˜ao publicada em 2007RICARDO SANDES EHLERS 2003-2011
  2. 2. Sum´ario1 Introdu¸c˜ao 11.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Princ´ıpio da Verossimilhan¸ca . . . . . . . . . . . . . . . . . . . . . 111.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 Distribui¸c˜oes a Priori 142.1 Prioris Conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2 Conjuga¸c˜ao na Fam´ılia Exponencial . . . . . . . . . . . . . . . . . 152.3 Principais Fam´ılias Conjugadas . . . . . . . . . . . . . . . . . . . 192.3.1 Distribui¸c˜ao normal com variˆancia conhecida . . . . . . . . 192.3.2 Distribui¸c˜ao de Poisson . . . . . . . . . . . . . . . . . . . . 202.3.3 Distribui¸c˜ao multinomial . . . . . . . . . . . . . . . . . . . 212.3.4 Distribui¸c˜ao normal com m´edia conhecida e variˆancia de-sconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3.5 Distribui¸c˜ao normal com m´edia e variˆancia desconhecidos . 232.4 Priori n˜ao Informativa . . . . . . . . . . . . . . . . . . . . . . . . 252.5 Prioris Hier´arquicas . . . . . . . . . . . . . . . . . . . . . . . . . . 282.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 Estima¸c˜ao 353.1 Introdu¸c˜ao `a Teoria da Decis˜ao . . . . . . . . . . . . . . . . . . . 353.2 Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 363.3 Estima¸c˜ao por Intervalos . . . . . . . . . . . . . . . . . . . . . . . 383.4 Estima¸c˜ao no Modelo Normal . . . . . . . . . . . . . . . . . . . . 393.4.1 Variˆancia Conhecida . . . . . . . . . . . . . . . . . . . . . 403.4.2 M´edia e Variˆancia desconhecidas . . . . . . . . . . . . . . 413.4.3 O Caso de duas Amostras . . . . . . . . . . . . . . . . . . 423.4.4 Variˆancias desiguais . . . . . . . . . . . . . . . . . . . . . . 453.5 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47i
  3. 3. ii SUM ´ARIO4 M´etodos Aproximados 484.1 Computa¸c˜ao Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 484.2 Uma Palavra de Cautela . . . . . . . . . . . . . . . . . . . . . . . 484.3 O Problema Geral da Inferˆencia Bayesiana . . . . . . . . . . . . . 494.4 M´etodo de Monte Carlo Simples . . . . . . . . . . . . . . . . . . . 504.4.1 Monte Carlo via Fun¸c˜ao de Importˆancia . . . . . . . . . . 544.5 M´etodos de Reamostragem . . . . . . . . . . . . . . . . . . . . . . 574.5.1 M´etodo de Rejei¸c˜ao . . . . . . . . . . . . . . . . . . . . . . 574.5.2 Reamostragem Ponderada . . . . . . . . . . . . . . . . . . 604.6 Monte Carlo via cadeias de Markov . . . . . . . . . . . . . . . . . 634.6.1 Cadeias de Markov . . . . . . . . . . . . . . . . . . . . . . 634.6.2 Acur´acia Num´erica . . . . . . . . . . . . . . . . . . . . . . 644.6.3 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . 654.6.4 Casos Especiais . . . . . . . . . . . . . . . . . . . . . . . . 714.6.5 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . 724.7 Problemas de Dimens˜ao Vari´avel . . . . . . . . . . . . . . . . . . 784.7.1 MCMC com Saltos Reversiveis (RJMCMC) . . . . . . . . 814.8 T´opicos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . 864.8.1 Autocorrela¸c˜ao Amostral . . . . . . . . . . . . . . . . . . . 864.8.2 Monitorando a Convergˆencia . . . . . . . . . . . . . . . . . 865 Modelos Lineares 885.1 An´alise de Variˆancia com 1 Fator de Classifica¸c˜ao . . . . . . . . . 91A Lista de Distribui¸c˜oes 93A.1 Distribui¸c˜ao Normal . . . . . . . . . . . . . . . . . . . . . . . . . 93A.2 Distribui¸c˜ao Log-Normal . . . . . . . . . . . . . . . . . . . . . . . 94A.3 A Fun¸c˜ao Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94A.4 Distribui¸c˜ao Gama . . . . . . . . . . . . . . . . . . . . . . . . . . 94A.5 Distribui¸c˜ao Wishart . . . . . . . . . . . . . . . . . . . . . . . . . 95A.6 Distribui¸c˜ao Gama Inversa . . . . . . . . . . . . . . . . . . . . . . 95A.7 Distribui¸c˜ao Wishart Invertida . . . . . . . . . . . . . . . . . . . . 95A.8 Distribui¸c˜ao Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . 96A.9 Distribui¸c˜ao de Dirichlet . . . . . . . . . . . . . . . . . . . . . . . 96A.10 Distribui¸c˜ao t de Student . . . . . . . . . . . . . . . . . . . . . . . 96A.11 Distribui¸c˜ao F de Fisher . . . . . . . . . . . . . . . . . . . . . . . 97A.12 Distribui¸c˜ao de Pareto . . . . . . . . . . . . . . . . . . . . . . . . 97A.13 Distribui¸c˜ao Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 97A.14 Distribui¸c˜ao Multinomial . . . . . . . . . . . . . . . . . . . . . . . 97A.15 Distribui¸c˜ao de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 98A.16 Distribui¸c˜ao Binomial Negativa . . . . . . . . . . . . . . . . . . . 98
  4. 4. SUM ´ARIO iiiB Alguns Endere¸cos Interessantes 99References 101
  5. 5. Cap´ıtulo 1Introdu¸c˜aoA informa¸c˜ao que se tem sobre uma quantidade de interesse θ ´e fundamental naEstat´ıstica. O verdadeiro valor de θ ´e desconhecido e a id´eia ´e tentar reduzireste desconhecimento. Al´em disso, a intensidade da incerteza a respeito de θpode assumir diferentes graus. Do ponto de vista Bayesiano, estes diferentesgraus de incerteza s˜ao representados atrav´es de modelos probabil´ısticos para θ.Neste contexto, ´e natural que diferentes pesquisadores possam ter diferentes grausde incerteza sobre θ (especificando modelos distintos). Sendo assim, n˜ao existenenhuma distin¸c˜ao entre quantidades observ´aveis e os parˆametros de um modeloestat´ıstico, todos s˜ao considerados quantidades aleat´orias.1.1 Teorema de BayesConsidere uma quantidade de interesse desconhecida θ (tipicamente n˜ao ob-serv´avel). A informa¸c˜ao de que dispomos sobre θ, resumida probabilisticamenteatrav´es de p(θ), pode ser aumentada observando-se uma quantidade aleat´oria Xrelacionada com θ. A distribui¸c˜ao amostral p(x|θ) define esta rela¸c˜ao. A id´eia deque ap´os observar X = x a quantidade de informa¸c˜ao sobre θ aumenta ´e bastanteintuitiva e o teorema de Bayes ´e a regra de atualiza¸c˜ao utilizada para quantificareste aumento de informa¸c˜ao,p(θ|x) =p(x, θ)p(x)=p(x|θ)p(θ)p(x)=p(x|θ)p(θ)p(θ, x)dθ. (1.1)Note que 1/p(x), que n˜ao depende de θ, funciona como uma constante norma-lizadora de p(θ|x).Para um valor fixo de x, a fun¸c˜ao l(θ; x) = p(x|θ) fornece a plausibilidade ouverossimilhan¸ca de cada um dos poss´ıveis valores de θ enquanto p(θ) ´e chamadadistribui¸c˜ao a priori de θ. Estas duas fontes de informa¸c˜ao, priori e verossimi-1
  6. 6. 2 CAP´ITULO 1. INTRODU¸C ˜AOlhan¸ca, s˜ao combinadas levando `a distribui¸c˜ao a posteriori de θ, p(θ|x). Assim,a forma usual do teorema de Bayes ´ep(θ|x) ∝ l(θ; x)p(θ), (1.2)(lˆe-se p(θ|x) ´e proporcional a l(θ; x)p(θ)). Em palavras temos quedistribui¸c˜ao a posteriori ∝ verossimilhan¸ca × distribui¸c˜ao a priori.Note que, ao omitir o termo p(x), a igualdade em (1.1) foi substituida poruma proporcionalidade. Esta forma simplificada do teorema de Bayes ser´a ´util emproblemas que envolvam estima¸c˜ao de parˆametros j´a que o denominador ´e apenasuma constante normalizadora. Em outras situa¸c˜oes, como sele¸c˜ao e compara¸c˜aode modelos, este termo tem um papel crucial.´E intuitivo tamb´em que a probabilidade a posteriori de um particular conjuntode valores de θ ser´a pequena se p(θ) ou l(θ; x) for pequena para este conjunto. Emparticular, se atribuirmos probabilidade a priori igual a zero para um conjuntode valores de θ ent˜ao a probabilidade a posteriori ser´a zero qualquer que seja aamostra observada.A partir da forma (1.2) a constante normalizadora da posteriori em (1.1) ´erecuperada comop(x) = p(x, θ)dθ = p(x|θ)p(θ)dθ = Eθ[p(X|θ)]que ´e chamada distribui¸c˜ao preditiva. Esta ´e a distribui¸c˜ao esperada para aobserva¸c˜ao x dado θ. Assim,Antes de observar X podemos checar a adequa¸c˜ao da priori fazendopredi¸c˜oes via p(x).Se X observado recebia pouca probabilidade preditiva ent˜ao o modelo deveser questionado.Em muitas aplica¸c˜oes (e.g. s´eries temporais e geoestatistica) o maior inter-esse ´e na previs˜ao do processo em pontos n˜ao observados do tempo ou espa¸co.Suponha ent˜ao que, ap´os observar X = x, estamos interessados na previs˜ao deuma quantidade Y , tamb´em relacionada com θ, e descrita probabilisticamentepor p(y|x, θ). A distribui¸c˜ao preditiva de Y dado x ´e obtida por integra¸c˜ao comop(y|x) = p(y, θ|x)dθ = p(y|θ, x)p(θ|x)dθ. (1.3)Em muitos problemas estatisticos a hip´otese de independˆencia condicional entre
  7. 7. 1.1. TEOREMA DE BAYES 3X e Y dado θ est´a presente e a distribui¸c˜ao preditiva ficap(y|x) = p(y|θ)p(θ|x)dθ.Note no entanto que esta n˜ao ´e uma hip´otese razo´avel para dados espacialmentedistribuidos aonde estamos admitindo que exista alguma estrutura de correla¸c˜aono espa¸co. De qualquer modo, em muitas aplica¸c˜oes pr´aticas a integral em (1.3)n˜ao tem solu¸c˜ao analitica e precisa´a ser obtida por algum m´etodo de aproxima¸c˜ao.Note tamb´em que as previs˜oes s˜ao sempre verific´aveis uma vez que Y ´e umaquantidade observ´avel. Finalmente, segue da ´ultima equa¸c˜ao quep(y|x) = Eθ|x[p(Y |θ)].Fica claro tamb´em que os conceitos de priori e posteriori s˜ao relativos `aquelaobserva¸c˜ao que est´a sendo considerada no momento. Assim, p(θ|x) ´e a posterioride θ em rela¸c˜ao a X (que j´a foi observado) mas ´e a priori de θ em rela¸c˜ao a Y (quen˜ao foi observado ainda). Ap´os observar Y = y uma nova posteriori (relativa aX = x e Y = y) ´e obtida aplicando-se novamente o teorema de Bayes. Mas ser´aque esta posteriori final depende da ordem em que as observa¸c˜oes x e y foramprocessadas? Observando-se as quantidades x1, x2, · · · , xn, independentes dadoθ e relacionadas a θ atrav´es de pi(xi|θ) segue quep(θ|x1) ∝ l1(θ; x1)p(θ)p(θ|x2, x1) ∝ l2(θ; x2)p(θ|x1)∝ l2(θ; x2)l1(θ; x1)p(θ)......p(θ|xn, xn−1, · · · , x1) ∝ni=1li(θ; xi) p(θ)∝ ln(θ; xn) p(θ|xn−1, · · · , x1).Ou seja, a ordem em que as observa¸c˜oes s˜ao processadas pelo teorema de Bayes´e irrelevante. Na verdade, elas podem at´e ser processadas em subgrupos.Exemplo 1.1 : (Gamerman e Migon, 1993) Um m´edico, ao examinar uma pes-soa, “desconfia” que ela possa ter uma certa doen¸ca. Baseado na sua experiˆencia,no seu conhecimento sobre esta doen¸ca e nas informa¸c˜oes dadas pelo paciente eleassume que a probabilidade do paciente ter a doen¸ca ´e 0,7. Aqui a quantidade
  8. 8. 4 CAP´ITULO 1. INTRODU¸C ˜AOde interesse desconhecida ´e o indicador de doen¸caθ =1, se o paciente tem a doen¸ca0, se o paciente n˜ao tem a doen¸ca.Para aumentar sua quantidade de informa¸c˜ao sobre a doen¸ca o m´edico aplica umteste X relacionado com θ atrav´es da distribui¸c˜aoP(X = 1 | θ = 0) = 0, 40 e P(X = 1 | θ = 1) = 0, 95e o resultado do teste foi positivo (X = 1).´E bem intuitivo que a probabilidade de doen¸ca deve ter aumentado ap´os esteresultado e a quest˜ao aqui ´e quantificar este aumento. Usando o teorema de Bayessegue queP(θ = 1 | X = 1) ∝ l(θ = 1; X = 1) p(θ = 1) = (0, 95)(0, 7) = 0, 665P(θ = 0 | X = 1) ∝ l(θ = 0; X = 1) p(θ = 0) = (0, 40)(0, 3) = 0, 120.Uma vez que as probabilidades a posteriori somam 1, i.e.P(θ = 0 | X = 1) + P(θ = 1 | X = 1) = 1,a constante normalizadora ´e obtida fazendo-se 0, 665k + 0, 120k = 1 e ent˜aok = 1/0, 785. Portanto, a distribui¸c˜ao a posteriori de θ ´eP(θ = 1 | X = 1) = 0, 665/0, 785 = 0, 847P(θ = 0 | X = 1) = 0, 120/0, 785 = 0, 153.O aumento na probabilidade de doen¸ca n˜ao foi muito grande porque a verossimil-han¸ca l(θ = 0; X = 1) tamb´em era grande (o modelo atribuia uma plausibilidadegrande para θ = 0 mesmo quando X = 1).Agora o m´edico aplica outro teste Y cujo resultado est´a relacionado a θ atrav´esda seguinte distribui¸c˜aoP(Y = 1 | θ = 0) = 0, 04 e P(Y = 1 | θ = 1) = 0, 99.Mas antes de observar o resultado deste teste ´e interessante obter sua distribui¸c˜aopreditiva. Como θ ´e uma quantidade discreta segue quep(y|x) =1θ=0p(y|θ)p(θ|x)
  9. 9. 1.1. TEOREMA DE BAYES 5e note que p(θ|x) ´e a priori em rela¸c˜ao a Y . Assim,P(Y = 1 | X = 1) = P(Y = 1 | θ = 0)P(θ = 0 | X = 1)+ P(Y = 1 | θ = 1)P(θ = 1 | X = 1)= (0, 04)(0, 153) + (0, 99)(0, 847) = 0, 845P(Y = 0 | X = 1) = 1 − P(Y = 1 | X = 1) = 0, 155.O resultado deste teste foi negativo (Y = 0). Neste caso, ´e tamb´em intuitivoque a probabilidade de doen¸ca deve ter diminuido e esta redu¸c˜ao ser´a quantificadapor uma nova aplica¸c˜ao do teorema de Bayes,P(θ = 1 | X = 1, Y = 0) ∝ l(θ = 1; Y = 0)P(θ = 1 | X = 1)∝ (0, 01)(0, 847) = 0, 0085P(θ = 0 | X = 1, Y = 0) ∝ l(θ = 0; Y = 0)P(θ = 0 | X = 1)∝ (0, 96)(0, 153) = 0, 1469.A constante normalizadora ´e 1/(0,0085+0,1469)=1/0,1554 e assim a distribui¸c˜aoa posteriori de θ ´eP(θ = 1 | X = 1, Y = 0) = 0, 0085/0, 1554 = 0, 055P(θ = 0 | X = 1, Y = 0) = 0, 1469/0, 1554 = 0, 945.Verifique como a probabilidade de doen¸ca se alterou ao longo do experimentoP(θ = 1) =0, 7, antes dos testes0, 847, ap´os o teste X0, 055, ap´os X e Y .Note tamb´em que o valor observado de Y recebia pouca probabilidade preditiva.Isto pode levar o m´edico a repensar o modelo, i.e.,(i) Ser´a que P(θ = 1) = 0, 7 ´e uma priori adequada?(ii) Ser´a que as distribui¸c˜oes amostrais de X e Y est˜ao corretas ? O teste X ´et˜ao inexpressivo e Y ´e realmente t˜ao poderoso?
  10. 10. 6 CAP´ITULO 1. INTRODU¸C ˜AOExemplo 1.2 : Seja Y ∼ Binomial(12, θ) e em um experimento observou-seY = 9. A fun¸c˜ao de verossimilhan¸ca de θ ´e dada porl(θ) =129θ 9(1 − θ)3, θ ∈ (0, 1).Que distribui¸c˜ao poderia ser usada para resumir probabilisticamente nossoconhecimento sobre o parˆametro θ? Note que, como 0 < θ < 1 queremos que,p(θ) = 0 ⇒ p(θ|y) = 0, ∀θ ∋ (0, 1).Podemos por exemplo assumir que θ ∼ N(µ, σ2) truncada no intervalo (0,1).Neste caso, denotando por fN (·|µ, σ2) a fun¸c˜ao de densidade da distribui¸c˜aoN(µ, σ2) segue que a fun¸c˜ao de densidade a priori de θ ´e dada porp(θ) =fN (θ|µ, σ2)10fN (θ|µ, σ2)dθ.Na Figura 1.1 esta fun¸c˜ao de densidade est´a representada para alguns valores deµ e σ2. Os comandos do R abaixo podem ser utilizados para gerar as curvas. Notecomo informa¸c˜oes a priori bastante diferentes podem ser representadas.> dnorm.t <- function(x, mean = 0, sd = 1) {+ aux = pnorm(1, mean, sd) - pnorm(0, mean, sd)+ dnorm(x, mean, sd)/aux+ }Outra possibilidade ´e atrav´es de uma reparametriza¸c˜ao. Assumindo-se queδ ∼ N(µ, σ2) e fazendo a transforma¸c˜aoθ =exp(δ)1 + exp(δ)segue que a transforma¸c˜ao inversa ´e simplesmenteδ = logθ1 − θ= logito(θ).Portanto a densidade a priori de θ ficap(θ) = fN (δ(θ)|µ, σ2)dδdθ= (2πσ2)−1/2exp −12σ2logθ1 − θ− µ21θ(1 − θ)
  11. 11. 1.1. TEOREMA DE BAYES 70.0 0.2 0.4 0.6 0.8 1.00.00.51.01.52.02.53.0θp(θ)N(0.5,0.5)N(0,0.5)N(1,0.5)N(2,0.5)Figura 1.1: Densidades a priori normais truncadas para o parametro θ no Exemplo1.2.e ´e chamada de normal-logistica. Na Figura 1.2 esta fun¸c˜ao de densidade est´arepresentada para alguns valores de µ e σ2. Os comandos do R abaixo foramutilizados. Novamente note como informa¸c˜oes a priori bastante diferentes podemser representadas. Em particular a fun¸c˜ao de densidade de θ ser´a sempre unimodalquando σ2≤ 2 e bimodal quando σ2> 2.> dlogist = function(x, mean, sd) {+ z = log(x/(1 - x))+ dnorm(z, mean, sd)/(x - x^2)+ }Finalmente, podemos atribuir uma distribui¸c˜ao a priori θ ∼ Beta(a, b) (verApˆendice A),p(θ) =Γ(a + b)Γ(a)Γ(b)θa−1(1 − θ)b−1, a > 0, b > 0, θ ∈ (0, 1).Esta distribui¸c˜ao ´e sim´etrica em torno de 0,5 quando a = b e assim´etrica quandoa = b. Variando os valores de a e b podemos definir uma rica familia de dis-tribui¸c˜oes a priori para θ, incluindo a distribui¸c˜ao Uniforme no intervalo (0,1) sea = b = 1. Algumas possibilidades est˜ao representadas na Figura 1.3.Um outro resultado importante ocorre quando se tem uma ´unica observa¸c˜aoda distribui¸c˜ao normal com m´edia desconhecida. Se a m´edia tiver priori normal
  12. 12. 8 CAP´ITULO 1. INTRODU¸C ˜AO0.0 0.2 0.4 0.6 0.8 1.001234θp(θ)N(−1,0.25)N(1,1)N(0,4)Figura 1.2: Densidades a priori tipo logisticas para o parˆametro θ no Exemplo 1.2.ent˜ao os parˆametros da posteriori s˜ao obtidos de uma forma bastante intuitivacomo visto no teorema a seguir.Teorema 1.1 Se X|θ ∼ N(θ, σ2) sendo σ2conhecido e θ ∼ N(µ0, τ20 ) ent˜aoθ|x ∼ N(µ1, τ21 ) sendoµ1 =τ−20 µ0 + σ−2xτ−20 + σ−2e τ−21 = τ−20 + σ−2.Prova. Temos quep(x|θ) ∝ exp{−σ−2(x − θ)2/2} e p(θ) ∝ exp{−τ−20 (θ − µ0)/2}e portantop(θ|x) ∝ exp −12[σ−2(θ2− 2xθ) + τ−20 (θ2− 2µ0θ)]∝ exp −12[θ2(σ−2+ τ−20 ) − 2θ(σ−2x + τ−20 µ0)] .sendo que os termos que n˜ao dependem de θ foram incorporados `a constante deproporcionalidade. Definindo τ−21 = σ−2+τ−20 e τ−21 µ1 = σ−2x−τ−20 µ0 segue quep(θ|x) ∝ exp −τ−212(θ2− 2θµ1) ∝ exp −τ−212(θ − µ1)2pois µ1 n˜ao depende de θ. Portanto, a fun¸c˜ao de densidade a posteriori (a menos
  13. 13. 1.1. TEOREMA DE BAYES 90.0 0.2 0.4 0.6 0.8 1.0012345θp(θ)Beta(1.5,4)Beta(2,0.5)Beta(7,1.5)Beta(3,3)Figura 1.3: Densidades a priori Beta para o parˆametro θ no Exemplo 1.2.de uma constante) tem a mesma forma de uma normal com m´edia µ1 e variˆanciaτ21 .Note que, definindo precis˜ao como o inverso da variˆancia, segue do teoremaque a precis˜ao a posteriori ´e a soma das precis˜oes a priori e da verossimilhan¸cae n˜ao depende de x. Interpretando precis˜ao como uma medida de informa¸c˜aoe definindo w = τ−20 /(τ−20 + σ−2) ∈ (0, 1) ent˜ao w mede a informa¸c˜ao relativacontida na priori com respeito `a informa¸c˜ao total. Podemos escrever ent˜ao queµ1 = wµ0 + (1 − w)xou seja, µ1 ´e uma combina¸c˜ao linear convexa de µ0 e x e portantomin{µ0, x} ≤ µ1 ≤ max{µ0, x}.A distribui¸c˜ao preditiva de X tamb´em ´e facilmente obtida notando que pode-mos reescrever as informa¸c˜oes na forma de equa¸c˜oes com erros n˜ao correlaciona-dos. Assim,X = θ + ǫ, ǫ ∼ N(0, σ2)θ = µ0 + w, w ∼ N(0, τ20 )tal que Cov(θ, ǫ) = Cov(µ0, w) = 0. Portanto a distribui¸c˜ao (incondicional) deX ´e normal pois ele resulta de uma soma de vari´aveis aleat´orias com distribui¸c˜ao
  14. 14. 10 CAP´ITULO 1. INTRODU¸C ˜AOnormal. Al´em disso,E(X) = E(θ) + E(ǫ) = µ0V ar(X) = V ar(θ) + V ar(ǫ) = τ20 + σ2Conclus˜ao, X ∼ N(µ0, τ20 + σ2).Exemplo 1.3 : (Box & Tiao, 1992) Os f´ısicos A e B desejam determinar umaconstante f´ısica θ. O f´ısico A tem mais experiˆencia nesta ´area e especifica suapriori como θ ∼ N(900, 202). O f´ısico B tem pouca experiˆencia e especifica umapriori muito mais incerta em rela¸c˜ao `a posi¸c˜ao de θ, θ ∼ N(800, 802). Assim, n˜ao´e dificil verificar quepara o fisico A: P(860 < θ < 940) ≈ 0, 95para o fisico B: P(640 < θ < 960) ≈ 0, 95.Faz-se ent˜ao uma medi¸c˜ao X de θ em laborat´orio com um aparelho calibradocom distribui¸c˜ao amostral X|θ ∼ N(θ, 402) e observou-se X = 850. Aplicando oteorema 1.1 segue que(θ|X = 850) ∼ N(890, 17, 92) para o f´ısico A(θ|X = 850) ∼ N(840, 35, 72) para o f´ısico B.Note tamb´em que os aumentos nas precis˜oes a posteriori em rela¸c˜ao `as precis˜oesa priori foram,para o f´ısico A: precis˜ao(θ) passou de τ−20 = 0, 0025 para τ−21 = 0, 00312(aumento de 25%).para o f´ısico B: precis˜ao(θ) passou de τ−20 = 0, 000156 para τ−21 = 0, 000781(aumento de 400%).A situa¸c˜ao est´a representada graficamente na Figura 1.4 a seguir. Note como adistribui¸c˜ao a posteriori representa um compromisso entre a distribui¸c˜ao a priorie a verossimilhan¸ca. Al´em disso, como as incertezas iniciais s˜ao bem diferenteso mesmo experimento fornece muito pouca informa¸c˜ao adicional para o fisico Aenquanto que a incerteza do fisico B foi bastante reduzida. Os comandos do Rabaixo podem ser usados nos c´alculos.
  15. 15. 1.2. PRINC´IPIO DA VEROSSIMILHAN¸CA 11> norm.norm <- function(x, mu0, tau0, s0) {+ precisao = 1/tau0 + length(x)/s0+ tau1 = 1/precisao+ w = (1/tau0)/precisao+ mu1 = w * mu0 + (1 - w) * mean(x)+ return(list(m = mu1, tau = tau1))+ }700 750 800 850 900 950 10000.0000.0050.0100.0150.020θprioriposterioriverossimilhanca Fisico AFisico BFigura 1.4: Densidades a priori e a posteriori e fun¸c˜ao de verossimilhan¸ca para oExemplo 1.3.1.2 Princ´ıpio da Verossimilhan¸caO exemplo a seguir (DeGroot, 1970, p´aginas 165 e 166) ilustra esta propriedade.Imagine que cada item de uma popula¸c˜ao de itens manufaturados pode ser clas-sificado como defeituoso ou n˜ao defeituoso. A propor¸c˜ao θ de itens defeituososna popula¸c˜ao ´e desconhecida e uma amostra de itens ser´a selecionada de acordocom um dos seguintes m´etodos:(i) n itens ser˜ao selecionados ao acaso.(ii) Itens ser˜ao selecionados ao acaso at´e que y defeituosos sejam obtidos.(iii) Itens ser˜ao selecionados ao acaso at´e que o inspetor seja chamado pararesolver um outro problema.
  16. 16. 12 CAP´ITULO 1. INTRODU¸C ˜AO(iv) Itens ser˜ao selecionados ao acaso at´e que o inspetor decida que j´a acumulouinforma¸c˜ao suficiente sobre θ.Qualquer que tenha sido o esquema amostral, se foram inspecionados n itensx1, · · · , xn dos quais y eram defeituosos ent˜aol(θ; x) ∝ θy(1 − θ)n−y.O Princ´ıpio da Verossimilhan¸ca postula que para fazer inferˆencia sobre umaquantidade de interesse θ s´o importa aquilo que foi realmente observado e n˜aoaquilo que “poderia” ter ocorrido mas efetivamente n˜ao ocorreu.1.3 Exerc´ıcios1. No Exemplo 1.3, obtenha tamb´em a distribui¸c˜ao preditiva de X e compareo valor observado com a m´edia desta preditiva para os 2 f´ısicos. Fa¸ca umaprevis˜ao para uma 2amedi¸c˜ao Y feita com o mesmo aparelho.2. Uma m´aquina produz 5% de itens defeituosos. Cada item produzido passapor um teste de qualidade que o classifica como “bom”, “defeituoso” ou“suspeito”. Este teste classifica 20% dos itens defeituosos como bons e 30%como suspeitos. Ele tamb´em classifica 15% dos itens bons como defeituosose 25% como suspeitos.(a) Que propor¸c˜ao dos itens ser˜ao classificados como suspeitos ?(b) Qual a probabilidade de um item classificado como suspeito ser de-feituoso ?(c) Outro teste, que classifica 95% dos itens defeituosos e 1% dos itensbons como defeituosos, ´e aplicado somente aos itens suspeitos.(d) Que propor¸c˜ao de itens ter˜ao a suspeita de defeito confirmada ?(e) Qual a probabilidade de um item reprovado neste 2oteste ser defeituoso?3. Uma empresa de cr´edito precisa saber como a inadimplˆencia est´a distribuidaentre seus clentes. Sabe-se que um cliente pode pertencer `as classes A, B,C ou D com probabilidades 0,50, 0,20, 0,20 e 0,10 respectivamente. Umcliente da classe A tem probabilidade 0,30 de estar inadimplente, um daclasse B tem probabilidade 0,10 de estar inadimplente, um da classe C temprobabilidade 0,05 de estar inadimplente e um da classe D tem probabili-dade 0,05 de estar inadimplente. Um cliente ´e sorteado aleatoriamente.(a) Defina os eventos e enumere as probabilidades fornecidas no problema.
  17. 17. 1.3. EXERC´ICIOS 13(b) Qual a probabilidade dele estar inadimplente ?(c) Sabendo que ele est´a inadimplente, qual a sua classe mais prov´avel?4. Suponha que seus dados x1, . . . , xn s˜ao processados sequencialmente, i.e. x1´e observado antes de x2 e assim por diante. Escreva um programa que aplicao Teorema 1.1 obtendo a m´edia e a variˆancia a posteriori dado x1, use estadistribui¸c˜ao como priori para obter a m´edia e a variˆancia a posteriori dadosx1, x2 e repita o procedimento sequencialmente at´e obter a posteriori dadosx1, . . . , xn. Fa¸ca um gr´afico com as m´edias a posteriori mais ou menos 2desvios padr˜ao a posteriori.
  18. 18. Cap´ıtulo 2Distribui¸c˜oes a PrioriA utiliza¸c˜ao de informa¸c˜ao a priori em inferˆencia Bayesiana requer a especifica¸c˜aode uma distribui¸c˜ao a priori para a quantidade de interesse θ. Esta distribui¸c˜aodeve representar (probabilisticamente) o conhecimento que se tem sobre θ antesda realiza¸c˜ao do experimento. Neste capitulo ser˜ao discutidas diferentes formasde especifica¸c˜ao da distribui¸c˜ao a priori.2.1 Prioris ConjugadasA partir do conhecimento que se tem sobre θ, pode-se definir uma fam´ıliaparam´etrica de densidades. Neste caso, a distribui¸c˜ao a priori ´e representadapor uma forma funcional, cujos parˆametros devem ser especificados de acordocom este conhecimento. Estes parˆametros indexadores da familia de distribui¸c˜oesa priori s˜ao chamados de hiperparˆametros para distingui-los dos parˆametros deinteresse θ.Esta abordagem em geral facilita a an´alise e o caso mais importante ´e o deprioris conjugadas. A id´eia ´e que as distribui¸c˜oes a priori e a posteriori perten¸cama mesma classe de distribui¸c˜oes e assim a atualiza¸c˜ao do conhecimento que se temde θ envolve apenas uma mudan¸ca nos hiperparˆametros. Neste caso, o aspectosequencial do m´etodo Bayesiano pode ser explorado definindo-se apenas a regra deatualiza¸c˜ao dos hiperparˆametros j´a que as distribui¸c˜oes permanecem as mesmas.Defini¸c˜ao 2.1 Se F = {p(x|θ), θ ∈ Θ} ´e uma classe de distribui¸c˜oes amostraisent˜ao uma classe de distribui¸c˜oes P ´e conjugada a F se∀ p(x|θ) ∈ F e p(θ) ∈ P ⇒ p(θ|x) ∈ P.Gamerman (1996, 1997 Cap. 2) alerta para o cuidado com a utiliza¸c˜ao in-discriminada de prioris conjugadas. Essencialmente, o problema ´e que a priori14
  19. 19. 2.2. CONJUGA¸C ˜AO NA FAM´ILIA EXPONENCIAL 15conjugada nem sempre ´e uma representa¸c˜ao adequada da incerteza a priori. Suautiliza¸c˜ao est´a muitas vezes associada `a tratabilidade anal´ıtica decorrente.Uma vez entendidas suas vantagens e desvantagens a quest˜ao que se colocaagora ´e “como” obter uma fam´ılia de distribui¸c˜oes conjugadas.(i) Identifique a classe P de distribui¸c˜oes para θ tal que l(θ; x) seja proporcionala um membro desta classe.(ii) Verifique se P ´e fechada por amostragem, i.e., se ∀ p1, p2 ∈ P ∃ k tal quekp1p2 ∈ P.Se, al´em disso, existe uma constante k tal que k−1= l(θ; x)dθ < ∞ e todop ∈ P ´e definido como p(θ) = k l(θ; x) ent˜ao P ´e a fam´ılia conjugada natural aomodelo amostral gerador de l(θ; x).Exemplo 2.1 : Sejam X1, . . . , Xn ∼ Bernoulli(θ). Ent˜ao a densidade amostralconjunta ´ep(x|θ) = θt(1 − θ)n−t, 0 < θ < 1 sendo t =ni=1xie pelo teorema de Bayes segue quep(θ|x) ∝ θt(1 − θ)n−tp(θ).Note que l(θ; x) ´e proporcional `a densidade de uma distribui¸c˜aoBeta(t + 1, n − t + 1). Al´em disso, se p1 e p2 s˜ao as densidades das dis-tribui¸c˜oes Beta(a1, b1) e Beta(a2, b2) ent˜aop1p2 ∝ θa1+a2−2(1 − θ)b1+b2−2,ou seja p1p2 ´e proporcional a densidade da distribui¸c˜ao Beta(a1 + a2 − 1, b1 +b2 − 1). Conclui-se que a fam´ılia de distribui¸c˜oes Beta com parˆametros inteiros ´econjugada natural `a fam´ılia Bernoulli. Na pr´atica esta classe pode ser ampliadapara incluir todas as distribui¸c˜oes Beta, i.e. incluindo todos os valores positivosdos parˆametros.2.2 Conjuga¸c˜ao na Fam´ılia ExponencialA fam´ılia exponencial inclui muitas das distribui¸c˜oes de probabilidade mais comu-mente utilizadas em Estatistica, tanto continuas quanto discretas. Uma caracter-istica essencial desta familia ´e que existe uma estatistica suficiente com dimens˜ao
  20. 20. 16 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIfixa. Veremos adiante que a classe conjugada de distribui¸c˜oes ´e muito f´acil decaracterizar.Defini¸c˜ao 2.2 A familia de distribui¸c˜oes com fun¸c˜ao de (densidade) de probabil-idade p(x|θ) pertence `a familia exponencial a um parˆametro se podemos escreverp(x|θ) = a(x) exp{u(x)φ(θ) + b(θ)}.Note que pelo crit´erio de fatora¸c˜ao de Neyman U(x) ´e uma estatistica suficientepara θ.Neste caso, a classe conjugada ´e facilmente identificada como,p(θ) = k(α, β) exp{αφ(θ) + βb(θ)}.e aplicando o teorema de Bayes segue quep(θ|x) = k(α + u(x), β + 1) exp{[α + u(x)]φ(θ) + [β + 1]b(θ)}.Agora, usando a constante k, a distribui¸c˜ao preditiva pode ser facilmente obtidasem necessidade de qualquer integra¸c˜ao. A partir da equa¸c˜ao p(x)p(θ|x) =p(x|θ)p(θ) e ap´os alguma simplifica¸c˜ao segue quep(x) =p(x|θ)p(θ)p(θ|x)=a(x)k(α, β)k(α + u(x), β + 1).Exemplo 2.2 : Uma extens˜ao direta do Exemplo 2.1 ´e o modelo binomial, i.e.X|θ ∼ Binomial(n, θ). Neste caso,p(x|θ) =nxexp x logθ1 − θ+ n log(1 − θ)e a fam´ılia conjugada natural ´e Beta(r, s). Podemos escrever ent˜aop(θ) ∝ θr−1(1 − θ)s−1∝ exp (r − 1) logθ1 − θ+s + r − 2nn log(1 − θ)∝ exp {αφ(θ) + βb(θ)} .A posteriori tamb´em ´e Beta com parˆametros α + x e β + 1 ou equivalentemente
  21. 21. 2.2. CONJUGA¸C ˜AO NA FAM´ILIA EXPONENCIAL 17r + x e s + n − x, i.e.p(θ|x) ∝ exp (r + x − 1)φ(θ) +s + r − 2 + nnb(θ)∝ θr+x−1(1 − θ)s+n−x−1.Como ilustra¸c˜ao, no Exemplo 2.2 suponha que n = 12, X = 9 e usamos pri-oris conjugadas Beta(1,1), Beta(2,2) e Beta(1,3). As fun¸c˜oes de densidade destasdistribui¸c˜oes juntamente com a fun¸c˜ao de verossimilhan¸ca normalizada e as re-spectivas densidades a posteriori est˜ao na Figura 2.1. A distribui¸c˜ao preditiva ´edada porp(x) =nxB(r + x, s + n − x)B(r, s), x = 0, 1, . . . , n, n ≥ 1,onde B−1´e a constante normalizadora da distribui¸c˜ao Beta, i.e. (ver ApˆendiceA)B−1(a, b) =Γ(a + b)Γ(a)Γ(b).Esta distribui¸c˜ao ´e denominada Beta-Binomial.0.0 0.2 0.4 0.6 0.8 1.00.01.02.03.0θverossprioriposteriori0.0 0.2 0.4 0.6 0.8 1.00.01.02.03.0θverossprioriposteriori0.0 0.2 0.4 0.6 0.8 1.00.01.02.03.0θverossprioriposterioriFigura 2.1: Densidades a priori, a posteriori e fun¸c˜ao de verossimilhan¸ca normalizadapara o Exemplo 2.2.
  22. 22. 18 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORINo Exemplo 2.2 suponha novamente que n = 12, X = 9 e usamos as priorisconjugadas Beta(1,1), Beta(2,2) e Beta(1,3). Na Tabela 2.1 est˜ao listadas asprobabilidades preditivas P(X = k) associadas a estas prioris. Os comandos doR a seguir podem ser usados no c´alculo destas probabilidades.> beta.binomial = function(n, a, b) {+ m = matrix(0, n + 1, 2)+ m[, 1] = 0:n+ for (x in 0:n) m[x, 2] = round(choose(n, x) * beta(a + x,+ b + n - x)/beta(a, b), 4)+ return(list(m = m))+ }Tabela 2.1: Probabilidades preditivas da Beta-Binomial para o Exemplo 2.2k Beta(1,1) Beta(2,2) Beta(1,3)0 0.0769 0.0527 0.17141 0.0769 0.0725 0.14512 0.0769 0.0879 0.12093 0.0769 0.0989 0.09894 0.0769 0.1055 0.07915 0.0769 0.1077 0.06156 0.0769 0.1055 0.04627 0.0769 0.0989 0.03308 0.0769 0.0879 0.02209 0.0769 0.0725 0.013210 0.0769 0.0527 0.006611 0.0769 0.0286 0.002212 0.0000 0.0000 0.0000No caso geral em que se tem uma amostra X1, . . . , Xn da fam´ılia exponenciala natureza sequencial do teorema de Bayes permite que a an´alise seja feita porreplica¸c˜oes sucessivas. Assim a cada observa¸c˜ao xi os parˆametros da distribui¸c˜aoa posteriori s˜ao atualizados viaαi = αi−1 + u(xi)βi = βi−1 + 1
  23. 23. 2.3. PRINCIPAIS FAM´ILIAS CONJUGADAS 19com α0 = α e β0 = β. Ap´os n observa¸c˜oes temos queαn = α +ni=1u(xi)βn = β + ne a distribui¸c˜ao preditiva ´e dada porp(x) =ni=1a(xi)k(α, β)k(α + u(xi), β + n).Finalmente, a defini¸c˜ao de fam´ılia exponencial pode ser extendida ao casomultiparam´etrico, i.e.p(x|θ) =ni=1a(xi) exprj=1ni=1uj(xi) φj(θ) + nb(θ)com θ = (θ1, . . . , θr). Neste caso, pelo crit´erio de fatora¸c˜ao, temos queU1(xi), . . . , Ur(xi) ´e uma estat´ıstica conjuntamente suficiente para o vetorde parˆametros θ.2.3 Principais Fam´ılias ConjugadasJ´a vimos que a fam´ılia de distribui¸c˜oes Beta ´e conjugada ao modelo Bernoulli ebinomial. N˜ao ´e dif´ıcil mostrar que o mesmo vale para as distribui¸c˜oes amostraisgeom´etrica e binomial-negativa (ver Exerc´ıcio 1). A seguir veremos resultadospara outros membros importantes da fam´ılia exponencial.2.3.1 Distribui¸c˜ao normal com variˆancia conhecidaPara uma ´unica observa¸c˜ao vimos pelo Teorema 1.1 que a fam´ılia de distribui¸c˜oesnormais ´e conjugada ao modelo normal. Para uma amostra de tamanho n, afun¸c˜ao de verossimilhan¸ca pode ser escrita comol(θ; x) = (2πσ2)−n/2exp −12σ2ni=1(xi − θ)2∝ exp −n2σ2(x − θ)2onde os termos que n˜ao dependem de θ foram incorporados `a constante de pro-porcionalidade. Portanto, a verossimilhan¸ca tem a mesma forma daquela baseadaem uma ´unica observa¸c˜ao bastando substituir x por x e σ2por σ2/n. Logo vale
  24. 24. 20 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIo Teorema 1.1 com as devidas substitui¸c˜oes, i.e. a distribui¸c˜ao a posteriori de θdado x ´e N(µ1, τ21 ) sendoµ1 =τ−20 µ0 + nσ−2xτ−20 + nσ−2e τ−21 = τ−20 + nσ−2.Note que a m´edia a posteriori pode ser reescrita como wµ0 + (1 − w)x sendow = τ−20 /(τ−20 + nσ−2).Uma fun¸c˜ao geral pode ser escrita no R para calcular estes parˆametros e op-cionalmente fazer os gr´aficos das densidades.> norm.norm <- function(x, sigma, mu0, tau0, plot = F) {+ n = length(x)+ xbar = mean(x)+ ep = sigma/sqrt(n)+ sigma2 = sigma^2+ tau1 = n * (1/sigma2) + (1/tau0)+ mu1 = (n * (1/sigma2) * xbar + (1/tau0) * mu0)/tau1+ if (plot) {+ curve(dnorm(x, xbar, ep), xbar - 3 * ep, xbar + 3 * ep)+ curve(dnorm(x, mu0, sqrt(tau0)), add = T, col = 2)+ curve(dnorm(x, mu1, 1/sqrt(tau1)), add = T, col = 3)+ legend(-0.5, 1.2, legend = c("veross.", "priori", "posteriori"),+ col = 1:3, lty = c(1, 1, 1))+ }+ return(list(mu1 = mu1, tau1 = tau1))+ }2.3.2 Distribui¸c˜ao de PoissonSeja X1, . . . , Xn uma amostra aleat´oria da distribui¸c˜ao de Poisson com parˆametroθ. Sua fun¸c˜ao de probabilidade conjunta ´e dada porp(x|θ) =e−nθθtxi!∝ e−nθθt, θ > 0, t =ni=1xi.O n´ucleo da verossimilhan¸ca ´e da forma θae−bθque caracteriza a fam´ılia dedistribui¸c˜oes Gama a qual ´e fechada por amostragem (verifique!). Assim, dis-tribui¸c˜ao a priori conjugada natural de θ ´e Gama com parˆametros positivos α eβ, i.e.p(θ) =βαΓ(α)θα−1e−βθ, α > 0, β > 0, θ > 0.
  25. 25. 2.3. PRINCIPAIS FAM´ILIAS CONJUGADAS 21A densidade a posteriori ficap(θ|x) ∝ θα+t−1exp {−(β + n)θ}que corresponde `a densidade Gama(α + t, β + n). Note que a m´edia a posterioripode ser reescrita como uma combina¸c˜ao linear da m´edia a priori e da m´ediaamostral (ver exerc´ıcio 6). A distribui¸c˜ao preditiva tamb´em ´e facilmente obtidapoisp(x|θ) =ni=11xi!exp {t log θ − nθ}e portantop(x) =ni=11xi!βαΓ(α)Γ(α + t)(β + n)α+t.Para uma ´unica observa¸c˜ao x segue ent˜ao quep(x) =1x!βαΓ(α + x)Γ(α) (β + 1)α+x=1x!ββ + 1α1β + 1x(α + x − 1)!(α − 1)!=α + x − 1xββ + 1α1β + 1x.Esta distribui¸c˜ao ´e chamada de Binomial-Negativa com parˆametros α e β e suam´edia e variˆancia s˜ao facilmente obtidos comoE(X) = E[E(X|θ)] = E(θ) = α/βV ar(X) = E[V ar(X|θ)] + V ar[E(X|θ)] = E(θ) + V ar(θ) =α(β + 1)β2.2.3.3 Distribui¸c˜ao multinomialDenotando por X = (X1, . . . , Xp) o n´umero de ocorrˆencias em cada uma de pcategorias em n ensaios independentes e por θ = (θ1, . . . , θp) as probabilidadesassociadas, deseja-se fazer inferˆencia sobre estes p parˆametros. No entanto, noteque existem efetivamente p − 1 parˆametros j´a que temos a seguinte restri¸c˜aopi=1 θi = 1. Al´em disso, a restri¸c˜ao pi=1 Xi = n obviamente tamb´em se aplica.Dizemos que X tem distribui¸c˜ao multinomial com parˆametros n e θ e fun¸c˜ao deprobabilidade conjunta das p contagens X ´e dada porp(x|θ) =n!pi=1 xi!pi=1θxii .
  26. 26. 22 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORINote que esta ´e uma generaliza¸c˜ao da distribui¸c˜ao binomial que tem apenas duascategorias. N˜ao ´e dif´ıcil mostrar que esta distribui¸c˜ao tamb´em pertence `a fam´ıliaexponencial. A fun¸c˜ao de verossimilhan¸ca para θ ´el(θ; x) ∝pi=1θxiique tem o mesmo n´ucleo da fun¸c˜ao de densidade de uma distribui¸c˜ao de Dirichlet.A fam´ılia Dirichlet com parˆametros inteiros a1, . . . , ap ´e a conjugada natural domodelo multinomial, por´em na pr´atica a conjuga¸c˜ao ´e extendida para parˆametrosn˜ao inteiros. A distribui¸c˜ao a posteriori ´e dada porp(θ|x) ∝pi=1θxiipi=1θai−1i =pi=1θxi+ai−1i .Note que estamos generalizando a an´alise conjugada para amostras binomiais compriori beta.2.3.4 Distribui¸c˜ao normal com m´edia conhecida e variˆan-cia desconhecidaSeja X1, . . . , Xn uma amostra aleat´oria da distribui¸c˜ao N(θ, σ2), com θ conhecidoe φ = σ−2desconhecido. Neste caso a fun¸c˜ao de densidade conjunta ´e dada porp(x|θ, φ) ∝ φn/2exp{−φ2ni=1(xi − θ)2}.Note que o n´ucleo desta verossimilhan¸ca tem a mesma forma daquele de umadistribui¸c˜ao Gama. Como sabemos que a fam´ılia Gama ´e fechada por amostragempodemos considerar uma distribui¸c˜ao a priori Gama com parˆametros n0/2 en0σ20/2, i.e.φ ∼ Gaman02,n0σ202.Equivalentemente, podemos atribuir uma distribui¸c˜ao a priori qui-quadrado comn0 graus de liberdade para n0σ20φ. A forma funcional dos parˆametros da dis-tribui¸c˜ao a priori ´e apenas uma conveniˆencia matem´atica como veremos a seguir.Definindo ns20 = ni=1(xi − θ)2e aplicando o teorema de Bayes obtemos a
  27. 27. 2.3. PRINCIPAIS FAM´ILIAS CONJUGADAS 23distribui¸c˜ao a posteriori de φ,p(φ|x) ∝ φn/2exp −φ2ns20 φn0/2−1exp −φ2n0σ20= φ(n0+n)/2−1exp −φ2(n0σ20 + ns20) .Note que esta express˜ao corresponde ao n´ucleo da distribui¸c˜ao Gama, comoera esperado devido `a conjuga¸c˜ao. Portanto,φ|x ∼ Gaman0 + n2,n0σ20 + ns202.Equivalentemente podemos dizer que (n0σ20 + ns20)φ | x ∼ χ2n0+n.2.3.5 Distribui¸c˜ao normal com m´edia e variˆancia descon-hecidosSeja X1, . . . , Xn uma amostra aleat´oria da distribui¸c˜ao N(θ, σ2), com ambos θe φ=σ−2desconhecidos. Precisamos ent˜ao especificar uma distribui¸c˜ao a prioriconjunta para θ e φ. Uma possibilidade ´e fazer a especifica¸c˜ao em dois est´agiosj´a que podemos sempre escrever p(θ, φ) = p(θ|φ)p(φ). No primeiro est´agio,θ|φ ∼ N(µ0, (c0φ)−1), φ = σ−2e a distribui¸c˜ao a priori marginal de φ ´e a mesma do caso anterior, i.e.φ ∼ Gaman02,n0σ202.A distribui¸c˜ao conjunta de (θ, φ) ´e geralmente chamada de Normal-Gama comparˆametros (µ0, c0, n0, σ20) e sua fun¸c˜ao de densidade conjunta ´e dada por,p(θ, φ) = p(θ|φ)p(φ)∝ φ1/2exp −c0φ2(θ − µ0)2φn0/2−1exp −n0σ20φ2∝ φ(n0+1)/2−1exp −φ2(n0σ20 + c0(θ − µ0)2) .A partir desta densidade conjunta podemos obter a distribui¸c˜ao marginal de
  28. 28. 24 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIθ por integra¸c˜aop(θ) = p(θ|φ)p(φ)dφ∝∞0φ(n0+1)/2−1exp −φ2[n0σ20 + c0(θ − µ0)2] dφ∝n0σ20 + c0(θ − µ0)22−n0+12∝ 1 +(θ − µ0)2n0(σ20/c0)−n0+12,que ´e o n´ucleo da distribui¸c˜ao t de Student com n0 graus de liberdade, parˆametrode loca¸c˜ao µ0 e parˆametro de escala σ20/c0 (ver Apˆendice A). Denotamos θ ∼tn0 (µ0, σ20/c0). A distribui¸c˜ao condicional de φ dado θ tamb´em ´e facilmente obtidacomop(φ|θ) ∝ p(θ|φ)p(φ)∝ φ(n0+1)/2−1exp −φ2[n0σ20 + c0(θ − µ0)2] ,e portanto,φ|θ ∼ Gaman0 + 12,n0σ20 + c0(θ − µ0)22.A posteriori conjunta de (θ, φ) tamb´em ´e obtida em 2 etapas como segue.Primeiro, para φ fixo podemos usar o resultado da Se¸c˜ao 2.3.1 de modo que adistribui¸c˜ao a posteriori de θ dado φ ficaθ|φ, x ∼ N(µ1, (c1φ)−1)sendoµ1 =c0φµ0 + nφxc0φ + nφ=c0µ0 + nxc0 + ne c1 = c0 + n.Na segunda etapa, combinando a verossimilhan¸ca com a priori de φ obtemos queφ|x ∼ Gaman12,n1σ212sendon1 = n0 + n e n1σ21 = n0σ20 + (xi − x)2+ c0n(µ0 − x)2/(c0 + n).Equivalentemente, podemos escrever a posteriori de φ como n1σ21φ ∼ χ2n1. As-sim, a posteriori conjunta ´e (θ, φ|x) ∼ Normal-Gama(µ1, c1, n1, σ21) e portanto a
  29. 29. 2.4. PRIORI N ˜AO INFORMATIVA 25posteriori marginal de θ ficaθ | x ∼ tn1 (µ1, σ21/c1).Em muitas situa¸c˜oes ´e mais f´acil pensar em termos de algumas caracter´ısticasda distribui¸c˜ao a priori do que em termos de seus hiperparˆametros. Por exemplo,se E(θ) = 2, V ar(θ) = 5, E(φ) = 3 e V ar(φ) = 3 ent˜ao(i) µ0 = 2 pois E(θ) = µ0.(ii) σ20 = 1/3 pois E(φ) = 1/σ20.(iii) n0 = 6 pois V ar(φ) = 2/(n0σ40) = 18/n0.(iv) c0 = 1/10 pois V ar(θ) =n0n0 − 2σ20c0=12c02.4 Priori n˜ao InformativaEsta se¸c˜ao refere-se a especifica¸c˜ao de distribui¸c˜oes a priori quando se espera quea informa¸c˜ao dos dados seja dominante, no sentido de que a nossa informa¸c˜aoa priori ´e vaga. Os conceitos de “conhecimento vago”, “n˜ao informa¸c˜ao”, ou “ig-norˆancia a priori” claramente n˜ao s˜ao ´unicos e o problema de caracterizar prioriscom tais caracter´ısticas pode se tornar bastante complexo.Por outro lado, reconhece-se a necessidade de alguma forma de an´alise que,em algum sentido, consiga captar esta no¸c˜ao de uma priori que tenha um efeitom´ınimo, relativamente aos dados, na inferˆencia final. Tal an´alise pode ser pen-sada como um ponto de partida quando n˜ao se consegue fazer uma elicita¸c˜aodetalhada do “verdadeiro” conhecimento a priori. Neste sentido, ser˜ao apresen-tadas aqui algumas formas de “como” fazer enquanto discuss˜oes mais detalhadass˜ao encontradas em Berger (1985), Box & Tiao (1992), Bernardo & Smith (1994)e O’Hagan (1994).A primeira id´eia de “n˜ao informa¸c˜ao” a priori que se pode ter ´e pensar emtodos os poss´ıveis valores de θ como igualmente prov´aveis, i.e. com uma dis-tribui¸c˜ao a priori uniforme. Neste caso, fazendo p(θ) ∝ k para θ variando em umsubconjunto da reta significa que nenhum valor particular tem preferˆencia (Bayes,1763). Por´em esta escolha de priori pode trazer algumas dificuldades t´ecnicas,(i) Se o intervalo de varia¸c˜ao de θ for ilimitado ent˜ao a distribui¸c˜ao a priori ´eimpr´opria, i.e.p(θ)dθ = ∞.
  30. 30. 26 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORI(ii) Se φ = g(θ) ´e uma reparametriza¸c˜ao n˜ao linear mon´otona de θ ent˜ao p(φ) ´en˜ao uniforme j´a que pelo teorema de transforma¸c˜ao de vari´aveisp(φ) = p(θ(φ))dθdφ∝dθdφ.Na pr´atica, como estaremos interessados na distribui¸c˜ao a posteriori n˜ao dare-mos muita importˆancia `a impropriedade da distribui¸c˜ao a priori. No entanto de-vemos sempre nos certificar de que a posterior ´e pr´opria antes de fazer qualquerinferˆencia.A classe de prioris n˜ao informativas proposta por Jeffreys (1961) ´e invariantea transforma¸c˜oes 1 a 1, embora em geral seja impr´opria e ser´a definida a seguir.Antes por´em precisamos da defini¸c˜ao da medida de informa¸c˜ao de Fisher.Defini¸c˜ao 2.3 Considere uma ´unica observa¸c˜ao X com fun¸c˜ao de (densidade)de probabilidade p(x|θ). A medida de informa¸c˜ao esperada de Fisher de θ atrav´esde X ´e definida comoI(θ) = E −∂2log p(x|θ)∂θ2.Se θ for um vetor param´etrico define-se ent˜ao a matriz de informa¸c˜ao esperadade Fisher de θ atrav´es de X comoI(θ) = E −∂2log p(x|θ)∂θ∂θ′ .Note que o conceito de informa¸c˜ao aqui est´a sendo associado a uma esp´ecie decurvatura m´edia da fun¸c˜ao de verossimilhan¸ca no sentido de que quanto maior acurvatura mais precisa ´e a informa¸c˜ao contida na verossimilhan¸ca, ou equivalen-temente maior o valor de I(θ). Em geral espera-se que a curvatura seja negativae por isso seu valor ´e tomado com sinal trocado. Note tamb´em que a esperan¸camatem´atica ´e tomada em rela¸c˜ao `a distribui¸c˜ao amostral p(x|θ).Podemos considerar ent˜ao I(θ) uma medida de informa¸c˜ao global enquantoque uma medida de informa¸c˜ao local ´e obtida quando n˜ao se toma o valor esperadona defini¸c˜ao acima. A medida de informa¸c˜ao observada de Fisher J(θ) fica ent˜aodefinida comoJ(θ) = −∂2log p(x|θ)∂θ2e que ser´a utilizada mais adiante quando falarmos sobre estima¸c˜ao.Defini¸c˜ao 2.4 Seja uma observa¸c˜ao X com fun¸c˜ao de (densidade) de probabili-dade p(x|θ). A priori n˜ao informativa de Jeffreys tem fun¸c˜ao de densidade dadaporp(θ) ∝ [I(θ)]1/2.
  31. 31. 2.4. PRIORI N ˜AO INFORMATIVA 27Se θ for um vetor param´etrico ent˜ao p(θ) ∝ | det I(θ)|1/2.Exemplo 2.3 : Seja X1, . . . , Xn ∼ Poisson(θ). Ent˜ao o logaritmo da fun¸c˜ao deprobabilidade conjunta ´e dado porlog p(x|θ) = −nθ +ni=1xi log θ − logni=1xi!e tomando-se a segunda derivada segue que∂2log p(x|θ)∂θ2=∂∂θ−n +ni=1 xiθ= −ni=1 xiθ2e assim,I(θ) =1θ2Eni=1xi = n/θ ∝ θ−1.Portanto, a priori n˜ao informativa de Jeffreys para θ no modelo Poisson ´e p(θ) ∝θ−1/2. Note que esta priori ´e obtida tomando-se a conjugada natural Gama(α, β)e fazendo-se α = 1/2 e β → 0.Em geral a priori n˜ao informativa ´e obtida fazendo-se o parˆametro de escalada distribui¸c˜ao conjugada tender a zero e fixando-se os demais parˆametros conve-nientemente. Al´em disso, a priori de Jeffreys assume formas espec´ıficas em algunsmodelos que s˜ao frequentemente utilizados como veremos a seguir.Defini¸c˜ao 2.5 X tem um modelo de loca¸c˜ao se existem uma fun¸c˜ao f e umaquantidade θ tais que p(x|θ) = f(x − θ). Neste caso θ ´e chamado de parˆametrode loca¸c˜ao.A defini¸c˜ao vale tamb´em quando θ ´e um vetor de parˆametros. Alguns exem-plos importantes s˜ao a distribui¸c˜ao normal com variˆancia conhecida, e a dis-tribui¸c˜ao normal multivariada com matriz de variˆancia-covariˆancia conhecida.Pode-se mostrar que para o modelo de loca¸c˜ao a priori de Jeffreys ´e dada porp(θ) ∝ constante.Defini¸c˜ao 2.6 X tem um modelo de escala se existem uma fun¸c˜ao f e umaquantidade σ tais que p(x|σ) = (1/σ)f(x/σ). Neste caso σ ´e chamado deparˆametro de escala.Alguns exemplos s˜ao a distribui¸c˜ao exponencial com parˆametro θ, com parˆametrode escala σ = 1/θ, e a distribui¸c˜ao N(θ, σ2) com m´edia conhecida e escala σ.Pode-se mostrar que para o modelo de escala a priori de Jeffreys ´e dada porp(σ) ∝ σ−1.
  32. 32. 28 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIDefini¸c˜ao 2.7 X tem um modelo de loca¸c˜ao e escala se existem uma fun¸c˜ao fe as quantidades θ e σ tais quep(x|θ, σ) =1σfx − θσ.Neste caso θ ´e chamado de parˆametro de loca¸c˜ao e σ de parˆametro de escala.Alguns exemplos s˜ao a distribui¸c˜ao normal (uni e multivariada) e a distribui¸c˜aode Cauchy. Em modelos de loca¸c˜ao e escala, a priori n˜ao informativa pode serobtida assumindo-se independˆencia a priori entre θ e σ de modo que p(θ, σ) =p(θ)p(σ) ∝ σ−1.Exemplo 2.4 : Seja X1, . . . , Xn ∼ N(µ, σ2) com µ e σ2desconhecidos. Nestecaso,p(x|µ, σ2) ∝1σexp −12x − µσ2,portanto (µ, σ) ´e parˆametro de loca¸c˜ao-escala e p(µ, σ) ∝ σ−1´e a priori n˜aoinformativa. Ent˜ao, pela propriedade da invariˆancia, a priori n˜ao informativapara (µ, σ2) no modelo normal ´e p(µ, σ2) ∝ σ−2.Vale notar entretanto que a priori n˜ao informativa de Jeffreys viola o princ´ı-pio da verossimilhan¸ca, j´a que a informa¸c˜ao de Fisher depende da distribui¸c˜aoamostral.2.5 Prioris Hier´arquicasA id´eia aqui ´e dividir a especifica¸c˜ao da distribui¸c˜ao a priori em est´agios. Al´emde facilitar a especifica¸c˜ao esta abordagem ´e natural em determinadas situa¸c˜oesexperimentais.A distribui¸c˜ao a priori de θ depende dos valores dos hiperparˆametros φ e pode-mos escrever p(θ|φ) ao inv´es de p(θ). Al´em disso, ao inv´es de fixar valores para oshiperparˆametros podemos especificar uma distribui¸c˜ao a priori p(φ) completandoassim o segundo est´agio na hierarquia. Assim, a distribui¸c˜ao a priori conjunta ´esimplesmente p(θ, φ) = p(θ|φ)p(φ) e a distribui¸c˜ao a priori marginal de θ podeser ent˜ao obtida por integra¸c˜ao comop(θ) = p(θ, φ)dφ = p(θ|φ)p(φ)dφ.
  33. 33. 2.5. PRIORIS HIER ´ARQUICAS 29A distribui¸c˜ao a posteriori conjunta ficap(θ, φ|x) ∝ p(x|θ, φ)p(θ|φ)p(φ) ∝ p(x|θ)p(θ|φ)p(φ)pois a distribui¸c˜ao dos dados depende somente de θ. Em outras palavras, dadoθ, x e φ s˜ao independentes.Exemplo 2.5 : Sejam X1, . . . , Xn tais que Xi ∼ N(θi, σ2) com σ2conhecido equeremos especificar uma distribui¸c˜ao a priori para o vetor de parˆametros θ =(θ1, . . . , θn). Suponha que no primeiro est´agio assumimos que θi ∼ N(µ, τ2),i = 1, . . . , n. Neste caso, se fixarmos o valor de τ2= τ20 e assumirmos que µ temdistribui¸c˜ao normal ent˜ao θ ter´a distribui¸c˜ao normal multivariada. Por outrolado, fixando um valor para µ = µ0 e assumindo que τ−2tem distribui¸c˜ao Gamaimplicar´a em uma distribui¸c˜ao t de Student multivariada para θ.Teoricamente, n˜ao h´a limita¸c˜ao quanto ao n´umero de est´agios, mas devido `ascomplexidades resultantes as prioris hier´arquicas s˜ao especificadas em geral em 2ou 3 est´agios. Al´em disso, devido `a dificuldade de interpreta¸c˜ao dos hiperparˆamet-ros em est´agios mais altos ´e pr´atica comum especificar prioris n˜ao informativaspara este n´ıveis.Uma aplica¸c˜ao interessante do conceito de hierarquia ´e quando a informa¸c˜ao apriori dispon´ıvel s´o pode ser convenientemente resumida atrav´es de uma misturade distribui¸c˜oes. Isto implica em considerar uma distribui¸c˜ao discreta para φ demodo que, se φ assume os poss´ıveis valores φ1, . . . , φk ent˜aop(θ) =ki=1p(θ|φi)p(φi).N˜ao ´e dif´ıcil verificar que a distribui¸c˜ao a posteriori de θ ´e tamb´em uma misturacom veremos a seguir. Aplicando o teorema de Bayes temos que,p(θ|x) =p(θ)p(x|θ)p(θ)p(x|θ)dθ=ki=1p(x|θ)p(θ|φi)p(φi)ki=1p(φi) p(x|θ)p(θ|φi)dθ.Mas note que a distribui¸c˜ao a posteriori condicional de θ dado φi ´e obtida viateorema de Bayes comop(θ|x, φi) =p(x|θ)p(θ|φi)p(x|θ)p(θ|φi)dθ=p(x|θ)p(θ|φi)m(x|φi)
  34. 34. 30 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORIe a distribui¸c˜ao a posteriori de φi ´e obtida comop(φi) =m(x|φi)p(φ)p(x).Portanto p(x|θ)p(θ|φi)=p(θ|x, φi)m(x|φi). Assim, podemos escrever a posterioride θ comop(θ |x) =ki=1p(θ|x, φi)m(x|φi)p(φi)ki=1m(x|φi)p(φi)=ki=1p(θ|x, φi)p(φi|x)Note tamb´em que p(x) = m(x|φi)p(φi), isto ´e a distribui¸c˜ao preditiva, ´e umamistura de preditivas condicionais.Exemplo 2.6 : Se θ ∈ (0, 1), a fam´ılia de distribui¸c˜oes a priori Beta(a, b) ´e con-veniente. Mas estas s˜ao sempre unimodais e (se a = b) assim´etricas `a esquerda ou`a direita. Outras formas interessantes, e mais de acordo com a nossa informa¸c˜aoa priori, podem ser obtidas misturando-se 2 ou 3 elementos desta fam´ılia. Porexemplo,θ ∼ 0, 25Beta(3, 8) + 0, 75Beta(8, 3)representa a informa¸c˜ao a priori de que θ ∈ (0, 5; 0, 95) com alta probabilidade(0,71) mas tamb´em que θ ∈ (0, 1; 0, 4) com probabilidade moderada (0,20). Asmodas desta distribui¸c˜ao s˜ao 0,23 e 0,78. Por outro ladoθ ∼ 0, 33Beta(4, 10) + 0, 33Beta(15, 28) + 0, 33Beta(50, 70)representa a informa¸c˜ao a priori de que θ > 0, 6 com probabilidade desprez´ıvel.Estas densidades est˜ao representadas graficamente na Figura 2.2 a seguir. Noteque a primeira mistura deu origem a uma distribui¸c˜ao a priori bimodal enquantoa segunda originou uma priori assim´etrica `a esquerda com m´edia igual a 0,35.Para outros exemplos de misturas de prioris ver O’Hagan (1994). Para umexcelente material sobre modelos hier´arquicos ver (Gelman et al. 2004).2.6 Problemas1. Mostre que a fam´ılia de distribui¸c˜oes Beta ´e conjugada em rela¸c˜ao `as dis-tribui¸c˜oes amostrais binomial, geom´etrica e binomial negativa.
  35. 35. 2.6. PROBLEMAS 310.0 0.2 0.4 0.6 0.8 1.001234θ.33B(4,10)+.33B(15,28)+.33B(50,70).25 B(3,8)+.75 B(8,3)Figura 2.2: Misturas de fun¸c˜oes de densidade Beta(3,8) e Beta(8,3) com pesos 0,25 e0,75 e Beta(4,10), Beta(15,28) e Beta(50,70) com pesos iguais a 0,33.2. Para uma amostra aleat´oria de 100 observa¸c˜oes da distribui¸c˜ao normal comm´edia θ e desvio-padr˜ao 2 foi especificada uma priori normal para θ.(a) Mostre que o desvio-padr˜ao a posteriori ser´a sempre menor do que 1/5.Interprete este resultado.(b) Se o desvio-padr˜ao a priori for igual a 1 qual deve ser o menor n´umerode observa¸c˜oes para que o desvio-padr˜ao a posteriori seja 0,1?3. Seja X1, . . . , Xn uma amostra aleat´oria da distribui¸c˜ao N(θ, σ2), com θ con-hecido. Utilizando uma distribui¸c˜ao a priori Gama para σ−2com coeficientede varia¸c˜ao 0,5, qual deve ser o tamanho amostral para que o coeficiente devaria¸c˜ao a posteriori diminua para 0,1?4. Seja X1, . . . , Xn uma amostra aleat´oria da distribui¸c˜ao N(θ, σ2), com θ eσ2desconhecidos, e considere a priori conjugada de (θ, φ).(a) Determine os parˆametros (µ0, c0, n0, σ20) utilizando as seguintes infor-ma¸c˜oes a priori: E(θ) = 0, P(|θ| < 1, 412) = 0, 5, E(φ) = 2 eE(φ2) = 5.
  36. 36. 32 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORI(b) Em uma amostra de tamanho n = 10 foi observado X = 1 eni=1(Xi − X)2= 8. Obtenha a distribui¸c˜ao a posteriori de θ e es-boce os gr´aficos das distribui¸c˜oes a priori, a posteriori e da fun¸c˜ao deverossimilhan¸ca, com φ fixo.(c) Calcule P(|Y | > 1|x) onde Y ´e uma observa¸c˜ao tomada da mesmapopula¸c˜ao.5. Suponha que o tempo, em minutos, para atendimento a clientes segue umadistribui¸c˜ao exponencial com parˆametro θ desconhecido. Com base na ex-periˆencia anterior assume-se uma distribui¸c˜ao a priori Gama com m´edia 0,2e desvio-padr˜ao 1 para θ.(a) Se o tempo m´edio para atender uma amostra aleat´oria de 20 clientesfoi de 3,8 minutos, qual a distribui¸c˜ao a posteriori de θ.(b) Qual o menor n´umero de clientes que precisam ser observados paraque o coeficiente de varia¸c˜ao a posteriori se reduza para 0,1?6. Seja X1, . . . , Xn uma amostra aleat´oria da distribui¸c˜ao de Poisson comparˆametro θ.(a) Determine os parˆametros da priori conjugada de θ sabendo que E(θ) =4 e o coeficiente de varia¸c˜ao a priori ´e 0,5.(b) Quantas observa¸c˜oes devem ser tomadas at´e que a variˆancia a poste-riori se reduza para 0,01 ou menos?(c) Mostre que a m´edia a posteriori ´e da forma γnx + (1 − γn)µ0, ondeµ0 = E(θ) e γn → 1 quando n → ∞. Interprete este resultado.7. O n´umero m´edio de defeitos por 100 metros de uma fita magn´etica ´e descon-hecido e denotado por θ. Atribui-se uma distribui¸c˜ao a priori Gama(2,10)para θ. Se um rolo de 1200 metros desta fita foi inspecionado e encontrou-se4 defeitos qual a distribui¸c˜ao a posteriori de θ?8. Seja X1, . . . , Xn uma amostra aleat´oria da distribui¸c˜ao Bernoulli comparˆametro θ e usamos a priori conjugada Beta(a, b). Mostre que a m´e-dia a posteriori ´e da forma γnx + (1 − γn)µ0, onde µ0 = E(θ) e γn → 1quando n → ∞. Interprete este resultado.9. Para uma amostra aleat´oria X1, . . . , Xn tomada da distribui¸c˜ao U(0, θ),mostre que a fam´ılia de distribui¸c˜oes de Pareto com parˆametros a e b, cujafun¸c˜ao de densidade ´e p(θ) = aba/θa+1, ´e conjugada `a uniforme.
  37. 37. 2.6. PROBLEMAS 3310. Para uma vari´avel aleat´oria θ > 0 a fam´ılia de distribui¸c˜oes Gama-invertidatem fun¸c˜ao de densidade de probabilidade dada porp(θ) =βαΓ(α)θ−(α+1)e−β/θ, α, β > 0.Mostre que esta fam´ılia ´e conjugada ao modelo normal com m´edia µ con-hecida e variˆancia θ desconhecida.11. Suponha que X = (X1, X2, X3) tenha distribui¸c˜ao trinomial com parˆamet-ros n (conhecido) e π = (π1, π2, π3) com π1 + π2 + π3 = 1. Mostre que apriori n˜ao informativa de Jeffreys para π ´e p(π) ∝ [π1π2(1 − π1 − π2)]−1/2.12. Para cada uma das distribui¸c˜oes abaixo verifique se o modelo ´e de loca¸c˜ao,escala ou loca¸c˜ao-escala e obtenha a priori n˜ao informativa para os parˆamet-ros desconhecidos.(a) Cauchy(0,β).(b) tν(µ, σ2), ν conhecido.(c) Pareto(a, b), b conhecido.(d) Uniforme (θ − 1, θ + 1).(e) Uniforme (−θ, θ).13. Seja uma cole¸c˜ao de vari´aveis aleat´orias independentes Xi com distribui¸c˜oesp(xi|θi) e seja pi(θi) a priori n˜ao informativa de θi, i = 1, . . . , k. Mostre que apriori n˜ao informativa de Jeffreys para o vetor param´etrico θ = (θ1, . . . , θk)´e dada por ki=1 pi(θi).14. Se θ tem priori n˜ao informativa p(θ) ∝ k, θ > 0 mostre que a priori deφ = aθ + b, a = 0 tamb´em ´e p(φ) ∝ k.15. Se θ tem priori n˜ao informativa p(θ) ∝ θ−1mostre que a priori de φ = θa,a = 0 tamb´em ´e p(φ) ∝ φ−1e que a priori de ψ = log θ ´e p(ψ) ∝ k.16. No Exemplo 1.3, sejam φi = (µi, τ2i ), i = 1, 2, as m´edias e variˆancias apriori dos f´ısicos A e B respectivamente. As prioris condicionais forament˜ao combinadas comop(θ) = p(φ1)p(θ|φ1) + p(φ2)p(θ|φ2)com p(φ1) = 0, 25 e p(φ2) = 0, 75. Usando as posterioris condicionais obti-das naquele exemplo obtenha a distribui¸c˜ao a posteriori de θ (incondicional).Esboce e comente os gr´aficos das densidades a priori e posteriori.
  38. 38. 34 CAP´ITULO 2. DISTRIBUI¸C ˜OES A PRIORI17. Se X ∼ Binomial Negativa(v, θ) obtenha a priori de Jeffreys para θ.18. Se X ∼ Geometrica(θ) obtenha a priori de Jeffreys para θ.
  39. 39. Cap´ıtulo 3Estima¸c˜aoA distribui¸c˜ao a posteriori de um parˆametro θ cont´em toda a informa¸c˜ao prob-abil´ıstica a respeito deste parˆametro e um gr´afico da sua fun¸c˜ao de densidade aposteriori ´e a melhor descri¸c˜ao do processo de inferˆencia. No entanto, algumasvezes ´e necess´ario resumir a informa¸c˜ao contida na posteriori atrav´es de algunspoucos valores num´ericos. O caso mais simples ´e a estima¸c˜ao pontual de θ onde seresume a distribui¸c˜ao a posteriori atrav´es de um ´unico n´umero, ˆθ. Como veremosa seguir, ser´a mais f´acil entender a escolha de ˆθ no contexto de teoria da decis˜ao.3.1 Introdu¸c˜ao `a Teoria da Decis˜aoUm problema de decis˜ao fica completamente especificado pela descri¸c˜ao dosseguintes espa¸cos:(i) Espa¸co do parˆametro ou estados da natureza, Θ.(ii) Espa¸co dos resultados poss´ıveis de um experimento, Ω.(iii) Espa¸co de poss´ıveis a¸c˜oes, A.Uma regra de decis˜ao δ ´e uma fun¸c˜ao definida em Ω que assume valores em A,i.e. δ : Ω → A. A cada decis˜ao δ e a cada poss´ıvel valor do parˆametro θ podemosassociar uma perda L(δ, θ) assumindo valores positivos. Definimos assim umafun¸c˜ao de perda.Defini¸c˜ao 3.1 O risco de uma regra de decis˜ao, denotado por R(δ), ´e a perdaesperada a posteriori, i.e. R(δ) = Eθ|x[L(δ, θ)].Defini¸c˜ao 3.2 Uma regra de decis˜ao δ∗´e ´otima se tem risco m´ınimo, i.e.R(δ∗) < R(δ), ∀δ. Esta regra ser´a denominada regra de Bayes e seu risco,risco de Bayes.35
  40. 40. 36 CAP´ITULO 3. ESTIMA¸C ˜AOExemplo 3.1 : Um laborat´orio farmaceutico deve decidir pelo lan¸camento oun˜ao de uma nova droga no mercado. ´E claro que o laborat´orio s´o lan¸car´a a drogase achar que ela ´e eficiente mas isto ´e exatamente o que ´e desconhecido. Podemosassociar um parˆametro θ aos estados da natureza: droga ´e eficiente (θ = 1), drogan˜ao ´e eficiente (θ = 0) e as poss´ıveis a¸c˜oes como lan¸ca a droga (δ = 1), n˜ao lan¸caa droga (δ = 0). Suponha que foi poss´ıvel construir a seguinte tabela de perdaslevando em conta a eficiˆencia da droga,eficiente n˜ao eficientelan¸ca -500 600n˜ao lan¸ca 1500 100Vale notar que estas perdas traduzem uma avalia¸c˜ao subjetiva em rela¸c˜ao `agravidade dos erros cometidos. Suponha agora que a incerteza sobre os estadosda natureza ´e descrita por P(θ = 1) = π, 0 < π < 1 avaliada na distribui¸c˜aoatualizada de θ (seja a priori ou a posteriori). Note que, para δ fixo, L(δ, θ) ´e umavari´avel aleat´oria discreta assumindo apenas dois valores com probabilidades π e1 − π. Assim, usando a defini¸c˜ao de risco obtemos queR(δ = 0) = E(L(0, θ)) = π1500 + (1 − π)100 = 1400π + 100R(δ = 1) = E(L(1, θ)) = π(−500) + (1 − π)600 = −1100π + 600Uma quest˜ao que se coloca aqui ´e, para que valores de π a regra de Bayes ser´a delan¸car a droga. N˜ao ´e dif´ıcil verificar que as duas a¸c˜oes levar˜ao ao mesmo risco,i.e. R(δ = 0) = R(δ = 1) se somente se π = 0, 20. Al´em disso, para π < 0, 20temos que R(δ = 0) < R(δ = 1) e a regra de Bayes consiste em n˜ao lan¸car adroga enquanto que π > 0, 20 implica em R(δ = 1) < R(δ = 0) e a regra de Bayesdeve ser de lan¸car a droga.3.2 Estimadores de BayesSeja agora uma amostra aleat´oria X1, . . . , Xn tomada de uma distribui¸c˜ao comfun¸c˜ao de (densidade) de probabilidade p(x|θ) aonde o valor do parˆametro θ ´edesconhecido. Em um problema de inferˆencia como este o valor de θ deve serestimado a partir dos valores observados na amostra.Se θ ∈ Θ ent˜ao ´e razo´avel que os poss´ıveis valores de um estimador δ(X)tamb´em devam pertencer ao espa¸co Θ. Al´em disso, um bom estimador ´e aquelepara o qual, com alta probabilidade, o erro δ(X) − θ estar´a pr´oximo de zero.Para cada possivel valor de θ e cada possivel estimativa a ∈ Θ vamos associaruma perda L(a, θ) de modo que quanto maior a distˆancia entre a e θ maior o
  41. 41. 3.2. ESTIMADORES DE BAYES 37valor da perda. Neste caso, a perda esperada a posteriori ´e dada porE[L(a, θ)|x] = L(a, θ)p(θ|x)dθe a regra de Bayes consiste em escolher a estimativa que minimiza esta perdaesperada.Aqui vamos discutir apenas fun¸c˜oes de perda sim´etricas, j´a que estas s˜ao maiscomumente utilizadas (para outras fun¸c˜oes de perda ver por exemplo (Bernardo& Smith 1994) e O’Hagan 1994). Dentre estas a mais utilizada em problemas deestima¸c˜ao ´e certamente a fun¸c˜ao de perda quadr´atica, definida como L(a, θ) =(a−θ)2. Neste caso, pode-se mostrar que o estimador de Bayes para o parˆametroθ ser´a a m´edia de sua distribui¸c˜ao atualizada.Exemplo 3.2 : Suponha que queremos estimar a propor¸c˜ao θ de itens defeituososem um grande lote. Para isto ser´a tomada uma amostra aleat´oria X1, . . . , Xn deuma distribui¸c˜ao de Bernoulli com parˆametro θ. Usando uma priori conjugadaBeta(α, β) sabemos que ap´os observar a amostra a distribui¸c˜ao a posteriori ´eBeta(α + t, β + n − t) onde t = ni=1 xi. A m´edia desta distribui¸c˜ao Beta ´e dadapor (α + t)/(α + β + n) e portanto o estimador de Bayes de θ usando perdaquadr´atica ´eδ(X) =α + ni=1 Xiα + β + n.A perda quadr´atica ´e as vezes criticada por penalizar demais o erro de esti-ma¸c˜ao. A fun¸c˜ao de perda absoluta, definida como L(a, θ) = |a − θ|, introduzpuni¸c˜oes que crescem linearmente com o erro de estima¸c˜ao e pode-se mostrar queo estimador de Bayes associado ´e a mediana da distribui¸c˜ao atualizada de θ.Para reduzir ainda mais o efeito de erros de estima¸c˜ao grandes podemos con-siderar fun¸c˜oes que associam uma perda fixa a um erro cometido, n˜ao importandosua magnitude. Uma tal fun¸c˜ao de perda, denominada perda 0-1, ´e definida comoL(a, θ) =1 se |a − θ| > ǫ0 se |a − θ| < ǫpara todo ǫ > 0. Neste caso pode-se mostrar que o estimador de Bayes ´e a modada distribui¸c˜ao atualizada de θ. A moda da posteriori de θ tamb´em ´e chamadode estimador de m´axima verossimilhan¸ca generalizado (EMVG) e ´e o mais f´acilde ser obtido dentre os estimadores vistos at´e agora. No caso cont´ınuo devemosobter a solu¸c˜ao da equa¸c˜ao∂p(θ|x)∂θ= 0.
  42. 42. 38 CAP´ITULO 3. ESTIMA¸C ˜AONote que isto equivale a obter a solu¸c˜ao de∂p(x|θ)p(θ)∂θ= 0e n˜ao ´e necess´ario conhecer a express˜ao exata de p(θ|x).Exemplo 3.3 : Se X1, . . . , Xn ´e uma amostra aleat´oria da N(θ, σ2) com σ2conhecido e usarmos a priori conjugada, i.e. θ ∼ N(µ0, τ20 ) ent˜ao a posterioritamb´em ser´a normal e neste caso m´edia, mediana e moda coincidem. Portanto,o estimador de Bayes de θ ´e dado porδ(X) =τ−20 µ0 + nσ−2Xτ−20 + nσ−2.Exemplo 3.4 : No exemplo 3.2 suponha que foram observados 100 itens dosquais 10 eram defeituosos. Usando perda quadr´atica a estimativa de Bayes de θ´eδ(x) =α + 10α + β + 100Assim, se a priori for Beta(1,1), ou equivalentemente U(0, 1), ent˜ao δ(x) = 0, 108.Por outro lado se especificarmos uma priori Beta(1,2), que ´e bem diferente da an-terior, ent˜ao δ(x) = 0, 107. Ou seja, as estimativas de Bayes s˜ao bastante pr´oxi-mas, e isto ´e uma consequˆencia do tamanho amostral ser grande. Note tamb´emque ambas as estimativas s˜ao pr´oximas da propor¸c˜ao amostral de defeituosos 0,1,que ´e a estimativa de m´axima verossimilhan¸ca. Se usarmos perda 0-1 e prioriBeta(1,1) ent˜ao δ(x) = 0, 1.3.3 Estima¸c˜ao por IntervalosVoltamos a enfatizar que a forma mais adequada de expressar a informa¸c˜ao quese tem sobre um parˆametro ´e atrav´es de sua distribui¸c˜ao a posteriori. A principalrestri¸c˜ao da estima¸c˜ao pontual ´e que quando estimamos um parˆametro atrav´es deum ´unico valor num´erico toda a informa¸c˜ao presente na distribui¸c˜ao a posteriori´e resumida atrav´es deste n´umero. ´E importante tamb´em associar alguma infor-ma¸c˜ao sobre o qu˜ao precisa ´e a especifica¸c˜ao deste n´umero. Para os estimadoresvistos aqui as medidas de incerteza mais usuais s˜ao a variˆancia ou o coeficiente devaria¸c˜ao para a m´edia a posteriori, a medida de informa¸c˜ao observada de Fisherpara a moda a posteriori, e a distˆancia entre quartis para a mediana a posteriori.Nesta se¸c˜ao vamos introduzir um compromisso entre o uso da pr´opria dis-tribui¸c˜ao a posteriori e uma estimativa pontual. Ser´a discutido o conceito de
  43. 43. 3.4. ESTIMA¸C ˜AO NO MODELO NORMAL 39intervalo de credibilidade (ou intervalo de confian¸ca Bayesiano) baseado no dis-tribui¸c˜ao a posteriori.Defini¸c˜ao 3.3 C ´e um intervalo de credibilidade de 100(1-α)%, ou n´ıvel de cred-ibilidade (ou confian¸ca) 1 − α, para θ se P(θ ∈ C) ≥ 1 − α.Note que a defini¸c˜ao expressa de forma probabil´ıstica a pertinˆencia ou n˜ao deθ ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada´e a distribui¸c˜ao do parˆametro, ou seja o tamanho do intervalo informa sobre adispers˜ao de θ. Al´em disso, a exigˆencia de que a probabilidade acima possa sermaior do que o n´ıvel de confian¸ca ´e essencialmente t´ecnica pois queremos que ointervalo seja o menor poss´ıvel, o que em geral implica em usar uma igualdade.No entanto, a desigualdade ser´a ´util se θ tiver uma distribui¸c˜ao discreta ondenem sempre ´e poss´ıvel satisfazer a igualdade.Outro fato importante ´e que os intervalos de credibilidade s˜ao invariantes atransforma¸c˜oes 1 a 1, φ(θ). Ou seja, se C = [a, b] ´e um intervalo de credibilidade100(1-α)% para θ ent˜ao [φ(a), φ(b)] ´e um intervalo de credibilidade 100(1-α)%para φ(θ). Note que esta propriedade tamb´em vale para intervalos de confian¸cana inferˆencia cl´assica.´E poss´ıvel construir uma infinidade de intervalos usando a defini¸c˜ao acima masestamos interessados apenas naquele com o menor comprimento poss´ıvel. Pode-semostrar que intervalos de comprimento m´ınimo s˜ao obtidos tomando-se os valoresde θ com maior densidade a posteriori, e esta id´eia ´e expressa matematicamentena defini¸c˜ao abaixo.Defini¸c˜ao 3.4 Um intervalo de credibilidade C de 100(1-α)% para θ ´e de m´ax-ima densidade a posteriori (MDP) se C = {θ ∈ Θ : p(θ|x) ≥ k(α)} onde k(α) ´ea maior constante tal que P(θ ∈ C) ≥ 1 − α.Usando esta defini¸c˜ao, todos os pontos dentro do intervalo MDP ter˜ao den-sidade maior do que qualquer ponto fora do intervalo. Al´em disso, no caso dedistribui¸c˜oes com duas caudas, e.g. normal, t de Student, o intervalo MDP ´eobtido de modo que as caudas tenham a mesma probabilidade. Um problemacom os intervalos MDP ´e que eles n˜ao s˜ao invariantes a transforma¸c˜oes 1 a 1, an˜ao ser para transforma¸c˜oes lineares. O mesmo problema ocorre com intervalosde comprimento m´ınimo na inferˆencia cl´assica.3.4 Estima¸c˜ao no Modelo NormalOs resultados desenvolvidos nos cap´ıtulos anteriores ser˜ao aplicados ao modelonormal para estima¸c˜ao da m´edia e variˆancia em problemas de uma ou mais
  44. 44. 40 CAP´ITULO 3. ESTIMA¸C ˜AOamostras e em modelos de regress˜ao linear. A an´alise ser´a feita com priori con-jugada e priori n˜ao informativa quando ser˜ao apontadas as semelhan¸cas com aan´alise cl´assica. Assim como nos cap´ıtulos anteriores a abordagem aqui ´e in-trodut´oria. Um tratamento mais completo do enfoque Bayesiano em modeloslineares pode ser encontrado em Broemeling (1985) e Box & Tiao (1992).Nesta se¸c˜ao considere uma amostra aleat´oria X1, · · · , Xn tomada da dis-tribui¸c˜ao N(θ, σ2).3.4.1 Variˆancia ConhecidaSe σ2´e conhecido e a priori de θ ´e N(µ0, τ20 ) ent˜ao, pelo Teorema 1.1, a posterioride θ ´e N(µ1, τ21 ). Intervalos de confian¸ca Bayesianos para θ podem ent˜ao serconstru´ıdos usando o fato de queθ − µ1τ1|x ∼ N(0, 1).Assim, usando uma tabela da distribui¸c˜ao normal padronizada podemos obter ovalor do percentil zα/2 tal queP −zα/2 ≤θ − µ1τ1≤ zα/2 = 1 − αe ap´os isolar θ, obtemos queP µ1 − zα/2τ1 ≤ θ ≤ µ1 + zα/2τ1 = 1 − α.Portanto µ1 − zα/2τ1; µ1 + zα/2τ1 ´e o intervalo de confian¸ca 100(1-α)% MDPpara θ, devido `a simetria da normal.A priori n˜ao informativa pode ser obtida fazendo-se a variˆancia da prioritender a infinito, i.e. τ20 → ∞. Neste caso, ´e f´acil verificar que τ−21 → nσ−2e µ1 → x, i.e. a m´edia e a precis˜ao da posteriori convergem para a m´edia e aprecis˜ao amostrais. M´edia, moda e mediana a posteriori coincidem ent˜ao coma estimativa cl´assica de m´axima verossimilhan¸ca, x. O intervalo de confian¸caBayesiano 100(1-α)% ´e dado porx − zα/2 σ/√n; x + zα/2 σ/√ne tamb´em coincide numericamente com o intervalo de confian¸ca cl´assico. Aquientretanto a interpreta¸c˜ao do intervalo ´e como uma afirma¸c˜ao probabil´ıstica sobreθ.
  45. 45. 3.4. ESTIMA¸C ˜AO NO MODELO NORMAL 413.4.2 M´edia e Variˆancia desconhecidasNeste caso, usando a priori conjugada Normal-Gama vista no Cap´ıtulo 2 temosque a distribui¸c˜ao a posteriori marginal de θ ´e dada porθ|x ∼ tn1 (µ1, σ21/c1).Portanto, m´edia, moda e mediana a posteriori coincidem e s˜ao dadas por µ1.Denotando por tα/2,n1 o percentil 100(1-α/2)% da distribui¸c˜ao tn1 (0, 1) podemosobter este percentil tal queP −tα/2,n1 ≤√c1θ − µ1σ1≤ tα/2,n1 = 1 − αe ap´os isolar θ, usando a simetria da distribui¸c˜ao t-Student obtemos queµ1 − tα/2,n1σ1√c1≤ θ ≤ µ1 + tα/2,n1σ1√c1´e o intervalo de confian¸ca Bayesiano 100(1-α)% de MDP para θ.No caso da variˆancia populacional σ2intervalos de confian¸ca podem ser obti-dos usando os percentis da distribui¸c˜ao qui-quadrado uma vez que a distribui¸c˜aoa posteriori de φ ´e tal que n1σ21φ|x ∼ χ2n1. Denotando porχ2α/2,n1e χ2α/2,n1os percentis α/2 e 1−α/2 da distribui¸c˜ao qui-quadrado com n1 graus de liberdaderespectivamente, podemos obter estes percentis tais quePχ2α/2,n1n1σ21≤ φ ≤χ2α/2,n1n1σ21= 1 − α.Note que este intervalo n˜ao ´e de MDP j´a que a distribui¸c˜ao qui-quadrado n˜ao ´esim´etrica. Como σ2= 1/φ ´e uma fun¸c˜ao 1 a 1 podemos usar a propriedade deinvariˆancia e portanton1σ21χ2α/2,n1;n1σ21χ2α/2,n1´e o intervalo de confian¸ca Bayesiano 100(1-α)% para σ2.Um caso particular ´e quanto utilizamos uma priori n˜ao informativa. Vimosna Se¸c˜ao 2.4 que a priori n˜ao informativa de loca¸c˜ao e escala ´e p(θ, σ) ∝ 1/σ,portanto pela propriedade de invariˆancia segue que a priori n˜ao informativa de(θ, φ) ´e obtida fazendo-se p(θ, φ) ∝ φ−1pois p(θ, σ2) ∝ σ−2. Note que este ´e umcaso particular (degenerado) da priori conjugada natural com c0 = 0, σ20 = 0 e
  46. 46. 42 CAP´ITULO 3. ESTIMA¸C ˜AOn0 = −1. Neste caso a distribui¸c˜ao a posteriori marginal de θ ficaθ|x ∼ tn−1(x, s2/n)sendo s2= 1/(n − 1) ni=1(xi − x)2a variˆancia amostral. Mais uma vez m´edia,moda e mediana a posteriori de θ coincidem com a m´edia amostral x que ´e aestimativa de m´axima verossimilhan¸ca. Como√n(θ − x)/s ∼ tn−1(0, 1) segueque o intervalo de confian¸ca 100(1-α)% para θ de MDP ´ex − tα/2,n−1s√n; x + tα/2,n−1s√nque coincide numericamente com o intervalo de confian¸ca cl´assico.Para fazer inferˆencias sobre σ2temos queφ|x ∼ Gaman − 12,(n − 1)s22ou (n − 1)s2φ|x ∼ χ2n−1.A estimativa pontual de σ2utilizada ´e [E(φ|x)]−1= s2que coincide coma estimativa cl´assica uma vez que o estimador de m´axima verossimilhan¸ca(n − 1)S2/n ´e viciado e normalmente substituido por S2(que ´e n˜ao viciado).Os intervalos de confian¸ca 100(1-α)% Bayesiano e cl´assico tamb´em coincidem es˜ao dados por(n − 1)s2χ2α/2,n−1;(n − 1)s2χ2α/2,n−1.Mais uma vez vale enfatizar que esta coincidˆencia com as estimativas cl´as-sicas ´e apenas num´erica uma vez que as interpreta¸c˜oes dos intervalos diferemradicalmente.3.4.3 O Caso de duas AmostrasNesta se¸c˜ao vamos assumir que X11, . . . , X1n1 e X21, . . . , X2n2 s˜ao amostrasaleat´orias das distribui¸c˜oes N(θ1, σ21) e N(θ2, σ22) respectivamente e que asamostras s˜ao independentes.Para come¸car vamos assumir que as variˆancias σ21 e σ22 s˜ao conhecidas. Nestecaso, a fun¸c˜ao de verossimilhan¸ca ´e dada porp(x1, x2|θ1, θ2) = p(x1|θ1)p(x2|θ2)∝ exp −n12σ21(θ1 − x1)2exp −n22σ22(θ2 − x2)2isto ´e, o produto de verossimilhan¸cas relativas a θ1 e θ2. Assim, se assumirmosque θ1 e θ2 s˜ao independentes a priori ent˜ao eles tamb´em ser˜ao independentes a
  47. 47. 3.4. ESTIMA¸C ˜AO NO MODELO NORMAL 43posteriori j´a quep(θ1, θ2|x1, x2) =p(x1|θ1)p(θ1)p(x1)×p(x2|θ2)p(θ2)p(x2).Se usarmos a classe de prioris conjugadas θi ∼ N(µi, τ2i ) ent˜ao as posteriorisindependentes ser˜ao θi|xi ∼ N(µ∗i , τ∗2i ) ondeµ∗i =τ−2i µi + niσ−2i xiτ−2i + niσ−2ie τ∗2i = 1/(τ−2i + niσ−2i ), i = 1, 2.Em geral estaremos interessados em comparar as m´edias populacionais, i.equeremos estimar β = θ1 − θ2 (por exemplo, testar se θ1 = θ2). Neste caso, aposteriori de β ´e facilmente obtida, devido `a independˆencia, comoβ|x1, x2 ∼ N(µ∗1 − µ∗2, τ∗21 + τ∗22 )e podemos usar µ∗1 − µ∗2 como estimativa pontual para a diferen¸ca e tamb´emconstruir um intervalo de credibilidade MDP para esta diferen¸ca.(µ∗1 − µ∗2) ± zα/2 τ∗21 + τ∗22 .Note que se usarmos priori n˜ao informativa, i.e. fazendo τ2i → ∞, i = 1, 2 ent˜aoa posteriori ficaβ|x1, x2 ∼ N x1 − x2,σ21n1+σ22n2e o intervalo obtido coincidir´a mais uma vez com o intervalo de confian¸ca cl´assico.No caso de variˆancias populacionais desconhecidas por´em iguais, temos queφ = σ−21 = σ−22 = σ−2. A priori conjugada pode ser constru´ıda em duas etapas.No primeiro est´agio, assumimos que, dado φ, θ1 e θ2 s˜ao a priori condicionalmenteindependentes, e especificamosθi|φ ∼ N(µi, (ciφ)−1), i = 1, 2.e no segundo est´agio, especificamos a priori conjugada natural para φ, i.e.φ ∼ Gaman02,n0σ202.Combinando as prioris acima n˜ao ´e dif´ıcil verificar que a priori conjunta de
  48. 48. 44 CAP´ITULO 3. ESTIMA¸C ˜AO(θ1, θ2, φ) ´ep(θ1, θ2, φ) = p(θ1|φ)p(θ2|φ)p(φ)∝ φn0/2exp −φ2n0σ20 + c1(θ1 − µ1)2+ c2(θ2 − µ2)2.Al´em disso, tamb´em n˜ao ´e dif´ıcil obter a priori condicional de β = θ1 − θ2, dadoφ, comoβ|φ ∼ N(µ1 − µ2, φ−1(c−11 + c−12 ))e portanto, usando os resultados da Se¸c˜ao 2.3.5 segue que a distribui¸c˜ao a priorimarginal da diferen¸ca ´eβ ∼ tn0 (µ1 − µ2, σ20(c−11 + c−12 )).Podemos mais uma vez obter a posteriori conjunta em duas etapas j´a que θ1 eθ2 tamb´em ser˜ao condicionalmente independentes a posteriori, dado φ. Assim, noprimeiro est´agio usando os resultados obtidos anteriormente para uma amostrasegue queθi|φ, x ∼ N(µ∗i , (c∗i φ)−1), i = 1, 2ondeµ∗i =ciµi + nixici + nie c∗i = ci + ni.Na segunda etapa temos que combinar a verossimilhan¸ca com a priori de(θ1, θ2, φ). Definindo a variˆancia amostral combinadas2p =(n1 − 1)S21 + (n2 − 1)S22n1 + n2 − 2e denotando ν = n1 + n2 − 2, a fun¸c˜ao de verossimilhan¸ca pode ser escrita comop(x1, x2|θ1, θ2, φ) = φ(n1+n2)/2exp −φ2νs2+ n1(θ1 − x1)2+ n2(θ2 − x2)2e ap´os algum algebrismo obtemos que a posteriori ´e proporcional aφ(n0+n1+n2)/2exp −φ2n0σ20 + νs2+2i=1cinic∗i(µi − xi)2+ c∗i (θi − µ∗i )2.Como esta posteriori tem o mesmo formato da priori segue por analogia queφ|x ∼ Gaman∗02,n∗0σ∗202
  49. 49. 3.4. ESTIMA¸C ˜AO NO MODELO NORMAL 45onde n∗0 = n0 + n1 + n2 e n∗0σ∗20 = n0σ20 + νs2+ 2i=1 cini(µi − xi)2/c∗i . Ainda poranalogia com o caso de uma amostra, a posteriori marginal da diferen¸ca ´e dadaporβ|x ∼ tn∗0(µ∗1 − µ∗2, σ∗20 (c∗−11 + c∗−12 )).Assim, m´edia, moda e mediana a posteriori de β coincidem e a estimativapontual ´e µ∗1−µ∗2. Tamb´em intervalos de credibilidade de MDP podem ser obtidosusando os percentis da distribui¸c˜ao t de Student. Para a variˆancia populacionala estimativa pontual usual ´e σ∗20 e intervalos podem ser constru´ıdos usando ospercentis da distribui¸c˜ao qui-quadrado j´a que n∗0σ∗20 φ | x ∼ χ2n∗0Vejamos agora como fica a an´alise usando priori n˜ao informativa. Neste caso,p(θ1, θ2, φ) ∝ φ−1e isto equivale a um caso particular (degenerado) da prioriconjugada com ci = 0, σ20 = 0 e n0 = −2. Assim, temos que c∗i = ni, µ∗i = xi,n∗0 = ν e n∗0σ∗20 = νs2e a estimativa pontual concide com a estimativa de m´aximaverossimilhan¸ca ˆβ = x1 − x2. O intervalo de 100(1 − α)% de MDP para β temlimitesx1 − x2 ± tα2,ν sp1n1+1n2que coincide numericamente com o intervalo de confian¸ca cl´assico.O intervalo de 100(1 − α)% para σ2´e obtido de maneira an´aloga ao caso deuma amostra usando a distribui¸c˜ao qui-quadrado, agora com ν graus de liberdade,i.e.νs2pχ2α2,ν,νs2pχ2α2,ν.3.4.4 Variˆancias desiguaisAt´e agora assumimos que as variˆancias populacionais desconhecidas eram iguais(ou pelo menos aproximadamente iguais). Na inferˆencia cl´assica a viola¸c˜ao destasuposi¸c˜ao leva a problemas te´oricos e pr´aticos uma vez que n˜ao ´e trivial encontraruma quantidade pivotal para β com distribui¸c˜ao conhecida ou tabelada. Naverdade, se existem grandes diferen¸cas de variabilidade entre as duas popula¸c˜oespode ser mais apropriado analisar conjuntamente as consequˆencias das diferen¸casentre as m´edias e as variˆancias. Assim, caso o pesquisador tenha interesse noparˆametro β deve levar em conta os problemas de ordem te´orica introduzidos poruma diferen¸ca substancial entre σ21 e σ22.Do ponto de vista Bayesiano o que precisamos fazer ´e combinar informa¸c˜ao apriori com a verossimilhan¸ca e basear a estima¸c˜ao na distribui¸c˜ao a posteriori. Afun¸c˜ao de verossimilhan¸ca agora pode ser fatorada comop(x1, x2|θ1, θ2, σ21, σ22) = p(x1|θ1, σ21)p(x2|θ2, σ22)
  50. 50. 46 CAP´ITULO 3. ESTIMA¸C ˜AOe vamos adotar prioris conjugadas normal-gama independentes com parˆametros(µi, ci, νi, σ20i) para cada uma das amostras. Fazendo as opera¸c˜oes usuais paracada amostra, e usando a conjuga¸c˜ao da normal-gama, obtemos as seguintesdistribui¸c˜oes a posteriori independentesθi|x ∼ tn∗0i(µ∗i , σ∗20i /c∗i ) e φi|x ∼ Gaman∗0i2,n∗0iσ∗20i2, i = 1, 2.Pode-se mostrar que β tem uma distribui¸c˜ao a posteriori chamada Behrens-Fisher, que ´e semelhante `a t de Student e ´e tabelada. Assim, intervalos decredibilidade podem ser constru´ıdos usando-se estes valores tabelados.Outra situa¸c˜ao de interesse ´e a compara¸c˜ao das duas variˆancias populacionais.Neste caso, faz mais sentido utilizar a raz˜ao de variˆancias ao inv´es da diferen¸caj´a que elas medem a escala de uma distribui¸c˜ao e s˜ao sempre positivas. Nestecaso temos que obter a distribui¸c˜ao a posteriori de σ22/σ21 = φ1/φ2. Usando aindependˆencia a posteriori de φ1 e φ2 e ap´os algum algebrismo pode-se mostrarqueσ∗201σ∗202φ1φ2∼ F(n∗01, n∗02).Embora sua fun¸c˜ao de distribui¸c˜ao n˜ao possa ser obtida analiticamente os val-ores est˜ao tabelados em muitos livros de estat´ıstica e tamb´em podem ser obtidosna maioria dos pacotes computacionais. Os percentis podem ent˜ao ser utilizadosna constru¸c˜ao de intervalos de credibilidade para a raz˜ao de variˆancias.Uma propriedade bastante ´util para calcular probabilidade com a distribui¸c˜aoF vem do fato de que se X ∼ F(ν2, ν1) ent˜ao X−1∼ F(ν1, ν2) por simples inver-s˜ao na raz˜ao de distribui¸c˜oes qui-quadrado independentes. Assim, denotando osquantis α e 1 − α da distribui¸c˜ao F(ν1, ν2) por Fα(ν1, ν2) e Fα(ν1, ν2) respectiva-mente segue queFα(ν1, ν2) =1Fα(ν2, ν1).Note que ´e usual que os livros forne¸cam tabelas com os percentis superiores dadistribui¸c˜ao F para v´arias combina¸c˜oes de valores de ν1 e ν2 devido `a propriedadeacima. Por exemplo, se temos os valores tabelados dos quantis 0,95 podemos obtertamb´em um quantil 0,05. Basta procurar o quantil 0,95 inverterndo os graus deliberdade.Finalmente, a an´alise usando priori n˜ao informativa pode ser feita parap(θ1, θ2, σ21, σ22) ∝ σ−21 σ−22 e ser´a deixada como exerc´ıcio.
  51. 51. 3.5. EXERC´ICIOS 473.5 Exerc´ıcios1. Gere 2 amostras de tamanho 50 da distribui¸c˜ao N(0, 1). Agora construa umintervalo MDP de 95% para a diferen¸ca entre as m´edias (assuma variˆanciaconhecida igual a 1). Qual a sua conclus˜ao?2. Repita a an´alise da Se¸c˜ao 3.4.4 usando priori n˜ao informativa parap(θ1, θ2, σ21, σ22) ∝ σ−21 σ−22 .
  52. 52. Cap´ıtulo 4M´etodos Aproximados4.1 Computa¸c˜ao BayesianaExistem v´arias formas de resumir a informa¸c˜ao descrita na distribui¸c˜ao a poste-riori. Esta etapa frequentemente envolve a avalia¸c˜ao de probabilidades ou esper-an¸cas.Neste cap´ıtulo ser˜ao descritos m´etodos baseados em simula¸c˜ao, incluindoMonte Carlo simples, Monte Carlo com fun¸c˜ao de importˆancia, m´etodos dereamostragem e Monte Carlo via cadeias de Markov (MCMC). O material apre-sentado ´e introdut´orio e mais detalhes sobre os estes m´etodos podem ser obtidospor exemplo em Gamerman (1997), Robert & Casella (1999) e Gamerman &Lopes (2006). Outros m´etodos computacionalmente intensivos como t´ecnicas deotimiza¸c˜ao e integra¸c˜ao num´erica, bem como aproxima¸c˜oes anal´ıticas n˜ao ser˜aotratados aqui e uma referˆencia introdut´oria ´e Migon & Gamerman (1999).Todos os algoritmos que ser˜ao vistos aqui s˜ao n˜ao determin´ısticos, i.e. todosrequerem a simula¸c˜ao de n´umeros (pseudo) aleat´orios de alguma distribui¸c˜ao deprobabilidades. Em geral, a ´unica limita¸c˜ao para o n´umero de simula¸c˜oes s˜ao otempo de computa¸c˜ao e a capacidade de armazenamento dos valores simulados.Assim, se houver qualquer suspeita de que o n´umero de simula¸c˜oes ´e insuficiente,a abordagem mais simples consiste em simular mais valores.4.2 Uma Palavra de CautelaApesar da sua grande utilidade, os m´etodos que ser˜ao apresentados aqui devem seraplicados com cautela. Devido `a facilidade com que os recursos computacionaispodem ser utilizados hoje em dia, corremos o risco de apresentar uma solu¸c˜ao parao problema errado (o erro tipo 3) ou uma solu¸c˜ao ruim para o problema certo.Assim, os m´etodos computacionalmente intensivos n˜ao devem ser vistos comosubstitutos do pensamento cr´ıtico sobre o problema por parte do pesquisador.48
  53. 53. 4.3. O PROBLEMA GERAL DA INFERˆENCIA BAYESIANA 49Al´em disso, sempre que poss´ıvel deve-se utilizar solu¸c˜oes exatas, i.e. n˜aoaproximadas, se elas existirem. Por exemplo, em muitas situa¸c˜oes em que pre-cisamos calcular uma integral m´ultipla existe solu¸c˜ao exata em algumas dimen-s˜oes, enquanto nas outras dimens˜oes temos que usar m´etodos de aproxima¸c˜ao.4.3 O Problema Geral da Inferˆencia BayesianaA distribui¸c˜ao a posteriori pode ser convenientemente resumida em termos deesperan¸cas de fun¸c˜oes particulares do parˆametro θ, i.e.E[g(θ)|x] = g(θ)p(θ|x)dθou distribui¸c˜oes a posteriori marginais quando θ for multidimensional, por exem-plo se θ = (θ1, θ2) ent˜aop(θ1|x) = p(θ|x)dθ2.Assim, o problema geral da inferˆencia Bayesiana consiste em calcular taisvalores esperados segundo a distribui¸c˜ao a posteriori de θ. Alguns exemplos s˜ao,1. Constante normalizadora. g(θ) = 1 e p(θ|x) = kq(θ), segue quek = q(θ)dθ−1.2. Se g(θ) = θ, ent˜ao tˆem-se µ = E(θ|x), m´edia a posteriori.3. Quando g(θ) = (θ − µ)2, ent˜ao σ2= E((θ − µ)2|x), a variˆancia a posteriori.4. Se g(θ) = IA(θ), onde IA(x) = 1 se x ∈ A e zero caso contr´ario, ent˜aoP(A | x) =Ap(θ|x)dθ5. Seja g(θ) = p(y|θ), onde y ⊥ x|θ. Nestas condi¸c˜oes obtemos E[p(y|x)], adistribui¸c˜ao preditiva de y, uma observa¸c˜ao futura.Portanto, a habilidade de integrar fun¸c˜oes, muitas vezes complexas e multi-dimensionais, ´e extremamente importante em inferˆencia Bayesiana. Inferˆenciaexata somente ser´a poss´ıvel se estas integrais puderem ser calculadas analitica-mente, caso contr´ario devemos usar aproxima¸c˜oes. Nas pr´oximas se¸c˜oes iremosapresentar m´etodos aproximados baseados em simula¸c˜ao para obten¸c˜ao dessasintegrais.
  54. 54. 50 CAP´ITULO 4. M´ETODOS APROXIMADOS4.4 M´etodo de Monte Carlo SimplesA id´eia do m´etodo ´e justamente escrever a integral que se deseja calcular comoum valor esperado. Para introduzir o m´etodo considere o problema de calcular aintegral de uma fun¸c˜ao g(θ) no intervalo (a, b), i.e.I =bag(θ)dθ.Esta integral pode ser reescrita comoI =ba(b − a)g(θ)1b − adθ = (b − a)E[g(θ)]identificando θ como uma vari´avel aleat´oria com distribui¸c˜ao U(a, b). Assim,transformamos o problema de avaliar a integral no problema estat´ıstico de es-timar uma m´edia, E[g(θ)]. Se dispomos de uma amostra aleat´oria de tamanhon, θ1, . . . , θn da distribui¸c˜ao uniforme no intervalo (a, b) teremos tamb´em umaamostra de valores g(θ1), . . . , g(θn) da fun¸c˜ao g(θ) e a integral acima pode serestimada pela m´edia amostral, i.e.ˆI = (b − a)1nni=1g(θi).N˜ao ´e dif´ıcil verificar que esta estimativa ´e n˜ao viesada j´a queE(ˆI) =(b − a)nni=1E[g(θi)] = (b − a)E[g(θ)] =bag(θ)dθ.Podemos ent˜ao usar o seguinte algoritmo1. gere θ1, . . . , θn da distribui¸c˜ao U(a, b);2. calcule g(θ1), . . . , g(θn);3. calcule a m´edia amostral g = ni=1 g(θi)/n4. calcule ˆI = (b − a)gExemplo 4.1 : Suponha que queremos calcular31exp(−x)dx. A integral podeser reescrita como(3 − 1)31exp(−x)/(3 − 1)dxe ser´a aproximada usando 100 valores simulados da distribui¸c˜ao Uniforme nointervalo (1,3) e calculando yi = e−xi, i = 1, . . . , 100. O valor aproximado da
  55. 55. 4.4. M´ETODO DE MONTE CARLO SIMPLES 51integral ´e 2 100i=1 yi/100. Por outro lado, sabemos que exp(−x) ´e a fun¸c˜ao dedensidade de uma v.a. X ∼ Exp(1) e portanto a integral pode ser calculada deforma exata,31exp(−x)dx = Pr(X < 3) − Pr(X < 1) = 0.3181.Podemos escrever uma fun¸c˜ao mais geral no R cujos argumentos s˜ao o n´umerode simula¸c˜oes e os limites de integra¸c˜ao.> int.exp = function(n, a, b) {+ x = runif(n, a, b)+ y = exp(-x)+ int.exp = (b - a) * mean(y)+ return(int.exp)+ }Executando a fun¸c˜ao int.exp digamos 50 vezes com n = 10, a = 1 e b = 3existir´a uma varia¸c˜ao consider´avel na estimativa da integral. Veja a Figura 4.1.Isto se chama “erro de Monte Carlo” e decresce conforme aumentamos o n´umerode simula¸c˜oes. Repetindo o experimento com n = 1000 a varia¸c˜ao ficar´a bemmenor. Na Figura 4.2 a evolu¸c˜ao deste erro conforme se aumenta o n´umero desimula¸c˜oes fica bem evidente. Os comandos do R a seguir foram utilizados.> n = c(20, 50, 100, 200, 500)> y = matrix(0, ncol = length(n), nrow = 50)> for (j in 1:length(n)) {+ m = NULL+ for (i in 1:50) m = c(m, int.exp(n[j], 1, 3))+ y[, j] = m+ }> boxplot(data.frame(y), names = n)A generaliza¸c˜ao ´e bem simples para o caso em que a integral ´e a esperan¸camatem´atica de uma fun¸c˜ao g(θ) onde θ tem fun¸c˜ao de densidade p(θ), i.e.I =bag(θ)p(θ)dθ = E[g(θ)]. (4.1)Neste caso, podemos usar o mesmo algoritmo descrito acima modificando o passo1 para gerar θ1, . . . , θn da distribui¸c˜ao p(θ) e calculandoˆI = g =1nni=1g(θi).
  56. 56. 52 CAP´ITULO 4. M´ETODOS APROXIMADOS0.20 0.25 0.30 0.35 0.4002468Figura 4.1: Histograma de 50 estimativas de Monte Carlo da integral no Exemplo4.1 com n = 10.Uma vez que as gera¸c˜oes s˜ao independentes, pela Lei Forte dos GrandesN´umeros segue que ˆI converge quase certamente para I,1nni=1g(θi) → E[g(θ], n → ∞.Al´em disso, temos uma amostra g(θ1), . . . , g(θn) tal queE[g(θi)] = E[g(θ)] = I e V ar[g(θi)] = σ2=1n(g(θi) − ¯g)2e portanto a variˆancia do estimador pode tamb´em ser estimada comov =1n2ni=1(g(θi) − g)2,i.e. a aproxima¸c˜ao pode ser t˜ao acurada quanto se deseje bastando aumentar ovalor de n. ´E importante notar que n est´a sob nosso controle aqui, e n˜ao se tratado tamanho da amostra de dados.O Teorema Central do Limite tamb´em se aplica aqui de modo que para n
  57. 57. 4.4. M´ETODO DE MONTE CARLO SIMPLES 5320 50 100 200 5000.200.250.300.350.40Figura 4.2: Boxplots para 50 estimativas da integral no Exemplo 4.1 com n=20, 50,100, 200, e 500 simula¸c˜oes.grande segue queg − E[g(θ)]√vtem distribui¸c˜ao aproximadamente N(0, 1). Podemos usar este resultado paratestar convergˆencia e construir intervalos de confian¸ca.No caso multivariado a extens˜ao tamb´em ´e direta. Seja θ = (θ1, . . . , θk)′um vetor aleat´orio de dimens˜ao k com fun¸c˜ao de densidade p(θ). Neste caso osvalores gerados ser˜ao tamb´em vetores θ1, . . . , θn e o estimador de Monte CarloficaˆI =1nni=1g(θi)Exemplo 4.2 : Suponha que queremos calcular Pr(X < 1, Y < 1) onde o ve-tor aleat´orio (X, Y ) tem distribui¸c˜ao Normal padr˜ao bivariada com correla¸c˜aoigual a 0,5. Note que esta probabilidade ´e a integral de p(x, y) definida no inter-valo acima, portanto simulando valores desta distribui¸c˜ao poderemos estimar estaprobabilidade como a propor¸c˜ao de pontos que caem neste intervalo. A Figura 4.3apresenta um diagrama de dispers˜ao dos valores simulados e foi obtida usando oscamandos do R abaixo.
  58. 58. 54 CAP´ITULO 4. M´ETODOS APROXIMADOS> Sigma = matrix(c(1, 0.5, 0.5, 1), 2, 2)> m = c(0, 0)> require(MASS)> y = mvrnorm(n = 1000, mu = m, Sigma = Sigma)> plot(y[, 1], y[, 2], xlab = "x", ylab = "y")> abline(1, 0)> abline(v = 1)−3 −2 −1 0 1 2 3−3−2−10123xyFigura 4.3: Diagrama de dispers˜ao de 1000 valores simulados da distribui¸c˜ao N(0,1)bivariada.Uma grande vantagem dos m´etodos de simula¸c˜ao ´e que ap´os uma amostrade vetores aleat´orios ser gerada podemos facilmente calcular caracter´ısticas dasdistribui¸c˜oes marginais e condicionais. No Exemplo 4.2, para calcular Pr(X < 1)basta calcular a frequˆencia relativa de pontos (xi, yi) tais que xi < 1. Paracalcular a probabilidade condicional Pr(X < 1|Y < 1) basta selecionar somenteaqueles pontos cuja segunda coordenada ´e menor do que 1. Depois calcula-se afrequˆencia relativa dos pontos restantes cuja primeira coordenada ´e menor do que1.4.4.1 Monte Carlo via Fun¸c˜ao de ImportˆanciaEm muitas situa¸c˜oes pode ser muito custoso ou mesmo imposs´ıvel simular valoresda distribui¸c˜ao a posteriori. Neste caso, pode-se recorrer `a uma fun¸c˜ao q(θ) queseja de f´acil amostragem, usualmente chamada de fun¸c˜ao de importˆancia. Oprocedimento ´e comumente chamado de amostragem por importˆancia.
  59. 59. 4.4. M´ETODO DE MONTE CARLO SIMPLES 55−4 −2 0 2 40.00.10.20.30.4xp(x)−4 −2 0 2 40.00.10.20.30.4yp(y)−4 −2 0 20.00.10.20.30.4p(x|y<1)−4 −2 0 20.00.10.20.30.4p(y|x<1)Figura 4.4: Estimativas das densidades marginais e condicionais no Exemplo 4.2.Se q(θ) for uma fun¸c˜ao de densidade definida no mesmo espa¸co varia¸c˜ao de θent˜ao a integral (4.1) pode ser reescrita comoI =g(θ)p(θ)q(θ)q(θ)dx = Eg(θ)p(θ)q(θ)onde a esperan¸ca agora ´e com respeito a distribui¸c˜ao q. Assim, se dispomos deuma amostra aleat´oria θ1, . . . , θn tomada da distribui¸c˜ao q o estimador de MonteCarlo da integral acima ficaˆI =1nni=1g(θi)p(θi)q(θi).e tem as mesmas propriedades do estimador de Monte Carlo simples.Em princ´ıpio n˜ao h´a restri¸c˜oes quanto `a escolha da densidade de importˆanciaq, por´em na pr´atica alguns cuidados devem ser tomados. Pode-se mostrar quea escolha ´otima no sentido de minimizar a variˆancia do estimador consiste emtomar q(θ) ∝ g(θ)p(θ).

×