Teoria de estimação

2.561 visualizações

Publicada em

0 comentários
3 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
2.561
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
73
Comentários
0
Gostaram
3
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Teoria de estimação

  1. 1. TEORIA DE ESTIMAÇÃOMANUEL RAMÓN VARGAS AVILACOPPE-UFRJABRIL 2013
  2. 2. 4.2 PROPRIEDADES DOS ESTIMADORES
  3. 3. A qualidade se baseia no erro de estimação.erro de estimação se define como: 𝜃 = 𝜃 − 𝜃Onde 𝜃 = vetor de parâmetros; 𝜃 = estimador.Idealmente -> erro = 0, mas na vida real é impossível. Por esta razão,usam-se critérios menos demandantes na estimação do erro.1. Tendência e consistência: Tendência de um estimador = valor doestimador - verdadeiro valor do parâmetro a estimar.É desejável que um estimador seja não tendencioso ou centrado, isto é,que sua tendência seja nula. O valor esperado do estimador coincide como parâmetro de interesse isto se mostra:Introdução
  4. 4. 1. Tendência e consistênciaE 𝜃 = 𝐸 𝜃 − 𝐸 𝜃 = 0E 𝜃 = 𝐸[𝜃]Esta definição se aplica para parâmetros aleatórios. Em caso contrárioaplica-se𝐸 𝜃|𝜃 = 𝜃Vício: 𝑏 = 𝐸[𝜃] o b = 𝐸 𝜃|𝜃
  5. 5. 1. Tendência e consistênciaConsistência: um estimador é consistente se, na medida em que o tamanho daamostra aumenta seu valor esperado, converge para o parâmetro de interesse e sea variância converge a zero.lim𝑛→∞𝐸 𝜃 = 𝜃lim𝑛→∞𝑉𝑎𝑟(𝜃) = 0Exemplo 4.3Em efeito, si uma amostra X=(X1,X2,...,Xn)tprovem de una população demédia μ, isto é:para qualquer i=1...nA média aritmética é igual a:
  6. 6. 1. Tendência e consistênciaPor exemplo, caso se deseje estimar a média de uma população, a médiaaritmética da amostra é um estimador não viciado da mesma, já que o seuvalor esperado é igual à média da população.Agora ao calcular sua variância𝐸[ 𝑋 − 𝜇 2] =1𝑁2𝐸{𝑁𝑗=1[𝑥 𝑗 − 𝜇2]} =1𝑁2∗ 𝑁 ∗ 𝜎2=𝜎2𝑁Se N >> a infinito a variância se aproxima a 0.
  7. 7. 2. Erro quadrático médio:Tenta-se achar aquele estimador que possua em média o menor errode estimação.Geralmente 𝐿 𝜃 = (𝜃 − 𝜃)2O critério de erro está definido por 𝜀 = 𝐸{ 𝐿 𝜃 } para aleatórios ou𝜀 = 𝐸 𝐿 𝜃 𝜃} para determinísticos.𝜀 = 𝐸{(𝜃 − 𝜃)2}Esta se pode decompor da seguinte forma:𝜀 = 𝐸 𝜃 − 𝜃2= 𝐸 𝜃2− 2 ∗ 𝜃 ∗ 𝜃 + 𝜃2= 𝐸 𝜃2− 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2𝜀 𝜃 = 𝐸 𝜃2− 𝐸 𝜃2+ {𝐸 𝜃2− 2 ∗ 𝜃 ∗ 𝐸 𝜃 + 𝜃2}𝜀 𝜃 = 𝑉𝑎𝑟 𝜃 + 𝑏2
  8. 8. 2. Erro quadrático médio:Em termos da estimação do erro 𝜃𝜀 𝜃 = 𝐸{ 𝜃 − 𝑏2} + 𝑏2Primer termo é a variância da estimação do erro 𝜃. Por tanto o erroquadrático médio mede tanto a variância, como o vicio de um estimador𝜃. Se o estimador é não viciado (un-biesed) o erro quadrático médiocoincide com a variância do estimador.Matriz de covariância da estimação do erro -> medida útil da qualidade de umestimador. Aplica-se para medidas de erro de estimação de parâmetros individuais𝐶 𝜃 = 𝐸 𝜃 ∗ 𝜃 𝑇= 𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃𝑇}O erro quadrático médio se aplica a toda medida do erro escalar para todos osparâmetros estimados.
  9. 9. 3. EficiênciaSendo dois estimadores 𝜃1e 𝜃2, não viciados para um parâmetro 𝜃, sediz que 𝜃1 é mais eficiente que 𝜃2 si 𝑉𝑎𝑟 𝜃1 < 𝑉𝑎𝑟(𝜃2).Um estimador é chamado eficiente se usa otimamente a informaçãocontida nas medições.IMPORTANTE: existe um limite inferior para a matriz de covariância deerro de qualquer estimador baseado em medições disponíveis.Este limite está dado pelo teorema de Cramer Rao do limite inferior, oqual prove um limite inferior para um parâmetro determinísticodesconhecido.
  10. 10. 3. EficiênciaCramer Rao: se 𝜃 = qualquer estimador não viciado de 𝜃 baseado nosdados de medições x, então a matriz covariância de erro no estimadorestá delimitada inferiormente pela inversa da matriz de informação deFisher J.𝐸{ 𝜃 − 𝜃 ∗ 𝜃 − 𝜃𝑇|𝜃} ≥ 𝐽−1Onde 𝐽 = 𝐸𝑑𝑑𝜃𝑙𝑛𝑝 𝑥 𝑇 𝜃𝑑𝑑𝜃𝑙𝑛𝑝 𝑥 𝑇 𝜃𝑇𝜃Assume-se que 𝐽−1existe. As derivadas parciais devem existir e serabsolutamente integráveis.O estimador deve ser não viciado para que se cumpra o teoremaanterior.Não pode ser aplicado a todas as distribuições.Também pode acontecer que não exista nenhum estimador quealcance o limite inferior.
  11. 11. 4. RobustezInsensibilidade a erros de medição, e aos erros na especificação dosmodelos paramétricos.Quando os critérios de otimização crescem muito rápido, geralmentetem pobre robustez, porque uns poucos grandes erros individuaiscorrespondentes aos valores atípicos nos dados podem quaseexclusivamente determinar o valor do critério do erro. No caso deestimação da media, por exemplo, se pode utilizar a mediana dasmedições em lugar da média. Isto corresponde a utilizar o valorabsoluto da função de otimização e resulta em um estimadorsignificativamente robusto: o valor atípico não tem nenhumainfluência.
  12. 12. 4.3 Robustez“O estimador é um estimador robusto do parâmetro se o nãocumprimento dos supostos de partida nos que se baseia a estimação(normalmente, atribuir ao população um determinado tipo de funçãode distribuição que, em realidade, no é a correta), não altera demaneira significativa os resultados que este proporciona.”
  13. 13. 4.3 MÉTODO DOS MOMENTOS
  14. 14. Método dos MomentosEste método com frequência conduz a estimadorescomputacionalmente simples, pero tem algumas debilidades teóricas.Vamos supor agora que há medições escalares T estatisticamenteindependentes ou amostras de dados x(1), x(2),….,x(T) com umadistribuição de probabilidade comum p(x|ѳ) caracterizada peloparâmetro de vector 𝜃 = ( 𝜃1, 𝜃2, … . , 𝜃 𝑚 ) 𝑇.𝛼𝑗 = 𝐸 𝑥 𝑗𝜃 = 𝑥 𝑗𝑝 𝑥 𝜃 𝑑𝑥∞−∞, 𝑗 = 1,2, … …Onde 𝛼𝑗 é o momento no ponto j, os parâmetros 𝜃 são constantes(desconhecidas). Os momentos 𝛼𝑗 são funções dos parâmetros 𝜃.
  15. 15. Método dos MomentosPor outro lado, podem-se estimar os respectivos momentos diretamentedesde as medidas, isto se conhece como momento amostral:𝑑𝑗 =1𝑇[𝑥 𝑖 ] 𝑗𝑇𝑖=1“A ideia básica por trás do método dos momentos é igualar os momentosteóricos 𝛼𝑗 com os estimados 𝑑𝑗 .”𝛼𝑗 𝜃 = 𝛼𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑑𝑗Se a equação anterior tem uma solução aceitável, o respectivo estimadoré chamado estimador de momentos e é denotado por 𝜃 𝑀𝑀.Alternativamente se pode utilizar a teoria central dos momentos𝜇𝑗 = 𝐸{ 𝑥 − 𝛼1𝑗|𝜃}
  16. 16. Método dos MomentosE a respectiva estimação amostral central de momentos𝑠𝑗 =1𝑇 − 1[𝑥𝑇𝑖=1𝑖 − 𝑑1] 𝑗𝜇𝑗 𝜃1, 𝜃2, … . , 𝜃 𝑚 = 𝑠𝑗 , 𝑗 = 1,2, … , 𝑚Exemplo 4.4Assuma agora que x(1),x(2),….,x(T) são amostras independentes eidenticamente distribuídas desde uma variável aleatória x tendo a pdf𝑝 𝑥 𝜃 =1𝜃2exp⁡[−𝑥−𝜃1𝜃2]Onde 𝜃1 < 𝑥 < ∞ y 𝜃2 > 0, desejamos estimar o vector de parâmetro𝜃 = (𝜃1, 𝜃2) 𝑇usando o método dos momentos.
  17. 17. Método dos MomentosPara fazer isto primeiro se calculam os momentos teóricos𝛼1 = 𝐸 𝑥 𝜃 =𝑥𝜃2exp −𝑥 − 𝜃1𝜃2𝑑𝑥 =∞𝜃1𝜃1 + 𝜃2𝛼2 = 𝐸 𝑥2𝜃 =𝑥2𝜃2exp −𝑥 − 𝜃1𝜃2𝑑𝑥 =∞𝜃1(𝜃1 + 𝜃2)2+ 𝜃22Para obter os estimadores igualamos a 𝑑1 y 𝑑2𝜃1 + 𝜃2 = 𝑑1 e (𝜃1 + 𝜃2)2+ 𝜃22= 𝑑2Resolvendo as duas equações:𝜃1,𝑀𝑀 = 𝑑1 − (𝑑2 − 𝑑12)12𝜃2,𝑀𝑀 = (𝑑2 − 𝑑12)12 o 𝜃2,𝑀𝑀 = −(𝑑2 − 𝑑12)12A segunda solução é rejeitada por que 𝜃2deve ser positivo.
  18. 18. Método dos Momentos“Os momentos da amostra 𝑑𝑗 são estimadores consistentes dosrespectivos momentos teóricos 𝛼𝑗 . De forma semelhante, os momentoscentrais da amostra 𝑠𝑗 são estimadores consistentes do verdadeiromomento central 𝜇𝑗 .”Uma desvantagem é que podem ser ineficientes. Não se podem fazerafirmações sobre o vicio e a consistência das estimações dadas pelométodo de momentos.
  19. 19. 4.4 MÉTODO DOS MÍNIMOS QUADRADOS
  20. 20. Método dos Mínimos QuadradosMétodo linear de mínimos quadrados:O vector de dados 𝑥 𝑇 é assumido como: 𝑥 𝑇 = 𝐻𝜃 + 𝑣 𝑇 4.35𝜃 = vector de parâmetros, 𝑣 𝑇 = componentes são os erros de mediçãodesconhecidos 𝑣 𝑗 , 𝑗 = 1, … , 𝑇. A matriz de observação H é assumidacomo conhecida. T é o número de medições e m número de parâmetrosdesconhecidos, assuma 𝑇 ≥ 𝑚. Adicionalmente, a matriz H tem rangomáximo m.Se m=T, 𝑣 𝑇 = 0 e tem uma única solução 𝑥 𝑇 𝐻−1= 𝜃;Se m > T tem soluções infinitas.Medições são ruidosas ou contem erros -> recomenda-se T > m.Se T > m a equação não tem solução para 𝑣 𝑇 = 0 (erros de medição 𝑣 𝑇são desconhecidos), o que se pode fazer é escolher um estimador 𝜃 queminimize os efeitos do erro.
  21. 21. Método dos Mínimos Quadrados𝜀 𝐿𝑆 =12𝑣 𝑇2=12𝑥 𝑇 − 𝐻𝜃 𝑇(𝑥 𝑇 − 𝐻𝜃) 4.36𝜀 𝐿𝑆 tenta minimizar a medida de erro v e não diretamente a estimação doerro 𝜃 − 𝜃Minimizando 𝜀 𝐿𝑆 com relação à 𝜃, leva à chamada equação normal paradeterminar a estimação de mínimos quadrados 𝜃 𝐿𝑆de 𝜃𝐻 𝑇𝐻 𝜃 𝐿𝑆 = 𝐻 𝑇∗ 𝑥 𝑇𝜃 𝐿𝑆 = 𝐻 𝑇∗ 𝑥 𝑇 𝐻 𝑇𝐻 −1= 𝐻+𝑥 𝑇 4.38Por conveniência matemática, considerando o critério de os mínimosquadrados.𝐻+= pseudo inversa de H(assumindo H com máximo rango m,e filas > colunas T>m)Assumindo erro médio 𝐸 𝑣 𝑇 = 0 -> estimador de mínimos quadrados énão viciado 𝐸 𝜃 𝐿𝑆 𝜃 = 𝜃
  22. 22. Método dos Mínimos QuadradosExemplo 4.5Modelo linear para uma curva 𝑦 𝑡 = 𝑎𝑖∅𝑖(𝑡)𝑚𝑖=1 + 𝑣(𝑡) ;∅𝑖(𝑡), i=1,2,…,m,Assuma que estão disponíveis as medidas 𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇Fazendo analogia com a equação de 𝑥 𝑇.Onde o vector de parâmetros: 𝜃 = 𝑎1, 𝑎2, … , 𝑎 𝑚𝑇Vector de dados: 𝑥 𝑇 = [𝑦 𝑡1 , 𝑦 𝑡2 , … , 𝑦 𝑡 𝑇 ] 𝑇Vector 𝑣 𝑇 = [𝑣 𝑡1 , 𝑣 𝑡2 , … , 𝑣 𝑡 𝑇 ] 𝑇Matriz de observação: 𝐻 =∅1(𝑡1) ∅2(𝑡1) ∅ 𝑚 (𝑡1)∅1(𝑡2) ∅2(𝑡2) ∅ 𝑚 (𝑡2)∅1(𝑡 𝑇) ∅2(𝑡 𝑇) ∅ 𝑚 (𝑡 𝑇)Inserindo os valores numéricos em 𝑥 𝑇 e H e computando o método dosmínimos quadrados estimar 𝑎𝑖𝐿𝑆
  23. 23. Método dos Mínimos QuadradosAs funções bases ∅𝑖 𝑡 são escolhidas para satisfazer as condiciones deortogonalidade∅𝑗 (𝑡𝑖)∅ 𝑘(𝑡𝑖)𝑇𝑖=1=1, 𝑗 = 𝑘0, 𝑗 ≠ 𝑘Isto representa as condições dos elementos de H, agora 𝐻 𝑇𝐻 = 𝐼. Istosimplifica a equação a 𝜃 𝐿𝑆 = 𝐻 𝑇∗ 𝑥 𝑇 . Escrevendo esta equação paracada componente de 𝜃 𝐿𝑆 é obtida uma estimação mínima quadrada doparâmetro 𝑎𝑖𝑎𝑖,𝐿𝑠 = ∅𝑖 𝑡𝑗 𝑦 𝑡𝑗 , 𝑖 = 1, … , 𝑚𝑇𝑗=1
  24. 24. Método dos Mínimos QuadradosEstimadores de mínimos quadrados não lineais y generalizadosMínimos quadrados generalizados: os mínimos quadrados pode sergeneralizado + ao critério 4.36 uma matriz de ponderação W, simétrica epositiva.𝜀 𝑊𝐿𝑆 = 𝑥 𝑇 − 𝐻𝜃 𝑇𝑊(𝑥 𝑇 − 𝐻𝜃). W = inversa da matriz pela covariância𝑊 = 𝐶𝑣−1Generalizando 𝜃 𝑊𝐿𝑆 = 𝐻 𝑇𝐶𝑣−1𝑥 𝑇 𝐻 𝑇𝐶𝑣−1𝐻−1(4.46) Estimadorgauss-markov ou o melhor estimador linear no viciado (BLUE) .Note que 4.46 reduz a solução norma dos mínimos quadrados 4.38 se𝐶𝑣 = 𝜎2𝐼.Aplica quando a medida do erro v(j) tem média igual a zero e émutuamente independente e identicamente distribuída com a variância𝜎2ou também se não temos um conhecimento prévio da matriz decovariância 𝐶𝑣.
  25. 25. Método dos Mínimos QuadradosMínimos quadrados não lineares: 4.35 não é adequada para descrever adependência entre 𝜃 y as medidas 𝑥 𝑇. Por conseguinte, considera-se oseguinte modelo não linear: 𝑥 𝑇 = 𝑓 𝜃 + 𝑣 𝑇Onde f é um vector de valores não linear. Cada componente 𝑓𝑖(𝜃) de 𝑓 𝜃é assumido como uma função escalar conhecida pelos componentes de 𝜃.O critério 𝜀 𝑁𝑊𝐿𝑆 é definido como :𝜀 𝑁𝐿𝑆 = 𝑣 𝑇2= 𝑣(𝑗)2𝑗 -> 𝜀 𝑁𝐿𝑆 = [𝑥 𝑇 − 𝑓 𝜃 ] 𝑇[𝑥 𝑇 − 𝑓 𝜃 ]Estimadores de mínimos quadrados não lineais y generalizadosO estimador não linear de mínimos quadrados 𝜃 𝑁𝐿𝑆 é o valor de 𝜃 queminimiza 𝜀 𝑁𝐿𝑆. Estes problemas não se podem solucionar analiticamente,então deve-se usar métodos numéricos iterativos para encontrar omínimo.
  26. 26. 4.5 MÉTODO DE MÁXIMA VEROSIMILITUD(LIKELIHOOD)
  27. 27. Método de máxima verosimilitud (likelihood)O estimador de máxima verosimilitud (ML) assume que os parâmetrosdesconhecidos 𝜃 são constantes ou não há informação previa disponívelsobre eles. O estimador ML tem muitas propriedades de optimizaçãoassintóticas que fazem que seja uma opção desejável especialmentequando o número de amostras é grande.O estimador de máxima verosimilitud 𝜃 𝑀𝐿 do parâmetro de vector 𝜃 éselecionado para ser o valor que maximize a função de verosimilitud𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 1 , 𝑥 2 , … , 𝑥 𝑇 |𝜃) das medidas x(1),x(2),…,x(T).Devido a que muitas funções de densidade contem uma funçãoexponencial, é mais conveniente tratar com o log pela função deverosimilitud ln⁡𝑝(𝑥 𝑇|𝜃).
  28. 28. Método de máxima verosimilitud (likelihood)Equação de verosimilitud:𝛿𝛿𝜃ln 𝑝 𝑥 𝑇 𝜃 | 𝜃=𝜃 𝑀𝐿= 0 4.50.Solução=> estimador de máxima verosimilitudA equação entrega os valores de 𝜃 que maximizam (ou minimizam) afunção de verosimilitud. Se a função é complexa, são obtidos muitosmáximos y mínimos locais, se deve escolher o valor 𝜃 𝑀𝐿 que correspondeao máximo absoluto.Geralmente o método ML se aplica a observações x estatisticamenteindependentes. Logo, a função de verosimilitud é igual a:𝑝 𝑥 𝑇 𝜃 = 𝑝(𝑥 𝑗 |𝜃)𝑇𝑗=1Observe que tomando o logaritmo, o produto se desacopla na suma doslogaritmos ln 𝑝(𝑥(𝑗)|𝜃)𝑗
  29. 29. Método de máxima verosimilitud (likelihood)Na prática, a carga computacional pode ser proibitiva -> usaraproximações para simplificar as equações de verosimilitud o de algunsmétodos de estimação subótimos.Exemplo 4.6: Assumir T observações independentes x(1),…,x(T) de umavariável escalar aleatória x com distribuição gaussiana com média µ evariância 𝜎2. Usando a função de verosimilitud pode ser escrita:𝑝 𝑥 𝑇 𝜇, 𝜎2= 2𝜋𝜎2 −𝑇2exp⁡(−12𝜎2𝑥 𝑗 − 𝜇 2)𝑇𝑗=1Ou, ln 𝑝 𝑥 𝑇 𝜇, 𝜎2= ln 2𝜋𝜎2 −𝑇2exp⁡(−12𝜎2 𝑥 𝑗 − 𝜇 2)𝑇𝑗=1ln 𝑝 𝑥 𝑇 𝜇, 𝜎2= −𝑇2ln 2𝜋𝜎2−12𝜎2𝑥 𝑗 − 𝜇 2𝑇𝑗 =1Ao derivar a função o primeiro termo é zero por que não depende de 𝜇𝛿𝛿𝜇ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2𝑀𝐿 =1𝜎2𝑀𝐿𝑥 𝑗 − 𝜇 𝑀𝐿𝑇𝑗=1= 0
  30. 30. Método de máxima verosimilitud (likelihood)𝑥 𝑗𝑇𝑗=1 − 𝑇𝜇 𝑀𝐿 = 0 ; 𝜇 𝑀𝐿 =1𝑇𝑥 𝑗𝑇𝑗=1Para calcular 𝜎2𝑀𝐿ln 𝑝 𝑥 𝑇 𝜇, 𝜎2= −𝑇2ln 2𝜋 −𝑇2ln 𝜎2−12𝜎2𝑥 𝑗 − 𝜇 2𝑇𝑗=1Resolvendo a derivada o primeiro termo é 0𝛿𝛿𝜎2ln 𝑝 𝑥 𝑇 𝜇 𝑀𝐿, 𝜎2𝑀𝐿 = −𝑇2𝜎2𝑀𝐿+121𝜎2𝑀𝐿2𝑥 𝑗 − 𝜇 2𝑇𝑗=1= 0Assim, 𝜎2𝑀𝐿 =1𝑇𝑥 𝑗 − 𝜇 2𝑇𝑗=1Este último é um estimador viciado pela variância 𝜎2(assintoticamentenão viciado por ser pequeno), enquanto que a média amostral 𝜇 𝑀𝐿 é umestimador não viciado pela média 𝜇.
  31. 31. Método de máxima verosimilitud (likelihood)Propriedades do estimador de máxima verosimilitud:1. Se existe um estimador que satisfaz o limite inferior Cramer-Raocomo uma igualdade, este se pode determinar utilizando o métodode máxima verosimilitud.2. O estimador de máxima verosimilitud 𝜃 𝑀𝐿é consistente.3. O estimador de máxima verosimilitud é assintoticamente eficiente.Isto significa que se alcança assintóticamente o limite inferior deCramer-Rao para a estimação do erro
  32. 32. Método de máxima verosimilitud (likelihood)Exemplo 4.7:Determinar o limite inferior de Cramer-Rao para a média 𝜇 de una variávelaleatória Gaussiana a derivada do log de a função de verosimilitud foideterminada anteriormente𝛿𝛿𝜇ln 𝑝 𝑥 𝑇 𝜇, 𝜎2=1𝜎2𝑥 𝑗 − 𝜇𝑇𝑗 =1Calculamos a informação FisherConsiderando x(j) como independentes
  33. 33. Método de máxima verosimilitud (likelihood)Partindo de 𝐸{ 𝜃 − 𝜃 |𝜃} ≥ 𝐼−1O limite inferior de Cramer-Rao para o erro quadrado médio de qualquerestimador não viciado 𝜇 pela média de densidade gausiana é:𝐸 𝜇 − 𝜇 𝜇 ≥ 𝐼−1=𝜎2𝑇A média amostral satisfaz a desigualdade de Cramer-Rao e é umestimador eficiente para medições gaussianas independentes.
  34. 34. Método de máxima verosimilitud (likelihood)O algoritmo de máxima expectativa (EM) permite o tratamento deproblemas complexos de máxima verosimilitud que tem váriosparâmetros e funções de alta não linearidade.A desvantagem do EM é que pode permanecer travado em um máximolocal ou sofrer de problemas de singularidade. Em contexto com métodosICA o algoritmo EM tem sido utilizado para estimar densidadesdesconhecidas de fontes de sinales.O algoritmo EM (Expectation Maximization) começa adivinhando osparâmetros das distribuições e os usa para calcular as probabilidades deque cada objeto pertença a um cluster e usa essas probabilidades paracalcular de novo os parâmetros das probabilidades, até convergir. Ocálculo das probabilidades é a parte de expectation. A etapa de calcular osvalores dos parâmetros das distribuições, é maximization.
  35. 35. 4.6 ESTIMAÇÃO BAYESIANA
  36. 36. Estimação BayesianaOs métodos anteriores assumem 𝜃 = constantes determinísticas. Nestemétodo 𝜃 é assumido como um valor aleatório. Esta aleatoriedade émodelada usando a função de densidade de probabilidade previa 𝑝 𝜃 (𝜃),esta se assume como conhecida. Na prática não há nenhuma informaçãoimportante do parâmetro, mas pode assumir alguma forma útil dadensidade previa.A essência é a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) dos parâmetros 𝜃conhecendo os dados 𝑥 𝑇, basicamente a densidade posterior contemtoda a informação relevante dos parâmetros 𝜽.Para escolher um parâmetro de estimação especifico 𝜃 se pode realizarmediante dos métodos critério de erro quadrático médio ou escolher omáximo da densidade posterior.
  37. 37. Estimação BayesianaEstimador de erro quadrático médio mínimo para parâmetrosaleatórios𝜃 𝑀𝑆𝐸 é selecionado minimizando 𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃2com respeito aoestimador 𝜃.Teorema 4.2:Assumir que os parâmetros 𝜃 e as observações 𝑥 𝑇 tem um conjunto defunção de densidade de probabilidade 𝑝 𝜃,𝑥(𝜃, 𝑥 𝑇) .𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇 4.67𝜀 𝑀𝑆𝐸 pode ser calculado em 2 etapas. Primeiro o valor esperado é avaliadosó com respeito a 𝜃, e depois respeito à medição do vector x:𝜀 𝑀𝑆𝐸 = 𝐸 𝜃 − 𝜃2= 𝐸𝑥 𝐸 𝜃 − 𝜃2|𝑥 𝑇𝐸 𝜃 − 𝜃2|𝑥 𝑇 = 𝜃 𝑇𝜃 − 2𝜃 𝑇𝐸 𝜃|𝑥 𝑇 + 𝐸 𝜃 𝑇𝜃|𝑥 𝑇
  38. 38. Estimação BayesianaEstimador de erro quadrático médio mínimo para parâmetrosaleatóriosObservando que 𝜃 é uma função das observações 𝑥 𝑇, de modo que elepode ser tratado como um vector não aleatório quando se calcula o valoresperado condicional. Derivando a equação anterior em relação a 𝜃 oresultado é2𝜃 𝑀𝑆𝐸 − 2𝐸 𝜃|𝑥 𝑇 = 0𝜃 𝑀𝑆𝐸 = 𝐸 𝜃|𝑥 𝑇𝐸{𝜃 𝑀𝑆𝐸 } = 𝐸𝑥 𝐸 𝜃|𝑥 𝑇 = 𝐸{𝜃}Este resultado é válido para todas as distribuições nas quais o conjunto dedistribuição 𝑝 𝜃|𝑥(𝜃|𝑥) existe, e mantém-se inalterada se uma matriz deponderação é adicionada ao critério.
  39. 39. Estimação BayesianaEstimador de erro quadrático médio mínimo para parâmetrosaleatóriosNa prática este cálculo é difícil de fazer devido a que só se conhece o seassume a distribuição previa 𝑝 𝜃 (𝜃) e a distribuição condicional dasobservações 𝑝 𝑥|𝜃 (𝑥|𝜃) dado el parâmetro 𝜃.Na construção do estimador ótimo 4.67, primeiro se calculaa a densidadeposterior de Bayes: 𝑝 𝜃|𝑥 𝜃 𝑥 =𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃)𝑝 𝑥 (𝑥 𝑇)4.71Onde 𝑝𝑥 𝑥 𝑇 = 𝑝 𝑥|𝜃 𝑥 𝑇 𝜃 𝑝 𝜃 𝜃 𝑑𝜃∞−∞4.72Só em casos especiais pode-se obter analiticamente o valor de 4.67, porexemplo, se o estimador 𝜃 é restringido a ser uma função linear dos dados𝜃 = 𝐿𝑥 𝑇 e quando o conjunto de densidade de probabilidade é gaussiana.
  40. 40. Estimação BayesianaFiltro WienerConsidere o seguimento de um problema de filtro linear.𝑧 = [𝑧1, 𝑧2, … , 𝑧 𝑚 ] 𝑇𝑤 = [𝑤1, 𝑤2, … , 𝑤 𝑚 ] 𝑇Um vector de peso m-dimensional com pesos ajustáveis 𝑤𝑖, 𝑖 = 1, … , 𝑚operando linearmente em z, a saída do filtro é:𝑦 = 𝑤 𝑇𝑧No filtro Wiener, a meta é determinar o filtro linear que minimize o erroquadrático médio.
  41. 41. Estimação BayesianaFiltro Wiener𝜀 𝑀𝑆𝐸 = 𝐸 𝑦 − 𝑑 2Entre a resposta desejada d e a saída Y do filtro. Calculando:𝜀 𝑀𝑆𝐸 = 𝐸 𝑤 𝑇𝑧 − 𝑑 2= 𝑤 𝑇𝐸 𝑧𝑧 𝑇𝑤 − 2𝑤 𝑇𝐸{𝑧𝑑} + 𝐸{𝑑2}𝜀 𝑀𝑆𝐸 = 𝑤 𝑇𝑅𝑧 𝑤 − 2𝑤 𝑇𝑟𝑧𝑑 + 𝐸{𝑑2}Rz é a matriz de correlação de dados e 𝑟𝑧𝑑 é o vector correlação cruz entreo vector dados z e a resposta desejada d. Minimizando o erro quadráticomédio com relação a w provê a solução ideal do filtro Wiener 𝑤 𝑀𝑆𝐸 =𝑅 𝑧−1𝑟𝑧𝑑 . El filtro Wiener é usualmente calculado diretamente resolvendoa equação linear.𝑅 𝑧 𝑤 𝑀𝑆𝐸 = 𝑟𝑧𝑑Na prática 𝑅 𝑧 e 𝑟𝑧𝑑 são desconhecidos.
  42. 42. Estimação BayesianaEstimador Máximo a posteriori (MAP)O estimador MAP 𝜃 𝑀𝐴𝑃 é definido como o valor do parâmetro do vector 𝜃que maximiza a densidade posterior 𝑝 𝜃|𝑥(𝜃|𝑥 𝑇) de 𝜃dadas las medidas𝑥 𝑇. O estimador MAP pode ser interpretado como o valor mais prováveldo vector de parâmetro 𝜃para los dados disponíveis 𝑥 𝑇. Partindo de 4.72como não depende do parâmetro 𝜃 e normalizando 4.71𝑝 𝜃|𝑥 𝜃 𝑥 = 𝑝 𝑥|𝜃 (𝑥 𝑇|𝜃)𝑝 𝜃 (𝜃)Para encontrar o estimador MAP é suficiente com encontrar o valor de𝜃 que maximiza 4.71. O estimador MAP 𝜃 𝑀𝐴𝑃se pode encontrarresolvendo a equação logarítmica de verosimilitud𝛿𝛿𝜃ln 𝑝(𝜃, 𝑥 𝑇) =𝛿𝛿𝜃ln 𝑝( 𝑥 𝑇 𝜃 +𝛿𝛿𝜃ln 𝑝(𝜃) = 0
  43. 43. Estimação BayesianaSe a densidade 𝑝 𝜃 é uniforme para valores de 𝜃 para os quais 𝑝(𝑥 𝑇|𝜃)é >0, aqui o MAP e o estimador de máxima verosimilitud são os mesmos.Isto acontece quando não se dispõe de informação preliminar dosparâmetros 𝜃. Quando a densidade preliminar é não uniforme, oestimador MAP e o ML são diferentes.Exemplo 4.8Assuma que tem T observações independentes x(1),…,x(T), sendo x umaquantidade escalar aleatória com distribuição guassiana, tendo por média𝜇 𝑥 e variância 𝜎2𝑥. O 𝜇 𝑥 é uma variável aleatória gaussiana com médiaigual a zero e variância 𝜎2𝜇 . Se assume que as variâncias são conhecidas.Da equação de verosimilitud para estimadores MAP :𝜇 𝑀𝐴𝑃 =𝜎2𝜇𝜎2𝑥 + 𝑇𝜎2𝜇𝑥(𝑗)𝑇𝑗=1Para o caso onde não se tem informação preliminar de 𝜇 se pode modelar𝜎2𝜇 tendendo a infinito, refletindo a incerteza de 𝜇
  44. 44. Estimação Bayesiana𝜇 𝑀𝐴𝑃 =1𝑇𝑥(𝑗)𝑇𝑗=1O estimador MAP tende à média amostral, coincidindo com o ML. Se Ttende a infinito se obtêm o mesmo resultado, isto demostra que ainfluencia da informação preliminar decresce com o aumento dasmedições.Se 𝜎2𝑥 ≫ 𝜎2𝜇 , o numero de amostras T cresceria muito até que o MAP seaproxime ao valor limite. Em caso contrario o MAP convergiriarapidamente.O método de MAP tem vantagem sobre o método de ML devido a queconsidera a informação previa dos parâmetros, porém écomputacionalmente mais difícil de determinar devido a um segundotermo que aparece na equação de probabilidade. Por outra parte, tanto oML e o MAP se obtêm das equações de probabilidade, evitando asintegrações geralmente difíceis necessárias no cálculo da média mínimado estimador quadrado. O MAP apresenta bons resultados na prática.

×