O documento descreve o algoritmo EM, que é um método para encontrar o estimador de máxima verossimilhança para parâmetros de distribuições de probabilidade em dados incompletos. O algoritmo consiste em duas etapas, Expectation (E) e Maximization (M), que iteram entre gerar dados completos esperados e reestimar os parâmetros com esses dados. O algoritmo é aplicado em problemas como clustering, reconhecimento de padrões e modelos ocultos de Markov.
2. Introdução
Algoritmo EM definição:
Trata-se de um método geral para encontrar o estimador de
máxima verossimilhança dos parâmetros de uma distribuição
de probabilidades. A situação em que o algoritmo EM prova
sua potência é nos problemas de dados incompletos, onde a
estimação de máxima verossimilhança resulta difícil devido a
ausência de alguma parte dos dados.
É usado em problemas de: clustering, reconhecimento de
padrões, modelos ocultos de Markov, entre outros. Aplicações
em quase todos os contextos estatísticos e em quase todos os
campos onde técnicas estatísticas foram aplicadas: imagens
médicas, exames de correção, a epidemiologia, e treinamento
de redes neurais artificiais, entre outros.
3. O algoritmo EM consiste em duas etapas: etapa-
E e etapa-M. A etapa-E é para gerar dados para
conseguir um problema de dados completos,
usando o conjunto de dados observados do
problema de dados incompletos e o valor atual
dos parâmetros, de modo que o cálculo da
etapa-M seja mais simples ao poder ser aplicado
a este conjunto de dados completo e retangular.
4. Derivação do algoritmo EM
Para isto é utilizado o logaritmo da
equação de verossimilhança
X vetor aleatório de uma
família parametrizada.
6. Derivação do algoritmo EM
• Supõe-se que o conhecimento das
variáveis ocultas fará que a maximização da
função é mais fácil.
• Z vetor aleatório oculto e elementos z, a
probabilidade total em termos de z é:
• Equação 3
21. Exemplo #2: Mistura de gaussianas
Suma ponderada de K gaussianas
Onde
Parâmetros a estimar
22. Exemplo #2: Mistura de gaussianas
Se X é um conjunto de n mostras I.I.D
Então
23. Dadas n mostras i.i.d
Tomadas de uma mistura
De gaussianas com
parâmetros:
Definimos a probabilidade de que a i-ésima mostra faz parte da j-ésima gaussiana como
Satisfaze