Redes Neurais: Estimação de Densidades

515 visualizações

Publicada em

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
515
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
10
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Redes Neurais: Estimação de Densidades

  1. 1. Estimação de Densidades Renato Vicente rvicente@if.usp.br10/01, mpmmf, IME/FEA – USP
  2. 2. Estimação de DensidadesMétodos ParamétricosMétodos de Núcleo (Kernel Methods)Misturas de DistribuiçõesAlgoritmo EM
  3. 3. Métodos ParamétricosUma forma funcional p ( x | θ ) específica, parametrizada por θé assumida para a densidade de probabilidade..Na ausência de dados há uma incerteza com relação ao valor dos parâmetros representada pela distribuição a priori p (θ )Uma vez os dados D são observados, nossa idéia sobre quaisparâmetros melhor ajustam os dados é modificada para o posterior p (θ | D) 0 .8 0 .7 0 .6 p(θ⏐ D) 0 .5 0 .4 0 .3 0 .2 0 .1 p(θ) 0 -1 0 -5 0 5 10 θ
  4. 4. Métodos ParamétricosA densidade que se deseja inferir a partir dos dados D é p( x | D)Considerando a parametrização p ( x | D) = ∫ p ( x,θ | D) dθ = ∫ p ( x | θ , D) p (θ | D) dθ =∫ p( x | θ ) p (θ | D) dθ densidade assumida posterior = a priori atualizado
  5. 5. Métodos ParamétricosO posterior pode ser obtido do a priori via Teorema deBayes: p( D | θ ) p (θ | D) = p (θ ) ∫ p( D | θ ′) p(θ ′) dθ ′Assumindo independência entre cada uma das amostrasdo conjunto de dados D a verossimilhança pode serfatorada: N p ( D | θ ) = ∏ p ( xn | θ ) n =1
  6. 6. Métodos Paramétricos θ O a priori p ( ) pode ser escolhido utilizando critérios de tratabilidade das integrais ou critérios informacionais. Se o a priori e o posterior estiverem na mesma família o a priori é dito conjugado. A densidade p (θ | D) pode ser utilizada como novo a priori e atualizada com um novo dado xN+1 segundo: p ( D, xN +1 | θ )p (θ | D, xN +1 ) = p (θ | D) ∫ p( D, xN +1 | θ ′) p(θ ′ | D) dθ ′
  7. 7. Exemplo: Estimação Bayesiana em 1DSuponhamos um conjunto de dados D = {x1 , , xN }Assumimos que os dados são gerados de forma independentecom distribuição gaussiana com desvio padrão σconhecido.Queremos inferir a média m.Assim p ( x D ) = ∫ p ( x | m) p (m | D ) dm 1 1 − ( x − m )2 p ( x m) = 2σ 2Onde assumimos que e 2πσ 2
  8. 8. Exemplo Assumimos a seguinte estrutura para a densidade a priori: 1 − ( m − m0 ) 2 1 2σ 0 p ( m) = 2 e 2πσ 2 0 A densidade posterior para o parâmetro m após aapresentação dos dados é N ∏ p( x n | m) p(m | D) = n =1 N p ( m) ∫ p(m′)∏ p( x n =1 n | m′) dm′
  9. 9. ExemploIntegral necessária para a avaliação da distribuição inferida somenteenvolve gaussianas e é, portanto, trivial, resultando em: Nσ 0 ⎛ 1 2 N ⎞ σ2 mN = Nσ 0 + σ 2 ⎜ N 2 ⎝ ∑ xn ⎟ + Nσ 2 + σ 2 m0 n =1 ⎠ 0 1 N 1 = + σN 2 σ2 σ0 2 12 10 8 ) N=50 N D 6 ⏐ m ( P 4 2 N=5 N=0 N=1 0 -3 -2 -1 0 1 2 3 m
  10. 10. Métodos de KernelA probabilidade de que um vetor x, amostrado de umadensidade p(x) desconhecida, caia em uma região R doespaço dos vetores é P = ∫ p (x′) d x′ RA probabilidade de que em N amostras, K estejam em R é ⎛N⎞ K PN ( K ) = ⎜ ⎟ P (1 − P ) N − K ⎝K⎠ ⎡K ⎤ P= E⎢ ⎥Um estimador para a probabilidade de R é ⎣N ⎦
  11. 11. Métodos de KernelA variância em torno deste estimador é ⎡⎛ K ⎞ ⎤ P(1 − P) 2 E ⎢⎜ − P ⎟ ⎥ = ⎯⎯⎯ 0 N →∞ → ⎢⎝ N ⎣ ⎠ ⎥⎦ N KAssim P N P = ∫ p (x′) dx′ p (x)V R Mas P K p ( x) = V NV
  12. 12. Janela de Parzen ⎧ 1 ⎪1 se u j < , j = 1,..., dH (u) = ⎨ 2 X ⎪ ⎩ 0, c.c. h N ⎛x−x ⎞ n K = ∑H ⎜ ⎟ n =1 ⎝ h ⎠ K 1 1 ⎛ x − xn ⎞ N p ( x) = = ∑ d H⎜ ⎟ NV N n =1 h ⎝ h ⎠
  13. 13. Mixture Models Mp (x) = ∑ Pj p (x | j ) j =1M∑wj =1 j =1 ⎧ x−μ 2 ⎫ 1 ⎪ ⎪p(x | j ) = exp ⎨− j ⎬ d ⎪ 2σ j 2 ⎪ (2πσ j ) 2 2 ⎩ ⎭
  14. 14. Mixture ModelsOs parâmetros μ j e σ j podem ser inferidosminimizando uma função erro (maximizando averossimilhança) N E ( μ j , σ j ) = −∑ ln p(x n ) n =1 N M = −∑ ln ∑ Pj p (x n | j ) n =1 j =1
  15. 15. Algoritmo EMA variação da função erro pode ser escrita : ⎛ P ′( x n ) ⎞ ΔE = − ∑ ln ⎜ ⎜ P (x ) ⎟ ⎟ n ⎝ n ⎠ ⎛ Pj′ P ′( x n | j ) P ( j | x n ) ⎞ = − ∑ ln ⎜ ∑ ⎜ j ⎟ n ⎝ P ( xn ) P( j | xn ) ⎟ ⎠Utilizando a desigualdade de Jensen ⎛ ⎞ ln ⎜ ∑ λ j x j ⎟ ≥ ∑ λ j ln( x j ) ⎝ j ⎠ j
  16. 16. Algoritmo EM ⎛ 1 P( j | x n ) ⎞ΔE = −∑ ln ⎜ ∑ Pj′ P′(xn | j ) P( j | x ) ⎟ ⎜ P (x ) j ⎟ n ⎝ n n ⎠ ⎛ Pj′ P′(x n | j ) ⎞ ≤ −∑∑ P ( j | x n ) ln ⎜ ⎜ P ( x ) P( j | x ) ⎟ ⎟ n j ⎝ n n ⎠O erro pode ser minimizado através da minimização de um upper bound para o erro com parâmetros novos: E′ ≤ E + Q Q ≡ −∑∑ P ( j | x n ) ln ( Pj′ P′(x n | j ) )Com n j
  17. 17. E-stepSe o modelo for uma mistura de gaussianas ⎡ x n − μ ′j ⎤ Q ≡ −∑∑ P( j | x n ) ⎢ln ( Pj′ ) − d ln(σ ′j ) − ⎥ ⎢ 2σ ′j ⎥ n j ⎣ ⎦ Assume-se uma distribuição Pj e um conjunto de parâmetros iniciais e calcula-se a esperança acima.
  18. 18. M-StepMinimiza-se o upper bound dado por Q sujeito ao vínculo ∑ P′ = 1 j jImposto pela introdução de um multiplicador de Lagrange: ⎡N ⎤ ∂ϕ ϕ = Q + λ ⎢ ∑ Pj ⎥ =0⇒λ = N ⎣ j =1 ⎦ ∂Pj
  19. 19. M-Step Equações de extremo em relação aos outros parâmetros fornecem: ∑ P( j | x ) x − μ ′ 2 ∂ϕ n n j = 0 ⇒ (σ ′ ) = 12 n ∂σ ′ ∑ P( j | x ) j j d n n∂ϕ 1∂Pj′ = 0 ⇒ Pj′ = N ∑ P( j | x n n ) ∂ϕ ∑ P( j | x )x n n = 0 ⇒ μ′ = n ∂μ ′ ∑ P( j | x ) j j n n
  20. 20. BibiliografiaBishop, Neural Networks for Pattern Recognition, Cap 2Bayesian Theory(Wiley Series in Probability and Statistics)Jose M. Bernardo, Adrian F. M. Smith

×