Curso de Inteligência Artificial - Parte 3 -

1.268 visualizações

Publicada em

Curso de Inteligência Artificial - Parte 3 -

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
1.268
No SlideShare
0
A partir de incorporações
0
Número de incorporações
630
Ações
Compartilhamentos
0
Downloads
66
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Curso de Inteligência Artificial - Parte 3 -

  1. 1. Incerteza, Cap 13 Ronaldo F. Ramos, Dr. ronaldo@cefet-ce.br Adaptado de : aima.cs.berkeley.edu
  2. 2. Roteiro ! Incerteza ! Probabilidade ! Sintaxe e Semântica ! Inferência ! Independência e regra de Bayes
  3. 3. Incerteza Seja a ação At = seguir para o aeroporto chegando t minutos antes do vôo Esta ação At nos deixará pontualmente? Problemas: 1. observalidade parcial (estado da rodovia, planos de outros motoristas, etc.) 2. sensores de ruído (relatórios com situação do tráfego) 3. incerteza nos resultados das ações (pneu furado, etc.) 4. complexidade excessiva da modelagem e previsão do tráfego. Consequentemente uma abordagem puramente lógica poderia: 1. correr risco de falsa afirmativa: “A25 me deixará à tempo no aeroporto”, ou 2. levará a conclusões muitos fracas para tomada de decisões: “A25 me deixará lá a tempo se não houver acidentes na ponte, se não chover e meus pneus permanecerem intactos etc etc.” (A1440 pode ser dito razoavelmente que chegarei a tempo, mas eu teria que permanecer a noite toda no aeroporto …)
  4. 4. Métodos para tratamento da Incerteza ! Logica Default ou não monotônica: ! Assumir que meu carro não terá um pneu furado ! Assumir que A25 funcionará a não ser que seja contradita pela evidência ! Questões: Que suposições são razoáveis? Como tratar contradições? ! Regras com graus fictícios: ! A25 |→0.3 chegar a tempo ! Irrigador |→ 0.99 GramaMolhada ! GramaMolhada |→ 0.7 Chuva ! Questões: Problemas com combinações, ex., Irrigador causa chuva?? ! Probabilidade ! Modela o grau de crença do agente ! Dada uma evidência disponível, ! A25 me deixará a tempo com probabilidade 0.04
  5. 5. Probabilidade Assertivas probabilisticas sumarizam os efeitos de : ! Preguiça: falha em enumerar exceções, qualificações, etc. ! Ignorância: falta de fatos relevantes, condições iniciais, etc. Probabilidade Subjetiva: ! Probabilidades relatam proposições sobre o estado de conhecimento do agente ! ex. P(A25 | não houve acidentes) = 0.06 Isto não são afirmações sobre o mundo. Probabilidades de proposições podem mudar de acordo com novas evidências: ex., P(A25 | não houve acidentes as 5h)= 0.15
  6. 6. Tomando decisões em face da incerteza Suponha que acreditemos que: P(A25 me deixará a tempo| …) = 0.04 P(A90 me deixará a tempo|…) = 0.70 P(A120 me deixará a tempo| …) = 0.95 P(A1440 me deixará a tempo| …) = 0.9999 ! Que ação devo escolher? Dependerá de minhas preferências por vôos não disponíveis vc tempo gasto esperando, etc. ! Teoria da Utilidade é usada para representar e inferir preferências ! Teoria da Decisão = Teoria da Probabilidade + Teoria da Utilidade
  7. 7. Sintaxe ! Elemento Básico: variável aleatória ! Semelhante a logica proposicional: mundos possíveis definidos pela atribuição de valores a variáveis aleatórias. ! Variables aleatórias booleanas ex., Cárie (tenho cárie?) ! Variáveis aleatórias discretas ex., Tempo pode ser: <ensolarado,chovendo,nublado,nevando> ! Valores de domínios devem ser exautivos e mutuamente exclusivos ! Proposição elementar construída pela atribuição de um valor a A ! Proposições complexas formadas a partir de proposições elementares e conectivos lógicos padrões. ex. Tempo = ensolarado ∨ Cárie = falso variável aleatória: ex., Tempo = ensolarado, Cárie = falso (abreviado como cárie)
  8. 8. Sintaxe ! Evento Atômico: Uma especificação completa do estado do mundo sobre o qual o agente é incerto ! Ex. Se o mundo consiste de apenas duas variáveis aleatórias booleanas Cárie e DorDeDente, então existem 4 possíveis eventos atômicos: Cárie = falso ∧ DorDeDente = falso Cárie = falso ∧ DorDeDente = verdade Cárie = verdade ∧ DorDeDente = falso Cárie = verdade ∧ DorDeDente = verdade ! Eventos atômicos são mutualmente exclusivos e exaustivos
  9. 9. Axiomas da Probabilidade ! Para quaisquer proposições A, B ! 0 ≤ P(A) ≤ 1 ! P(verdade) = 1 e P(falso) = 0 ! P(A ∨ B) = P(A) + P(B) - P(A ∧ B)
  10. 10. Probabilidade a Priori ! Probabilidade a priori ou probabilidade incondicional de proposições ex., P(Cárie = verdade) = 0.1 e P(Tempo = ensolarado) = 0.72 corresponde a uma crença inicial antes da chegada de qualquer evidência nova. ! Distribuição de Probabilidade dá valores para todas possíveis atribuições: P(Tempo) = <0.72,0.1,0.08,0.1> (normalizado, i.e., soma é 1) ! Distribuição de probabilidade conjunta para um conjunto de variáveis aleatórias dá a probabilidade de todos os eventos sobre estas variáveis ! Ex. P(Tempo,Cárie) = uma matriz 4 × 2 de valores: Tempo = sol chuva nuvens neve Cárie = verdade 0.144 0.02 0.016 0.02 Cárie = falso 0.576 0.08 0.064 0.08 ! Toda questão a cerca do domínio pode ser respondida pela distribuição de probabilidade conjunta
  11. 11. Probabilidade Condicional ! Probabilidade Condicional ou posterior ! ex.P(cárie | dordedente) = 0.8 i.e., dado que dordedente é tudo o que sei. ! Se sabemos mais, ex. que cárie é dada. Então temos: P(cárie | dordedente,cárie) = 1 ! Novas evidências podem ser irrelevantes, permitindo a simplificação, ex., P(cárie| dordedente, ensolarado) = P(cárie| dordedente) = 0.8 ! Este tipo de inferência, sancionada pelo conhecimento do domínio é crucial
  12. 12. Probabilidade Condicional ! Definição. P(a | b) = P(a ∧ b) / P(b) se P(b) > 0 ! A regra do produto dá uma formulação alternativa: P(a ∧ b) = P(a | b) P(b) = P(b | a) P(a) ! Uma versão geral serve para distribuições inteiras. Ex., P(Tempo,Cárie) = P(Tempo | Cárie) P(Cárie) ! (Visto como um conjunto de 4 × 2 equações, não é multiplicação de matrizes) ! Regra da Cadeia é derivada por sucessivas aplicações da regra do produto: P(X1, …,Xn) = P(X1,...,Xn-1) P(Xn | X1,...,Xn-1) = P(X1,...,Xn-2) P(Xn-1 | X1,...,Xn-2) P(Xn | X1,...,Xn-1) = … = πi=n 1 P(Xi | X1, … ,Xi-1)
  13. 13. Inferência por enumeração ! Começa com a distribuição de probabilidade conjunta: DordeDente ~DordeDente Boticão ~Boticão Boticão ~Boticão 0,108 0,012 0,072 0,008 0,016 0,064 0,144 0,576 Cárie ~Cárie ! Para qualquer proposição soma-se o eventos atômicos onde a mesma é verdade. P(carie=verdade)=0,108+0,012+0,072+0,008=0,2 (Chamada de probabilidade marginal) Podemos também calcular P(carie v dordedente) = 0,108+0,012+0,072+0,008+0,016+0,064=0,28. etc.
  14. 14. Inferência por enumeração ! Iniciar com a distribuição conjunta: ! Pode calcular também as probabilidades condicionais: P(¬cárie | dordedente) = P(¬cárie ∧ dordedente) P(dordedente) = 0.016+0.064 0.108 + 0.012 + 0.016 + 0.064 = 0.4
  15. 15. Normalização ! Denominador pode ser visto como uma constante de normalização P(Cárie | DorDeDente) = α P(Cárie,DorDeDente) = α [P(Cárie,DorDeDente,Boticão) + P(Cárie,DorDeDente,¬ Boticao)] = α [<0.108,0.016> + <0.012,0.064>] = α <0.12,0.08> = <0.6,0.4> Idéia geral: Calcular a distribuição sobre a variável de consulta fixando as variáveis de evidência e somando as variáveis ocultas.
  16. 16. Inferência por enumeração Normalmente estamos interessandos: Na distribuição conjunta posterior das variáveis de consulta Y sendo dados valores específicos (e) para as variáveis de evidência E Sejam as variáveis ocultas H = X - Y - E Então a totalização esperada dos valores da distribuição conjunta é realizada pela soma das variáveis ocultas: P(Y | E = e) = αP(Y,E = e) = αΣhP(Y,E= e, H = h) ! Os termos são partes da distribuição conjunta pelo fato de que Y, E e H juntos são exaustivos dentro do conjunto de variáveis aleatórias. Problemas óbvios: 1. Complexidade do pior caso é O(dn) onde d é a maior aridade (domínio da variável aleatória) 2. Complexidade de espaço é O(dn) para armazenamento da distribuição conjunta 3. Como encontrar valores para elementos de entrada em ordem O(dn)?
  17. 17. Independência ! A e B são independentes sse: P(A|B) = P(A) ou P(B|A) = P(B) ou P(A, B) = P(A) P(B) P(DorDeDente, Boticão, Cárie, Tempo) = P(DorDeDente, Boticão, Cárie) P(Tempo) ! 32 entradas foram reduzidas a 12; ! Para n moedas independentes (não “viciadas “) teríamos O(2n) →O(n) (! reduzida) ! Independência Absoluta é poderosa, mas rara. ! Odontologia é um campo amplo com centenas de variáveis , nenhuma das quais é independente. O que fazer?
  18. 18. Independência Condicional ! P(DorDeDente, Cárie, Boticão) tem 23 – 1 = 7 entradas independentes ! Se temos cárie, a probabilidade de ter que usar o boticão não depende do fato de termos dor de dente. (1) P(boticão | dordedente, cárie) = P(boticão | cárie) ! O memos ocorre se não temos cárie: (2) P(boticão | DorDeDente,¬cárie) = P(boticao | ¬cárie) ! Boticao é condicionalmente independente de DorDeDente dado Cárie ! Declarações equivalentes: P(DorDeDente | Boticao, Cárie) = P(DorDeDente | Cárie) P(DorDeDente, Boticao | Cárie) = P(DorDeDente | Cárie) P(Boticao| Cárie)
  19. 19. Independência condicional-cont ! Escreve-se uma Distribuição conjunta completa usando a regra da cadeia. P(DorDeDente, Boticão, Cárie) = P(DorDeDente | Boticão, Cárie) P(Boticão, Cárie) = P(DorDeDente | Boticão, Cárie) P(Boticão | Cárie) P(Cárie) = P(DorDeDente | Cárie) P(Boticão | Cárie) P(Cárie) I.e., 2 + 2 + 1 = 5 números independentes ! Na maioria dos casos a independência reduz o tamanho da representação da distribuição conjunta de exponencial para linear em n .
  20. 20. Regra de Bayes ! Regra do produto: P(a∧b) = P(a | b) P(b) = P(b | a) P(a) ⇒ Regra de Bayes: P(a | b) = P(b | a) P(a) / P(b) ! Na forma de distribuição: P(Y|X) = P(X|Y) P(Y) / P(X) = αP(X|Y) P(Y) ! Útil para determinação de uma probabilidade de diagnóstico a partir da probabilidade causal: ! P(Causa|Efeito) = P(Efeito|Causa) P(Causa) / P(Efeito) ! E.g., seja M para o fator de alguém estar com meningite, S para ter o percoço rígido: P(m|s) = P(s|m) P(m) / P(s) = 0.8 × 0.0001 / 0.1 = 0.0008
  21. 21. Regra de Bayes e Independência Condicional P(Cárie | DorDeDente ∧ Boticão) = αP(DorDeDente ∧ Boticão | Cárie) P(Cárie) = αP(DorDeDente | Cárie) P(Boticão | Cárie) P(Cárie) ! Modelo de Bayes Ingênuo (Naïve): (IDIOTA) P(Causa,Efeito1, … ,Efeiton) = P(Cause) πiP(Effecti|Cause) Número total de Parâmetros é linear em n
  22. 22. Redes Bayesianas ! Def: Notação gráfica para declarações de independência condicional e consequentemente para uma especificação compacta de distribuições conjuntas complexas ! Sintaxe: ! Um conjunto de “nós”, um por variável ! Um grafo direcional acíclico mostrando influencias diretas ! Uma distribuição condicional para cada nó dado seu pais P (Xi | Pais (Xi)) ! No caso mais simples, a distribuição condicional é representada como uma tabela de prabilidade condicional dando a distribução sobre Xi para cada combinação de valores dos pais
  23. 23. Exemplo de Rede Bayesiana ! A topologia da rede codifica as declarações de independência condicional: ! Tempo é independente de outras variáveis ! DorDeDente and Boticão são condicionalmente independentes dada cárie
  24. 24. Exemplo de Rede Bayesiana ! A topologia da rede codifica as declarações de independência condicional: ! Tempo é independente de outras variáveis ! DorDeDente and Boticão são condicionalmente independentes dada cárie
  25. 25. Exemplo do Alarme Alguém estando no trabalho recebe o telefone do vizinho João Rapadura dizendo que o alarme da casa está tocando, mas a vizinha do outro lado Maria Amargura não ligou.Algumas vezes o alarme é disparado por pequenos tremores de terra. Será que tem um ladrão na casa? Variáveis: Ladrão, Terremoto, Alarme,JoaoLiga, MariaLiga A rede reflete o conhecimento "causal": Um ladrão(burglar) pode disparar o alarme Um terremoto (earthquake) pode disparar o alarme O Alarme pode fazer Maria(Mary) telefonar O Alarme pode fazer Joao(John) telefonar
  26. 26. A rede!
  27. 27. Compactação da Rede ! Uma tabela com variáveis aleatórias booleanas Xi com k parentes booleanos terá 2k linhas para a combinação de valores dos pais ! Cada linha requererá um valor p para Xi = Verdade (o valor para Xi = false é 1-p) ! Se cada variável não tem mais que k pais, a rede completa fará O(n · 2k) valores ! I.e., cresce linearmente com n, vs. O(2n) para a distribuição conjunta total ! Para a rede do alarme teremos 1 + 1 + 4 + 2 + 2 = 10 valores (vs. 25-1 = 31)
  28. 28. Semântica da Rede A distribuição conjunta total é definida como o produto das distribuições condicionais locais P (X1, … ,Xn) = πi = 1 P (Xi | Pais(Xi)) e.g., P(j ∧ m ∧ a ∧ ¬b ∧ ¬e) = P (j | a) P (m | a) P (a | ¬b, ¬e) P (¬b) P (¬e)
  29. 29. Rede não puramente causal ! Vamos usar o exemplo do alarme com a seguinte ordem de inserção dos nós: ! MaryCalls, JohnCalls, Alarme, Roubo e Terremoto. Roubo Terremoto Alarme JohnCalls MaryCalls
  30. 30. Redes não puramente causais " Problemas: " A figura possui duas conexões a mais " julgamento não natural e difícil das probabilidades " Tendo uma rede puramente causal, teríamos um número menor de conexões
  31. 31. Tipos de Inferência em Redes Bayesianas Causal – Causa para efeito " P(JohnCalls/Roubo) = 0,86 Roubo Alarme JohnCalls Evidência Query Diagnóstico – Efeito para Causa " P(Roubo/JohnCalls) = 0,016 JohnCalls Alarme Roubo Evidência Query ! Intercausal (entre causas com um efeito comum) ! P(Roubo/Alarme) = 0,376 ! P(Roubo/Alarme ∧Terremoto) = 0,373 Roubo Alarme Terremoto Query Evidência
  32. 32. Tipos de Inferências " Mista (combinando duas ou mais das de cima) " P(Alarme/JohnCalls ∧¬Terremoto) = 0,03 " Este é um uso simultâneo de inferência causal e diagnóstico. JohnCalls Alarme Terremoto Evidência Query Evidência
  33. 33. Independência de Novo • Dependências • Intuitiva. • Dois nós conectados influenciam um ao outro simetricamente. • Independências • Exemplo: I (J;M|A), I(B;E) • Outros I(B;E|A)? • -- d-seperation. • (Separação Direcional)
  34. 34. Separação -d M e B são separados-d Dado A (Independentes) B A M
  35. 35. Separação –d - Divergente M e J são separados-d Dado A (Independentes) A J M Influencia pode ocorrer de J em M se não conhecemos A mas I(J;M|A)
  36. 36. Separação –d – convergente E e B são separados-d NÃO Dado A (Independentes) E B A E não pode influenciar B dado que A não é conhecido. I(E;B)
  37. 37. Consultas (Query) Informações interessantes das probabilidades conjuntas: Qual a probabilidade de ambos Maria e John ligarem se acontecer um roubo? P(M, J|B) Qual a mais provável explicação para o fato que Maria Ligou? Pode ser Respondido por Inferência na RB P(M,J|B)=P(B, M, J)/P(B) = ΣA E P E B A M J P B , ( ( , , , , )) / ( )
  38. 38. Algoritmo de Eliminação de Variáveis – Inferência Exata • Idéia: Somar uma variável por vez, gerando uma nova distribuição em relação as outras variáveis conectando com a variável eliminada. • Quando Elimina-se E gera-se uma distribuição de A e B • Alta Complexidade (NP-HARD) usar Algoritmos de Formação de Agrupamentos /Árvores de Junção
  39. 39. Inferência Aproximada ! Amostagem direta ! Amostragem de rejeição ! Ponderação de probabilidade ! Simulação de Cadeias de Markov- Algoritmo CMMC (Cadeia de Markov Monte Carlo)
  40. 40. Modelos Temporais R t-1 P(Rt) V 0,7 F 0,3 R t-1 U t-1 R t U t R t+1 U t +1 R t P(Ut) V 0,9 F 0,2
  41. 41. Modelos Temporais Hipótese de Markov: Estado atual depende apenas de um histórico finito de estados anteriores. Processos de Markov ou Cadeias de Markov Processo de Markov de Primeira Ordem: P(Xt|X0:t-1) = P(Xt|Xt-1) Usos: Filtragem, monitoramento e suavização
  42. 42. Modelos Temporais ! Redes bayesianas dinâmicas ! Casos especiais: ! MOM – Modelos Ocultos de Markov ! Filtros de Kalman ! Etc. ! Aplicações em PDS/Voz, Imagem, etc ! Fica para a próxima .........................

×