Seminario classificadores

919 visualizações

Publicada em

Seminário sobre classificadores ressaltando knn e redes bayesianas

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
919
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
24
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Seminario classificadores

  1. 1. Classificadores Cleiane Gonçalves OliveiraMestrado em Ciência da Computação Universidade Federal de Uberlândia
  2. 2. Agenda A tarefa de classificação Um classificador lazy: KNN Um classificador eager: Redes bayesianas A ferramenta WEKA
  3. 3. A tarefa de Classificação Seguradora de automóveis Sexo Idade Acidente F 45 Não M 25 Sim F 18 Não F 32 Não M 37 Não M 18 Sim
  4. 4. A tarefa de Classificação Seguradora de automóveis Sexo Idade Acidente F 45 Não F 18 Não F 32 Não M 37 Não M 18 Sim M 25 Sim
  5. 5. Classificadores O que é um classificador? Classificação é uma técnica que consiste na aplicação de um conjunto de exemplos pré-classificados para desenvolver um modelo capaz de classificar uma população maior de registros.
  6. 6. Etapas do Processo Amostras Classificadas Banco de REGRAS Testes Classificador REGRAS CONFIÁVEIS
  7. 7. Etapas do Processo Amostras Classificadas
  8. 8. Amostras classificadas Nome Idade Renda Profissão Classe Daniel ≤ 30 Média Estudante Sim João 31..50 Média-Alta Professor Sim Carlos 31..50 Média-Alta Engenheiro Sim Maria 31..50 Baixa Vendedora Não Paulo ≤ 30 Baixa Porteiro Não Otavio > 60 Média-Alta Aposentado Não
  9. 9. Etapas do Processo Amostras Classificadas REGRAS Classificador
  10. 10. Regras Se idade = 41..50 e Renda = Media-Altaentão ClasseProdEletr = Sim. Se Renda = Baixaentão ClasseProdEletr = Nao.
  11. 11. Etapas do Processo Amostras Classificadas Banco de REGRAS Testes Classificador
  12. 12. Banco de testesNome Idade Renda Profissão Classe Pedro 41 .. 50 Média-Alta Ecologista Não José 41 .. 50 Média-Alta Professor Não Luiza 41 .. 50 Média-Alta Assistente Social Não Carla ≤ 30 Baixa Vendedora NãoWanda ≤ 30 Baixa Faxineira Não Felipe > 60 Média-Alta Aposentado NãoSe Se idade = 41..50 e Renda = Baixa Renda = Media-Alta então ClasseProdEletr = Nao.então ClasseProdEletr = Sim. Acurácia: 50%
  13. 13. Etapas do Processo Amostras Classificadas Banco de REGRAS Testes Classificador REGRAS CONFIÁVEIS
  14. 14. Classificadores Classificadores lazy Método kNN (k-nearest-neighbor) Case-Based Reasoning (CBR)
  15. 15. Classificadores Classificadores eager Arvores de Decisão Redes Neuronais Redes Bayseanas Máquinas de Suporte Vetorial
  16. 16. KNN
  17. 17. Método Dados: Banco de Dados de m tuplas classificadas (a1,...,an,C)
  18. 18. Método Uma tupla X = (x1,...,xn) não classificada Calcula-se a distância de X a cada uma das tuplas do banco de dados.
  19. 19. Método Pega-se as k tuplas do banco de dados mais próximas de X. A classe de X é a classe que aparece com mais frequência entre as k tuplas mais K=3 próximas de X.
  20. 20. Diferentes valores de K K=1 K=2 K=3
  21. 21. Banco de Dados com tuplas classificadasQualidade de lenço de papel X1 = X2 = força Classificação durabilidade (kg/metro (segundos) quadrado) 7 7 Ruim 7 4 Ruim 3 4 Bom 1 4 Bom
  22. 22. Tupla não classificadaQualidade de lenço de papel X1 = X2 = força Classificação durabilidade (kg/metro (segundos) quadrado) 7 7 Ruim 7 4 Ruim 3 4 Bom 1 4 Bom 3 7 ?
  23. 23. Calcular a distância Distância Euclidiana Distância de Mahalanobis. Distância de Minkowsky. Hamming Distance.
  24. 24. Calcular a distância Distância Euclidiana As coordenadas das tuplas (px,py) As coordenadas da tupla a ser classificada (qx,qy) n d ( p, q ) = ∑( p − q ) i =1 i i 2
  25. 25. Calcular a distânciaX1 X2 Cálculo Resultado Classe Ranking7 7 (7-3)2 + (7-7)2 16 Ruim 37 4 (7-3)2 + (4-7)2 25 Ruim 43 4 (3-3)2 + (4-7)2 9 Bom 11 4 (1-3)2 + (4-7)2 13 Bom 2 K=3 BOM!!!
  26. 26. Questões diversas Como calcular a distância quando existem atributos cujos valores não são numéricos, por exemplo o atributo Cor ?O que fazer quando a tupla a serclassificada é incompleta, isto é, algunscampos estão faltando ?Como determinar o melhor valor de k?
  27. 27. Considerações Técnica simples e facilmente implementada Dispendiosa computacionalmente Necessidade de determinar o valor de K O tipo de cálculo de distância escolhido pode gerar melhores resultados.
  28. 28. Aplicações Reconhecimento de voz Classificação de animais Mapas, definição de fronteiras Classificação automática de textos e imagens
  29. 29. Redes Bayesianas
  30. 30. Rede Bayesiana Valores de X = { 1, 3} Valores de Y = {2,4} X Y Valores de Z = {5,6} X=1 X=1 X=3 X=3 Y=2 Y=4 Y=2 Y=4 Z=5 0.5 0.3 0.2 0.1 Z Z=6 0.5 0.7 0.8 0.9 P[Z |{X,Y}]
  31. 31. Como classificar usando uma RedeBayesiana de Crença Input: um banco de tuplas classificadas uma rede bayseana de crença Um atributo da rede selecionado como sendo o atributo classe Uma tupla X a ser classificada. Output: P[C1|X], P[C2|X], ..., P[Cn|X]
  32. 32. Exemplo Histórico Familiar Fumante Câncer Efisema Pulmão Raio Dispnéia X+
  33. 33. CPT(CP) Exemplo HF= 1 HF= 1 HF= 0 HF= 0 F=1 F=0 F=1 F=0 1 0.8 0.5 0.7 0.1 HF F 0 0.2 0.5 0.3 0.9 CPT(E) CPT(RX+) CP E F=1 F= 0 CP=1 CP=0 1 0.03 0.2 1 0.9 0.02 0 0.97 0.8 0 0.1 0.98 RX+ CPT(D) D CP=1 CP=1 CP=0 CP=0 E=1 E=0 E=1 E=0HF =história familiar E = Efisema 1 0.99 0.3 0.2 0.01F = fumante D = DispnéiaCP = câncer de pulmão RX+ = raio X + 0 0.01 0.7 0.8 0.99 X = (HF=1, F=1, E = 0, RX+ = 1, D=0)
  34. 34. Cálculo das probabilidades P[C|X] Teorema de Bayes P[C|X] = P[X|C] * P[C] P[X]P[x1|pais(x1)] * P[x2|pais(x2)] * ...* P[xn|pais(xn)]* P[Ci|pais(Ci)]
  35. 35. Cálculos HF FX = (HF=1, F=1, E = 0, RX+ = 1, D=0) CP EP[X|CP=0] * P[CP=0] =P[HF=1] * RX+ DP[F=1] *P[E=0 | F=1] *P[RX=1 |CP=0]*P[D=0 |CP=0, E=0] *P[CP=0 | HF = 1, F=1).
  36. 36. CPT(CP) Exemplo HF= 1 HF= 1 HF= 0 HF= 0 F=1 F=0 F=1 F=0 1 0.8 0.5 0.7 0.1 HF F 0 0.2 0.5 0.3 0.9 CPT(E) CPT(RX+) CP E F=1 F= 0 CP=1 CP=0 1 0.03 0.2 1 0.9 0.02 0 0.97 0.8 0 0.1 0.98 RX+ CPT(D) D CP=1 CP=1 CP=0 CP=0 E=1 E=0 E=1 E=0HF =história familiar E = Efisema 1 0.99 0.3 0.2 0.01F = fumante D = DispnéiaCP = câncer de pulmão RX+ = raio X + 0 0.01 0.7 0.8 0.99 X = (HF=1, F=1, E = 0, RX+ = 1, D=0)
  37. 37. Cálculos HF FX = (HF=1, F=1, E = 0, RX+ = 1, D=0) CP EP[X|CP=0] * P[CP=0] =1* RX+ D1*0,97 * = 0,003840,02 *0,99 *0,2
  38. 38. Cálculos HF FX = (HF=1, F=1, E = 0, RX+ = 1, D=0) CP EP[X|CP=1] * P[CP=1] =P[HF=1] * RX+ DP[F=1] *P[E=0 | F=1] *P[RX=1 |CP=1]*P[D=0 |CP=1, E=0] *P[CP=1 | HF = 1, F=1).
  39. 39. CPT(CP) Exemplo HF= 1 HF= 1 HF= 0 HF= 0 F=1 F=0 F=1 F=0 1 0.8 0.5 0.7 0.1 HF F 0 0.2 0.5 0.3 0.9 CPT(E) CPT(RX+) CP E F=1 F= 0 CP=1 CP=0 1 0.03 0.2 1 0.9 0.02 0 0.97 0.8 0 0.1 0.98 RX+ CPT(D) D CP=1 CP=1 CP=0 CP=0 E=1 E=0 E=1 E=0HF =história familiar E = Efisema 1 0.99 0.3 0.2 0.01F = fumante D = DispnéiaCP = câncer de pulmão RX+ = raio X + 0 0.01 0.7 0.8 0.99 X = (HF=1, F=1, E = 0, RX+ = 1, D=0)
  40. 40. Cálculos HF FX = (HF=1, F=1, E = 0, RX+ = 1, D=0) CP EP[X|CP=1] * P[CP=1] =1* RX+ D1*0,97 * = 0,48 > 0,003840,9 *0,7 * X = CP = 10,8
  41. 41. Aplicações Diagnóstico médico Aprendizado de mapas Sistema de exploração e aquisição de conhecimento espacial Interpretação de linguagem Visão
  42. 42. Projetos ABS-Bayes: Sistema Especialista Probabilístico para Apoio ao Diagnóstico de Absenteísmo Agente Bayesiano de Apoio à Vigilância de Infecção Hospitalar - SAVIH Sistema especialista probabilístico para apoio ao diagnóstico de potencial econômico – SEPE Sistema de Avaliação da Evasão Escolar: E-Bayes Sistema Especialista de Apoio à Nutrição Enteral Pediátrica - SANEP Sistema de Avaliação do Crescimento Infantil - SACI
  43. 43. WEKAWaikato Environment forKnowledge Analysis
  44. 44. Arquivo .ARFF@relation jogar_golfe @attribute ceu {sol, nublado, chuva} @attribute temperatura {alta,baixa,suave} @attribute umidade {alta, normal} @attribute vento {sim, nao} @attribute classe {sim, nao} @data sol,alta,alta,nao,nao sol,alta,alta,sim,nao nublado,alta,alta,nao,sim chuva,alta,alta,nao,sim chuva,baixa,normal,nao,sim chuva,baixa,normal,sim,nao nublado,baixa,normal,sim,sim
  45. 45. Interface Weka Carregando arquivos Classificadores
  46. 46. Executando um classificador Knn Algoritmo Ibk Correctly Classified Instances Matriz de discussão
  47. 47. Executando um classificador bayesiano Algoritmo BayesNet Correctly Classified Instances Matriz de discussão Gráfico da rede bayesiana Utilização de algoritmos de busca para a confecção da rede e CPT
  48. 48. Obrigada!

×