Ávores de Decisão

890 visualizações

Publicada em

  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Ávores de Decisão

  1. 1. Árvores de DecisãoRicardo Luis dos Santos© 2009 Hewlett-Packard Development Company, L.P.The information contained herein is subject to change without notice Labs & Institute of Informatics – UFRGS Malia Project – HP
  2. 2. Agenda• Introdução• Construção da Árvore de Decisão• Algoritmo ID3 – C4.5• Exemplo Malia Project – HP Labs & Institute of Informatics – UFRGS2 Wednesday, March 06, 2013
  3. 3. Introdução• Uma forma simples de representar o conhecimento• Largamente utilizada para mineração de dados• Possui a habilidade de “aprender” através de exemplos com o objetivo de classificar registros• Os conceitos/regras/ações/decisões de um problema são descritos através de exemplos• As instâncias (casos) são representados por pares do tipo atributo-valor, formando uma tabela• Possibilita identificar uma ação/categoria através de exemplos anteriores Malia Project – HP Labs & Institute of Informatics – UFRGS3 Wednesday, March 06, 2013
  4. 4. Construção da Árvore de Decisão• A construção de uma Árvore de Decisão é guiada pela redução na dificuldade de previsão da variável objetivo• Visando tal redução são especificados nós (atributos) que auxiliam na identificação do caso• Para reduzir a dificuldade de previsão é selecionado o atributo que mais “auxilie” na classificação Malia Project – HP Labs & Institute of Informatics – UFRGS4 Wednesday, March 06, 2013
  5. 5. Construção da Árvore de Decisão• Existem duas métricas que auxiliam para identificar tal atributo que são a: • Entropia - indica a homogeneidade dos exemplos contidos em um conjunto de dados. É utilizada para estimar a aleatoriedade da variável a ser prevista • Ganho de Informação - indica a redução da entropia causada pela divisão dos exemplos de acordo com os valores dos atributos Malia Project – HP Labs & Institute of Informatics – UFRGS5 Wednesday, March 06, 2013
  6. 6. Algoritmo ID3 – C4.5• O algoritmo ID3 (inductive decision tree) é o mais utilizado. Um melhoramento deste foi nomeado de C4.5. Tal algoritmo segue os seguintes passos: 1. Começar com todos os exemplos de treino 2. Escolher o teste (atributo) que melhor divide os exemplos, ou seja, o atributo que melhor agrupa exemplos da mesma classe ou exemplos semelhantes 3. Para o atributo escolhido, criar um nó filho para cada valor possível do atributo 4. Transportar os exemplos para cada filho tendo em conta o valor do filho 5. Repetir o procedimento para cada filho não "puro" Malia Project – HP Labs & Institute of Informatics – UFRGS6 Wednesday, March 06, 2013
  7. 7. ExemploTabela de Decisão ou de Conhecimento Previsão Temperatura (°F) Umidade Vento Jogar Ensolarado 85 85 Não Não Jogar Ensolarado 80 90 Sim Não Jogar Encoberto 83 78 Não Jogar Chovendo 70 96 Não Jogar Chovendo 68 80 Não Jogar Chovendo 65 70 Sim Não Jogar Encoberto 64 65 Sim Jogar Ensolarado 72 95 Não Não Jogar Ensolarado 69 70 Não Jogar Chovendo 75 80 Não Jogar Ensolarado 75 70 Sim Jogar Encoberto 72 90 Sim Jogar Encoberto 81 75 Não Jogar Chovendo 71 80 Sim Não Jogar Malia Project – HP Labs & Institute of Informatics – UFRGS7 Wednesday, March 06, 2013
  8. 8. ExemploFórmulas da Entropia• Entropia para alternativas binárias• Entropia para N alternativas Malia Project – HP Labs & Institute of Informatics – UFRGS8 Wednesday, March 06, 2013
  9. 9. ExemploFórmula do Ganho de Informação• Entropia calculada• Ganho de Informação Malia Project – HP Labs & Institute of Informatics – UFRGS9 Wednesday, March 06, 2013
  10. 10. ExemploValores calculados• Ganhos de Informação calculadas Atributo Ganho de Informação Previsão 0,2467 Temperatura (°F) 0,0251 Umidade 0,0453 Vento 0,0481 Malia Project – HP Labs & Institute of Informatics – UFRGS10 Wednesday, March 06, 2013
  11. 11. ExemploÁrvore de Decisão formada a partir da entropia e do ganho de informação Previsão Ensolarado Encoberto Chovendo Atributo Ganho Atributo Ganho Atributo Ganho Temperatura 0,4200 Temperatura 0,0000 Temperatura 0,0000 Umidade 0,9710 Umidade 0,0000 Umidade 0,9710 Vento 0,0200 Vento 0,0000 Vento 0,9710 Entropia 0,9710 Entropia 0,0000 Entropia 0,9710 Malia Project – HP Labs & Institute of Informatics – UFRGS11 Wednesday, March 06, 2013
  12. 12. ExemploÁrvore de Decisão formada a partir da entropia e do ganho de informação Previsão Ensolarado Encoberto Chovendo Umidade Jogar Vento <= 75 > 75 Sim Não Jogar Não Jogar Não Jogar Jogar Malia Project – HP Labs & Institute of Informatics – UFRGS12 Wednesday, March 06, 2013
  13. 13. Obrigado pela Atenção! Perguntas?
  14. 14. Características• Possibilidade de três utilizações, mas com o foco do “ganho de informação” em diferentes escopos: • De uma maneira geral, calculando tal métrica para cada pergunta, substituindo a contagem total de identificações de cada CR • Utilização do foco de “ganho de informação” dentro da CR mais vezes identificadas • Utilização juntamente com a contagem total de identificações de cada CR (por exemplo, Ganho x Identificação) Malia Project – HP Labs & Institute of Informatics – UFRGS14 Wednesday, March 06, 2013
  15. 15. Características• Possibilita a identificação de perguntas que melhor dividem as alternativas• CRs novas possuem um “peso” maior na seleção de perguntas• Análise das perguntas óbvias mais “inteligente”, considerando respostas das perguntas anteriores• Se utilizada isolada, não garante que perguntas mais vezes selecionadas serão realizadas primeiro Malia Project – HP Labs & Institute of Informatics – UFRGS15 Wednesday, March 06, 2013

×