Daniel Mota - Arvore de decisão

1.217 visualizações

Publicada em

0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.217
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
62
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Daniel Mota - Arvore de decisão

  1. 1. www.danielmota.com.br
  2. 2. Uma árvore de decisão utiliza uma estratégia de dividir para-conquistar:•Um problema complexo é decomposto em subproblemas mais simples.•Recursivamente a mesma estratégia é aplicada a cada subproblema.A capacidade de discriminação de uma arvore vem da:•Divisão do espaço definido pelos atributos em subespaços.• A cada subespaço é associada uma classe.www.danielmota.com.br
  3. 3. •Cada nó de decisão contémum teste num atributo.•Cada ramo descendentecorresponde a um possívelvalor deste atributo.•Cada folha está associada auma classe.• Cada percurso na árvore (daraiz à folha) corresponde a umaregra de classificação.www.danielmota.com.br
  4. 4. No espaço definido pelosatributos:•Cada folha corresponde a umaregião: Hiper-retângulo•A intersecção dos hiper -retângulos é vazia•A união dos hiper-retângulos é oespaço completowww.danielmota.com.br
  5. 5. Dado um conjunto de exemplos, que atributo escolherpara teste?O ganho de informação mede a redução da entropia causada pelapartição dos exemplos de acordo com os valores do atributo.A construção de uma árvore de decisão é guiada pelo objetivo dediminuir a entropia ou seja a aleatoriedade - dificuldade deprevisão- da variável que define as classes.A escolha do atributo é feita com base no ganho de informação, istoé, na qualidade de classificação do atributo.www.danielmota.com.br
  6. 6. ID3, C4.5 e C5 [Quinlan 86,93]• Iterative Dichotomizer 3CART• Classification and regression trees [Breiman 84]CHAID [Hartigan 75]• Usado pelo SPSS e SAS…• Muitas (mesmo muitas) outras variantes...• Em SAS: possibilidade de selecionar os diferentes parâmetrospara a construção da árvore.www.danielmota.com.br
  7. 7. Cenário:Um sistema de contas a receber de um clube esportivo envia para umbanco no inicio de cada mês um boleto contendo da mensalidade doclube a ser paga pelos associados. O banco então envia pelo correio afatura para os clientes e espera os recebimentos. No final do mês, obanco retorna para o sistema do clube quais clientes pagaram o boleto,quais não pagaram e quais clientes pagaram com atraso, dentreoutras informações. Com objetivo de diminuir a quantidade de clientesque pagaram o boleto com atraso, foi feita uma mineração de dados nabase de associados para identificar o perfil de quem paga comatraso o boleto.www.danielmota.com.br
  8. 8. Tabela1. Dados dos associados de um clube esportivoIdade: Identifica idade do associadoValores: <= 30, 31...40, > 40Salário: Identifica salário do associadoValores: Alto, Médio, Baixo.Superior Completo: Indica aescolaridade do associado.Valores: Sim, NãoDependentes: Indica se o associadopossui dependentes.Valores: Sim, NãoAtrasou: Indica se o cliente atrasou opagamentoValores: Sim, NãoAtributoswww.danielmota.com.br
  9. 9. Como o algoritmo Funciona?Passo 1: Geração do nó raizPasso 2: Encontrar nós a serem divididosPasso 3: Divisão do nóPasso 4: Criação do nówww.danielmota.com.br
  10. 10. 1 º Passo: Gerar o nó raiz da árvoresCalcular a probabilidade para cada um dos valores do atributo declassificação.ATRASOUAtrasou = Não: 5/14 = 0,36Atrasou = Sim: 9/14 = 0,64IDADEValor <= 30Atrasou = Não: 3/14 = 0,214Atrasou = Sim: 2/14 = 0,143Valor 31...40Atrasou = Não: 0/14 = 0Atrasou = Sim: 4/14 = 0,286Valor > 40Atrasou = Não: 2/14 = 0,143Atrasou = Sim: 3/14 = 0,214DEPENDENTEValor NãoAtrasou = Não: 2/14 = 0,143Atrasou = Sim: 5/14 = 0,357Valor SimAtrasou = Não: 3/14 = 0,214Atrasou = Sim: 4/14 = 0,286SALÁRIO:Valor Alto:Atrasou = Não: 2/14 = 0,143Atrasou = Sim: 2/14 = 0,143Valor Médio:Atrasou = Não: 2/14 = 0,143Atrasou = Sim: 4/14 = 0,286Valor Baixo:Atrasou = Não: 1/14 = 0,143Atrasou = Sim: 3/14 = 0,214SUPERIOR-COMPLETOValor Não:Atrasou = Não: 4/14 = 0,286Atrasou = Sim: 3/14 = 0,214Valor Sim:Atrasou = Não: 6/14 = 0,428Atrasou = Sim: 1/14 = 0,071Somente oatributo IDADEgerou o nó folhawww.danielmota.com.br
  11. 11. Exemplo do nó raiz da árvorePrimeiro Nível da Árvore de DecisãoFerramenta: Decision Tree Learning Appletwww.danielmota.com.br
  12. 12. Árvores de Decisão CompletaOBS: O atributo SALÁRIO não foi utilizado, pois o algoritmo não consideroueste atributo como relevante para a classificação.A árvore possui quatro nós folha (em verde) que classificam os valores dasclasses de acordo com seus atributos.www.danielmota.com.br
  13. 13. Representação TextualIDADE = <= 30SUPERIOR COMPLETO = NÃO: NÃO (3.0)SUPERIOR COMPLETO = SIM: SIM (2.0)IDADE = 31...40: SIM (4.0)IDADE = >40DEPENDENTES = NÃO: SIM (3.0)DEPENDENTES = SIM: NÃO (2.0)www.danielmota.com.br
  14. 14. Extração das regras de classificação do tipo SE...ENTÃOda ÁrvoreSE IDADE <=30 e SUPERIOR_COMPLETO = NÃO ENTÃOA amostra é classificada como ATRASA = NÃOSE IDADE <=30 e SUPERIOR_COMPLETO = SIM ENTÃOA amostra é classificada como ATRASA = SIMSE IDADE = 30..40 ENTÃOA amostra é classificada como ATRASA = SIMSE IDADE >=40 e DEPENDENTES = NÃO ENTÃOA amostra é classificada como ATRASA = SIMSE IDADE >=40 e DEPENDENTES = SIM ENTÃOA amostra é classificada como ATRASA = NÃOwww.danielmota.com.br
  15. 15. NOME ESCOLARIDADEIDADE RICO(atributo classe)Alva Mestrado >30 SimAmanda Doutorado <=30 SimAna Mestrado <=30 NãoEduardo Doutorado >30 SimInês Graduação <=30 NãoJoaquim Graduação >30 NãoMaria Mestrado >30 SimRaphael Mestrado <=30 NãoÁrvore de decisãoconstruída a partir doconjunto de dados daTabela 2Tabela 2. Base de dados Censitárioswww.danielmota.com.br
  16. 16. 1.(Escolaridade = “Graduação”) → (Rico = “Não”)2.(Escolaridade = “Doutorado”) → (Rico = “Sim”)3.(Escolaridade = “Mestrado”) &  (Idade = “>30”) → (Rico = “Sim”)4.(Escolaridade = “Mestrado”) &  (Idade = “<=30”) → (Rico = “Não”)Regra de ClassificaçãoUma regra do tipo A → B indica que a classe B pode serdeterminada pelos atributos preditivos indicados no antecedente.www.danielmota.com.br
  17. 17. BERRY, M. L. A. e LINOFF, G. (2004), Data Mining Techniques: for Marketing, Sales andCustomer Relationship Management, John Wiley Consumer, 2nd edition.HAN, J. e KAMBER, M. (2006), Data Mining: Concepts and Techniques, Morgan KaufmannPublishers, 2ndedition.WITTEN, I. H. e FRANK, E. (2005), Data Mining: Practical Machine Learning Tools andTechniques, Morgan Kaufmann Publishers, 2nd edition.Mitchell, TM: 1997, Machine Learning,McGraw-Hill Langley, P: 1996, Elements of Machine Learning, Morgan and KaufmannPublishers.Breiman, L., J. H. Friedman, R. A. Olsen and C. J. Stone (1984). Classification andRegression Trees, Chapman & Hall, pp 358.www.danielmota.com.br

×