Ávores de Decisão

Árvores de Decisão
Ricardo Luis dos Santos

© 2009 Hewlett-Packard Development Company, L.P.
The information contained herein is subject to change without notice Labs & Institute of Informatics – UFRGS
Malia Project – HP

Agenda

• Introdução
• Construção da Árvore de Decisão
• Algoritmo ID3 – C4.5
• Exemplo

Malia Project – HP Labs & Institute of Informatics – UFRGS
2
Wednesday, March 06, 2013

Introdução

• Uma forma simples de representar o conhecimento
• Largamente utilizada para mineração de dados
• Possui a habilidade de “aprender” através de
exemplos com o objetivo de classificar registros
• Os conceitos/regras/ações/decisões de um
problema são descritos através de exemplos
• As instâncias (casos) são representados por pares
do tipo atributo-valor, formando uma tabela
• Possibilita identificar uma ação/categoria através
de exemplos anteriores
3

Construção da Árvore de Decisão

• A construção de uma Árvore de Decisão é guiada
pela redução na dificuldade de previsão da variável
objetivo
• Visando tal redução são especificados nós
(atributos) que auxiliam na identificação do caso
• Para reduzir a dificuldade de previsão é
selecionado o atributo que mais “auxilie” na
classificação

4

Construção da Árvore de Decisão

• Existem duas métricas que auxiliam para identificar
tal atributo que são a:
• Entropia - indica a homogeneidade dos exemplos
contidos em um conjunto de dados. É utilizada para
estimar a aleatoriedade da variável a ser prevista
• Ganho de Informação - indica a redução da entropia
causada pela divisão dos exemplos de acordo com os
valores dos atributos

5

Algoritmo ID3 – C4.5

• O algoritmo ID3 (inductive decision tree) é o mais
utilizado. Um melhoramento deste foi nomeado de
C4.5. Tal algoritmo segue os seguintes passos:
1. Começar com todos os exemplos de treino
2. Escolher o teste (atributo) que melhor divide os exemplos, ou
seja, o atributo que melhor agrupa exemplos da mesma classe
ou exemplos semelhantes
3. Para o atributo escolhido, criar um nó filho para cada valor
possível do atributo
4. Transportar os exemplos para cada filho tendo em conta o valor
do filho
5. Repetir o procedimento para cada filho não "puro"

6

Exemplo
Tabela de Decisão ou de Conhecimento

Previsão Temperatura (°F) Umidade Vento Jogar
Ensolarado 85 85 Não Não Jogar
Ensolarado 80 90 Sim Não Jogar
Encoberto 83 78 Não Jogar
Chovendo 70 96 Não Jogar
Chovendo 65 70 Sim Não Jogar
Encoberto 64 65 Sim Jogar
Ensolarado 72 95 Não Não Jogar
Ensolarado 69 70 Não Jogar
Ensolarado 75 70 Sim Jogar
Encoberto 72 90 Sim Jogar
Encoberto 81 75 Não Jogar
Chovendo 71 80 Sim Não Jogar

7

Exemplo
Fórmulas da Entropia

• Entropia para alternativas binárias

• Entropia para N alternativas

8

Exemplo
Fórmula do Ganho de Informação

• Entropia calculada

• Ganho de Informação

9

Exemplo
Valores calculados

• Ganhos de Informação calculadas

Atributo Ganho de Informação
Previsão 0,2467
Temperatura (°F) 0,0251
Umidade 0,0453
Vento 0,0481

10

Exemplo
Árvore de Decisão formada a partir da entropia e do ganho de informação

Previsão

Ensolarado Encoberto Chovendo

Atributo Ganho Atributo Ganho Atributo Ganho
Temperatura 0,4200 Temperatura 0,0000 Temperatura 0,0000
Umidade 0,9710 Umidade 0,0000 Umidade 0,9710
Vento 0,0200 Vento 0,0000 Vento 0,9710
Entropia 0,9710 Entropia 0,0000 Entropia 0,9710

11

Exemplo
Árvore de Decisão formada a partir da entropia e do ganho de informação

Previsão

Ensolarado Encoberto Chovendo

Umidade Jogar Vento

<= 75 > 75 Sim Não

Jogar Não Jogar Não Jogar Jogar

12

Obrigado pela Atenção!
Perguntas?

Características

• Possibilidade de três utilizações, mas com o foco
do “ganho de informação” em diferentes escopos:
• De uma maneira geral, calculando tal métrica para cada
pergunta, substituindo a contagem total de identificações
de cada CR
• Utilização do foco de “ganho de informação” dentro da
CR mais vezes identificadas
• Utilização juntamente com a contagem total de
identificações de cada CR (por exemplo, Ganho x
Identificação)

14

Características

• Possibilita a identificação de perguntas que melhor
dividem as alternativas
• CRs novas possuem um “peso” maior na seleção
de perguntas
• Análise das perguntas óbvias mais “inteligente”,
considerando respostas das perguntas anteriores
• Se utilizada isolada, não garante que perguntas
mais vezes selecionadas serão realizadas primeiro

15

Ávores de Decisão

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (8)

Destaque

Destaque (20)

Mais de Ricardo Luis dos Santos

Mais de Ricardo Luis dos Santos (8)

Ávores de Decisão