O documento descreve os algoritmos ID3 e C4.5 para mineração de dados, que constroem árvores de decisão induzidas. O ID3 usa entropia para selecionar o melhor atributo divisor, enquanto o C4.5 lida com atributos contínuos e usa razão de ganho para gerar árvores menos complexas, além de permitir poda pós-construção.
29. Entropia dos dados da amostra Entropia dos Dados (S1) =-0,64* LOG(0,64;2)- 0,36*LOG(0,36;2) = 0,940 Obs: se a entropia estiver fora do intervalo [0,1], alguma coisa no calculo está errado
30. O conjunto de dados é dividido sobre os valores dos atributos A entropia de cada valor é calculado. Então, ele é adicionado proporcionalmente, para obter a entropia total do atributo. =(5/14)*entropia do sol) + (4/14* entropia do encoberto) + (5/14) * entropia da chuva) = 0,663
31.
32.
33. Ganho de informação do Atributo Temperatura Entropia de Temperatura =(4/14)*entropia de quente) + (6/14* entropia de agradável) + (4/14) * entropia de frio) = 0,768 Ganho (S, Temperatura) = 0,940 – 0,768 = 0,172
34. Ganho de informação do Atributo Umidade Entropia de Umidade =(7/14)*entropia de normal) + (7/14* alta) = 0,788 Ganho (S, Umidade) = 0,940 – 0,788 = 0,152
35. Ganho de informação do Atributo Vento Entropia de Vento =(6/14)*entropia de forte) + (8/14* entropia de fraco)= 0,906 Ganho (S1, Temperatura) = 0,940 – 0,906 = 0,035
36. Escolha do atributo com maior Ganho de informação para ser o nó raiz Encoberto Aparência Sol ??? SIM Chuvoso ???
37.
38.
39. Escolha do atributo com maior Ganho de informação para ser o nó filho de Sol Escolha do Atributo com Maior Ganho Aparência ??? SIM Chuvoso Umidade NÃO Alta Encoberto Sol SIM Normal