Mineração de dados

209 visualizações

Publicada em

e

Publicada em: Engenharia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
209
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
5
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • Uma árvore de decisão é formada por um conjunto de nós de decisão, perguntas, que permitem a classificação de cada caso. Uma árvore de decisão
    consiste numa hierarquia de testes a algumas das variáveis envolvidas no problema de decisão. A árvore pode ser lida a partir do teste encontrado na
    parte superior da mesma, normalmente chamado nó raiz da árvore.
  • É conveniente usar árvore de decisão quando o objetivo for categorizar dados de arquivos. Também é uma boa escolha quando o objetivo é gerar regras que podem ser facilmente entendidas, explicadas e traduzidas para linguagem natural.
  • A heurística ID3
    A física usa o termo entropia para descrever a quantidade de desordem associada a um sistema. Na teoria da informação, este termo tem uma significado semelhante, -- ele mede o grau de desordem de um conjunto de dados. A heurística ID3 usa este conceito para encontrar o próximo melhor atributo de um dado para ser utilizado como nó de uma árvore de decisão. Logo , a idéia por trás do algoritmo ID3 é achar um atributo que reduza em maior valor a entropia de um conjunto de dados, assim reduzindo a aleatoriedade - dificuldade de previsão - da variável que define classes.
  • Neste exemplo são trabalhados dados que relatam as condições propícias de
    uma pessoa receber ou não um empréstimo. Tem-se então duas possíveis
    classes: sim (receber empréstimo) e não (não receber empréstimo). Os atributos
    são: montante, salário e conta. O atributo montante pode assumir os valores de
    médio, alto ou baixo. O atributo salário pode ser baixo ou alto e o atributo conta
    pode ser "sim" ou "não". Alguns dados são exemplos positivos de uma classe
    "sim", ou seja, os requisitos exigidos a uma pessoa, por um banco, são
    satisfatórios à concessão de um empréstimo, e outros são negativos, onde os
    requisitos exigidos não são satisfatórios à concessão de um empréstimo.

    Depois de organizar toda essa massa de dados, chegamos a seguinte tabela:
    A partir de uma árvore de decisão é possível derivar regras.
  • A física usa o termo entropia para descrever a quantidade de desordem associada a um sistema.
    , a idéia por trás do algoritmo ID3 é achar um atributo que reduza em maior valor a entropia de um conjunto de dados, assim reduzindo a aleatoriedade - dificuldade de previsão - da variável que define classes. Seguindo esta heurística, você estará essencialmente encontrando o melhor atributo para classificar os registros a fim de que os mesmos tenham utilidade máxima.
  • Onde calculamos a proporção do número de exemplos positivos e o mesmo para o número de exemplos negativos para aquele atributo em questão multiplicado pelo logaritmo destas proporções. Um exemplo prático: Considere S uma coleção de 14 exemplos, incluindo 9 positivos ("will buy") e 5 negativos ("won't buy"). Logo a entropia para esta coleção S seria : Notação: [+9,-5] 
    O próximo passo na heurística ID3 é calcular o ganho de informação para cada atributo que pode ser selecionado como nó na árvore. Essencialmente é apenas calcular a entropia de todo o conjunto de dados e diminuir este da entropia do sub-conjunto particionado para tal atributo. Este processo é feito para cada atributo do conjunto de dados, e o atributo com o maior ganhor de informação será o selecionado para o próximo nó da árvore.
  • Transformando uma árvore de decisão em regras de classificação:
    Uma árvore de decisão pode ser facilmente transformada num conjunto de regras de classificação. As regras são do tipo: IF L1 AND L2 . . . AND Ln THEN Classe = Valor, onde
    Li são expressões do tipo Atributo = Valor. Para cada caminho, da raiz até uma folha, tem-se
    uma regra de classificação. Cada par (atributo,valor) neste caminho dá origem a um Li. Por
    exemplo, a árvore de decisão do exemplo acima corresponde ao seguinte conjunto de regras
    de classificação:

    Idéia geral de como criar uma árvore de decisão.
    A idéia geral é a que está por trás do algoritmo ID3, criado por Ross Quinlan, da
    Universidade de Sydney em 1986 e de seus sucessores (um deles, o algoritmo C4.5 também
    proposto por Ross Quinlan em 1993).
  • Mineração de dados

    1. 1. MINERAÇÃO DE DADOS COM ÁRVORES DE DECISÃO Ângelo Lopes F.
    2. 2. TÓPICOS • Introdução • O que é arvore de decisão? • Breve Historia • Objetivo de arvore de decisão em DM • A Heurística & Entropia ID3 • O algoritmo • Como funciona a arvore na pratica. • Conclusão
    3. 3. INTRODUÇÃO As árvores de decisão tornaram-se uma das abordagens mais poderosas e populares na descoberta do conhecimento e mineração de dados, a ciência e tecnologia de explorar corpos grandes e complexas de dados, a fim de descobrir padrões úteis. A área é de grande importância, pois permite a modelagem e conhecimento extracção da abundância de dados disponíveis. Um dado se transforma em informação quando ganha um significado para seu utilizador, caso contrário, continua sendo simplesmente um dado.
    4. 4. O QUE É ARVORE DE DECISÃO • É um método adequado quando o objectivo do Data Mining é classificação de dados ou predição de saídas. • Uma árvore de decisão é formada por um conjunto de nós de decisão, perguntas, que permitem a classificação de cada caso. Ela consiste numa hierarquia de testes a algumas das variáveis envolvidas no problema de decisão. A árvore pode ser lida a partir do teste encontrado na parte superior da mesma, normalmente chamado nó raiz da árvore.
    5. 5. BREVE HISTORIA Foi um professor da Universidade de Sydney, Austrália, Ross Quinlan, que desenvolveu a tecnologia que permitiu o aparecimento das Árvores de Decisão. Muitas pessoas na indústria de Data Mining consideram Quinlan como o "pai das Árvores de Decisão". A contribuição de Quinlan foi a elaboração de um novo algoritmo chamado ID3, desenvolvido em 1983.
    6. 6. EXEMPLO/OBJECTIVO ARVORE DE DECISÃO EM DM US CAMPUS DA PRAIA
    7. 7. • Uma Árvore de Decisão tem a função de particionar recursivamente um conjunto de treinamento, até que cada subconjunto obtido deste particionamento contenha casos de uma única classe, obtendo-se assim um modelo que servirá para futuras classificações (QUINLAN, 1993). • Sintetizando, o objectivo é gerar os valores categóricos de um atributo chamado "classe".US CAMPUS DA PRAIA EXEMPLO/OBJECTIVO ARVORE DE DECISÃO EM DM
    8. 8. A HEURÍSTICA / ALGORITMO ID3 • O algoritmo ID3 usa o conceito de entropia para calcular qual o melhor atributo será utilizado para dividir os dados em subgrupos. Após a construção de uma árvores de decisão é importante avaliá-la. Esta avaliação é realizada através da utilização de dados que não tenham sido usados no treinamento. Esta estratégia permite estimar como a árvore generaliza os dados e se adapta a novas situações, podendo, também, se estimar a proporção de erros e acertos ocorridos na construção da árvore . US CAMPUS DA PRAIA
    9. 9. A HEURÍSTICA / ALGORITMO ID3 O algoritmo ID3 segue os seguintes passos: • Começar com todos os exemplos do treinamento • Escolher o atributo que melhor divide os exemplos, ou seja agrupar os exemplos da mesma classe ou exemplos semelhantes • Para o atributo escolhido, criar um nó filho para cada valor possível do atributo • Transportar os exemplos para cada filho tendo em conta o valor do filho • Repetir o procedimento para cada filho não "puro". Um filho é puro quando cada atributo X tem o mesmo valor para todos os exemplos. Na etapa 2 • O algoritmo, para achar o melhor atributo é necessário encontrar a entropia para cada atributo possível naquele nó. • Para isto usamos a formula da entropia:
    10. 10. IF Idade =< 30 AND Renda = Baixa THEN Classe = Não IF Idade =< 30 AND Renda = Média THEN Classe = Sim IF Idade =< 30 AND Renda = Média-Alta THEN Classe = Sim IF Idade =< 30 AND Renda = Alta THEN Classe = Sim IF Idade 31...50 THEN Classe = Sim IF Idade 51...60 THEN Classe = Sim IF Idade > 60 THEN Classe = Não O ALGORITMO DE AD • Com base na árvore de decisão apresentada na Figura acima pode-se exemplificar a derivação de regras. Dois exemplos de regras obtidas a partir desta árvore são mostrados a seguir. • SE montante = médio e salário = baixo ENTÃO classe = não. • SE montante = médio e salário = alto ENTÃO classe = sim.
    11. 11. COMO FUNCIONA NA PRATICA US CAMPUS DA PRAIA
    12. 12. US CAMPUS DA PRAIA COMO FUNCIONA NA PRATICA
    13. 13. CONCLUSÃO • No breve espaço deste trabalho, minha principal missão foi introduzir um pouco do pensamento que está por trás da técnica de Data Mining (árvore de decisão). • A árvore de decisão é muito útil como uma técnica exploratória. • Ao construir uma árvore de decisão, é possível fazermos uma análise para determinar a escolha mais favorável, levando em consideração os custos, as probabilidades e as conseqüências associados. US CAMPUS DA PRAIA
    14. 14. AGRADECIMENTO • A Professora pela compreensão. • Aos Colegas da turma pelo … Obrigado!!! •Ate aqui nos ajudou o Senhor…(Ezequiel) US CAMPUS DA PRAIA

    ×