O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Mineração de Dados na Base Soybean Large

720 visualizações

Publicada em

Aplicação de técnicas de mineração de dados na base soybean large, disponibilizada no site UCI KDD (http://kdd.ics.uci.edu/).

Publicada em: Educação, Tecnologia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Mineração de Dados na Base Soybean Large

  1. 1. Mineração de DadosBase Soybean Large<br />Alunos: <br />Cassius Busemeyer<br />Cristiane Luquetta<br />
  2. 2. IB1- Histórico<br />As sete pontes de Königsberg:<br />Teoria dos grafos;<br />Vizinho mais próximos entre outros;<br />K-NN (vizinho mais próximo);<br />IB1.<br />
  3. 3. IB1 - Características<br />Instance Based Learning;<br />Pouco esforço computacional no treino;<br />Compara-se ao J.48 (autores do algoritmo);<br />Usa distância euclidiana para calcular similaridade.<br />
  4. 4.
  5. 5. Como funciona<br />Compara exemplos do treino com 1 (um) exemplo da base e classifica-o escolhendo a classe da instância com maior grau de similaridade;<br />Hãã: Pega o exemplo mais parecido do conjunto de treino.<br />
  6. 6. IB1 - Algoritmo<br />PARA CADA x pertencente aos dados de treino FAÇA<br /> 1 PARA CADA y pertencente a base FAÇA<br />Sim [y] = similaridade (x,y)<br /> 2 ymax – alguns y pertencem a base com maximo sim[y]<br /> 3 SE class(x) = class (ymax)<br />ENTÃO classificação – correta<br />SENÃO classificação – incorreta<br /> 4 Classe – Classe U {x} <br />
  7. 7. Deriva da Teoria dos Jogos de John Von Neumann (1926);<br /> Albert Tucker cria o dilema do prisioneiro (1950);<br /> John Nash mostra que existe equilíbrio entre jogos não-cooperativos (1951).<br />Minimax - Histórico<br />
  8. 8. Características<br />
  9. 9. <ul><li>São explorados os lances possíveis para cada jogada até o fim do jogo ou profundidade da árvore (n jogadas). E escolhido o melhor lance possível para o jogador;</li></ul>Como funciona<br />Hãã: cria todas as jogadas possíveis de um jogo até seu fim (ou até onde a máquina ou tempo permitir) e escolhe a melhor.<br />
  10. 10. MiniMax - Algoritmo<br /> 1. VERIFIQUE as próximas jogadas diretamente atingíveis a partir do tabuleiro corrente<br />SE a altura máxima de busca não tiver sido alcançada;<br />SENÃO<br />RETORNE a estimativa (heurística) do tabuleiro corrente;<br /> 2. ENTÃO caso uma se trate de posição de vitória, dê a ela a mais alta estimativa possível e retorne este valor;<br /> 3. SENÃO considere todos os movimentos que o oponente possa fazer em seguida.<br />RETORNE a pior jogada /*do oponente*/ contra a máquina. <br />ATIVE recursivamente a expansão de estados;<br /> 4. ESCOLHA a jogada com a mais alta estimativa. <br />
  11. 11. Voting Feature Intervals<br />HISTÓRICO<br />É comparado com métodos estatísticos, principalmente NBC (Naive Bayes Classifier);<br />CARACTERÍSTICAS<br />Algoritmo funciona de modos diferentes para valores numéricos e nominais;<br />
  12. 12. Como funciona<br /><ul><li>Cria um vetor descrevendo valores de um atributo e dá notas para cada valor de acordo com a classe, discretiza os dados, a classe mais votada ganha o atributo;</li></ul>Hãã: cada valor de atributo de uma instância vota numa classe e é eleita a mais votada.<br />
  13. 13. Algoritmo<br />LEIA a base de treino<br />INÍCIO<br />PARA CADA característica f<br />PARA CADA classe c<br />End_point = end_points[f] une-se com find_end_points (training Set, f,c); tipo (end_points[f]);<br />SEf é linear <br /> Cada par de distintos pontos consecutivos em end_points[f] forma escala intervalar<br />SENÃO /* é nominal */<br /> Cada ponto distinto em end_points forma um ponto de intervalo<br /> <br />PARA CADA intervalo i na dimensão de atributos f<br />PARA CADA Classe c<br /> Interval_class_count[f,i,c]= 0<br /> Count_instances(f,conjunto de treino);<br />PARA CADA intervalo i nos atributos<br />PARA CADA classe c<br /> Interval_class_vote[f,i,c]=interval_class_count[f,i,c]/class_count[c]<br /> Normalize interval_class_vote[f,i,c];<br />/*tal que somatório de intervalo_class_vote[f,i,c]=1 */<br />FIM.<br /> <br />Contagem de instâncias (f,conjunto de treino);<br />INÍCIO<br />PARA CADA instância no conjunto de treino<br />SEef é conhecido<br />I = encontre intervalos (f,ef)<br />Ec= classe da instância e<br /> <br />SEi é um ponto de intervalo<br />SEef= limite mais baixo de i<br />Interval_class_count[f,i,ec]+=1<br />SENÃO /* é um range interval*/<br />SEef= limite mais baixo de i<br />Interval_class_count[f,i-1,ec]+=0.5<br /> Interval_class_count[f,I,ec]+=0.5<br />SENÃO /* e entra no i*/<br />Interval_class_count[f,i,ec]+=1<br />FIM<br /> <br />Classificação do algoritmo<br />INÍCIO<br />PARA CADA classe c<br /> Vote[c]=0<br /> <br />PARA CADA atributo f<br />PARA CADA classe c<br /> Feature_vote[f,c] = 0<br />SEef é um valor conhecido<br />I= encontre intervalos (f,ef)<br /> <br />SEI é um ponto de intervalo<br />SEef= limite mais baixo de i<br />PARA CADA classe c<br /> Feature_vote[f,c] = intervals_class_vote[f,I,c]<br />SENÃO /*É uma escala intervalar*/<br />PARA CADA classe c<br /> Feature_vote[f,c] = interval_class_vote[f,i-1,c] + interval_class_vote[f,I,c]/2<br />SENÃO /*entra no intervalo i*/<br />PARA CADA classe c<br /> Feature_vote[f,c] = interval_class_vote[f,I,c]<br /> <br />PARA CADA classe c<br />Vote[c] = vote[c] + feature_vote[f,c];<br /> <br />RETORNE a classe c com maior vote[c]<br />FIM<br />
  14. 14. Base Soybean<br />Base sobre doenças da soja.<br />Originada de um trabalho Michalski e Chilausky;<br />Repositório disponibiliza duas versões:<br />340 instâncias e 307 instâncias;<br />Alguns autores dizem que Michalski e Chilausky não disponibilizaram os dados corretamente e não sabem como eles chegaram aos resultados divulgados;<br />Outros autores dizem que a base disponibilizada não é a mesma do trabalho original. <br />
  15. 15. Base- Soybean Large<br />Variação dos tipos de doenças da soja. <br />Causador:<br />Fungo (mais temidas);<br />Vírus;<br />Nematóides;<br />Fitoplasma;<br />Protozoários;<br />Plantas parasitárias;<br />Agentes variados (poluição, temperatura);<br />Por região geográfica:<br />Existem doenças particulares do Brasil, EUA.<br />Etc...<br />
  16. 16. KDD – Limpeza e transformação dos dados<br />
  17. 17. KDD- Seleção dos algoritmos<br />IB1;<br />Comparado com J.48.<br />MiniMax;<br />V.F.I;<br />Comparado c/ NaiveBayes.<br />
  18. 18. Resultados<br />Todos os resultados passaram de 75% na fase inicial (dito como suficiente – Witten e Frank, 2005).<br />
  19. 19. Resultados<br />
  20. 20. Considerações Finais<br />Dificuldades:<br />Entendimento da base;<br />Pouca literatura ou literatura com informações divergentes sobre os algoritmos;<br />Pesquisadores não responderam/etapa de validação;<br />Próximos trabalhos:<br />Melhor avaliação e comparação de resultados.<br />
  21. 21. Obrigado!<br />

×