Mineração de Dados na Base Soybean Large

890 visualizações

Publicada em

Aplicação de técnicas de mineração de dados na base soybean large, disponibilizada no site UCI KDD (http://kdd.ics.uci.edu/).

Autores: Cassius Busemeyer, Cristiane Aparecida Luquetta.

Publicada em: Educação, Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
890
No SlideShare
0
A partir de incorporações
0
Número de incorporações
11
Ações
Compartilhamentos
0
Downloads
12
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Mineração de Dados na Base Soybean Large

  1. 1. Mineração de DadosBase Soybean Large<br />Alunos: <br />Cassius Busemeyer<br />Cristiane Luquetta<br />
  2. 2. IB1- Histórico<br />As sete pontes de Königsberg:<br />Teoria dos grafos;<br />Vizinho mais próximos entre outros;<br />K-NN (vizinho mais próximo);<br />IB1.<br />
  3. 3. IB1 - Características<br />Instance Based Learning;<br />Pouco esforço computacional no treino;<br />Compara-se ao J.48 (autores do algoritmo);<br />Usa distância euclidiana para calcular similaridade.<br />
  4. 4.
  5. 5. Como funciona<br />Compara exemplos do treino com 1 (um) exemplo da base e classifica-o escolhendo a classe da instância com maior grau de similaridade;<br />Hãã: Pega o exemplo mais parecido do conjunto de treino.<br />
  6. 6. IB1 - Algoritmo<br />PARA CADA x pertencente aos dados de treino FAÇA<br /> 1 PARA CADA y pertencente a base FAÇA<br />Sim [y] = similaridade (x,y)<br /> 2 ymax – alguns y pertencem a base com maximo sim[y]<br /> 3 SE class(x) = class (ymax)<br />ENTÃO classificação – correta<br />SENÃO classificação – incorreta<br /> 4 Classe – Classe U {x} <br />
  7. 7. Deriva da Teoria dos Jogos de John Von Neumann (1926);<br /> Albert Tucker cria o dilema do prisioneiro (1950);<br /> John Nash mostra que existe equilíbrio entre jogos não-cooperativos (1951).<br />Minimax - Histórico<br />
  8. 8. Características<br />
  9. 9. <ul><li>São explorados os lances possíveis para cada jogada até o fim do jogo ou profundidade da árvore (n jogadas). E escolhido o melhor lance possível para o jogador;</li></ul>Como funciona<br />Hãã: cria todas as jogadas possíveis de um jogo até seu fim (ou até onde a máquina ou tempo permitir) e escolhe a melhor.<br />
  10. 10. MiniMax - Algoritmo<br /> 1. VERIFIQUE as próximas jogadas diretamente atingíveis a partir do tabuleiro corrente<br />SE a altura máxima de busca não tiver sido alcançada;<br />SENÃO<br />RETORNE a estimativa (heurística) do tabuleiro corrente;<br /> 2. ENTÃO caso uma se trate de posição de vitória, dê a ela a mais alta estimativa possível e retorne este valor;<br /> 3. SENÃO considere todos os movimentos que o oponente possa fazer em seguida.<br />RETORNE a pior jogada /*do oponente*/ contra a máquina. <br />ATIVE recursivamente a expansão de estados;<br /> 4. ESCOLHA a jogada com a mais alta estimativa. <br />
  11. 11. Voting Feature Intervals<br />HISTÓRICO<br />É comparado com métodos estatísticos, principalmente NBC (Naive Bayes Classifier);<br />CARACTERÍSTICAS<br />Algoritmo funciona de modos diferentes para valores numéricos e nominais;<br />
  12. 12. Como funciona<br /><ul><li>Cria um vetor descrevendo valores de um atributo e dá notas para cada valor de acordo com a classe, discretiza os dados, a classe mais votada ganha o atributo;</li></ul>Hãã: cada valor de atributo de uma instância vota numa classe e é eleita a mais votada.<br />
  13. 13. Algoritmo<br />LEIA a base de treino<br />INÍCIO<br />PARA CADA característica f<br />PARA CADA classe c<br />End_point = end_points[f] une-se com find_end_points (training Set, f,c); tipo (end_points[f]);<br />SEf é linear <br /> Cada par de distintos pontos consecutivos em end_points[f] forma escala intervalar<br />SENÃO /* é nominal */<br /> Cada ponto distinto em end_points forma um ponto de intervalo<br /> <br />PARA CADA intervalo i na dimensão de atributos f<br />PARA CADA Classe c<br /> Interval_class_count[f,i,c]= 0<br /> Count_instances(f,conjunto de treino);<br />PARA CADA intervalo i nos atributos<br />PARA CADA classe c<br /> Interval_class_vote[f,i,c]=interval_class_count[f,i,c]/class_count[c]<br /> Normalize interval_class_vote[f,i,c];<br />/*tal que somatório de intervalo_class_vote[f,i,c]=1 */<br />FIM.<br /> <br />Contagem de instâncias (f,conjunto de treino);<br />INÍCIO<br />PARA CADA instância no conjunto de treino<br />SEef é conhecido<br />I = encontre intervalos (f,ef)<br />Ec= classe da instância e<br /> <br />SEi é um ponto de intervalo<br />SEef= limite mais baixo de i<br />Interval_class_count[f,i,ec]+=1<br />SENÃO /* é um range interval*/<br />SEef= limite mais baixo de i<br />Interval_class_count[f,i-1,ec]+=0.5<br /> Interval_class_count[f,I,ec]+=0.5<br />SENÃO /* e entra no i*/<br />Interval_class_count[f,i,ec]+=1<br />FIM<br /> <br />Classificação do algoritmo<br />INÍCIO<br />PARA CADA classe c<br /> Vote[c]=0<br /> <br />PARA CADA atributo f<br />PARA CADA classe c<br /> Feature_vote[f,c] = 0<br />SEef é um valor conhecido<br />I= encontre intervalos (f,ef)<br /> <br />SEI é um ponto de intervalo<br />SEef= limite mais baixo de i<br />PARA CADA classe c<br /> Feature_vote[f,c] = intervals_class_vote[f,I,c]<br />SENÃO /*É uma escala intervalar*/<br />PARA CADA classe c<br /> Feature_vote[f,c] = interval_class_vote[f,i-1,c] + interval_class_vote[f,I,c]/2<br />SENÃO /*entra no intervalo i*/<br />PARA CADA classe c<br /> Feature_vote[f,c] = interval_class_vote[f,I,c]<br /> <br />PARA CADA classe c<br />Vote[c] = vote[c] + feature_vote[f,c];<br /> <br />RETORNE a classe c com maior vote[c]<br />FIM<br />
  14. 14. Base Soybean<br />Base sobre doenças da soja.<br />Originada de um trabalho Michalski e Chilausky;<br />Repositório disponibiliza duas versões:<br />340 instâncias e 307 instâncias;<br />Alguns autores dizem que Michalski e Chilausky não disponibilizaram os dados corretamente e não sabem como eles chegaram aos resultados divulgados;<br />Outros autores dizem que a base disponibilizada não é a mesma do trabalho original. <br />
  15. 15. Base- Soybean Large<br />Variação dos tipos de doenças da soja. <br />Causador:<br />Fungo (mais temidas);<br />Vírus;<br />Nematóides;<br />Fitoplasma;<br />Protozoários;<br />Plantas parasitárias;<br />Agentes variados (poluição, temperatura);<br />Por região geográfica:<br />Existem doenças particulares do Brasil, EUA.<br />Etc...<br />
  16. 16. KDD – Limpeza e transformação dos dados<br />
  17. 17. KDD- Seleção dos algoritmos<br />IB1;<br />Comparado com J.48.<br />MiniMax;<br />V.F.I;<br />Comparado c/ NaiveBayes.<br />
  18. 18. Resultados<br />Todos os resultados passaram de 75% na fase inicial (dito como suficiente – Witten e Frank, 2005).<br />
  19. 19. Resultados<br />
  20. 20. Considerações Finais<br />Dificuldades:<br />Entendimento da base;<br />Pouca literatura ou literatura com informações divergentes sobre os algoritmos;<br />Pesquisadores não responderam/etapa de validação;<br />Próximos trabalhos:<br />Melhor avaliação e comparação de resultados.<br />
  21. 21. Obrigado!<br />

×