Aplicação de técnicas de mineração de dados na base soybean large, disponibilizada no site UCI KDD (http://kdd.ics.uci.edu/).
Autores: Cassius Busemeyer, Cristiane Aparecida Luquetta.
2. IB1- Histórico As sete pontes de Königsberg: Teoria dos grafos; Vizinho mais próximos entre outros; K-NN (vizinho mais próximo); IB1.
3. IB1 - Características Instance Based Learning; Pouco esforço computacional no treino; Compara-se ao J.48 (autores do algoritmo); Usa distância euclidiana para calcular similaridade.
4.
5. Como funciona Compara exemplos do treino com 1 (um) exemplo da base e classifica-o escolhendo a classe da instância com maior grau de similaridade; Hãã: Pega o exemplo mais parecido do conjunto de treino.
6. IB1 - Algoritmo PARA CADA x pertencente aos dados de treino FAÇA 1 PARA CADA y pertencente a base FAÇA Sim [y] = similaridade (x,y) 2 ymax – alguns y pertencem a base com maximo sim[y] 3 SE class(x) = class (ymax) ENTÃO classificação – correta SENÃO classificação – incorreta 4 Classe – Classe U {x}
7. Deriva da Teoria dos Jogos de John Von Neumann (1926); Albert Tucker cria o dilema do prisioneiro (1950); John Nash mostra que existe equilíbrio entre jogos não-cooperativos (1951). Minimax - Histórico
10. MiniMax - Algoritmo 1. VERIFIQUE as próximas jogadas diretamente atingíveis a partir do tabuleiro corrente SE a altura máxima de busca não tiver sido alcançada; SENÃO RETORNE a estimativa (heurística) do tabuleiro corrente; 2. ENTÃO caso uma se trate de posição de vitória, dê a ela a mais alta estimativa possível e retorne este valor; 3. SENÃO considere todos os movimentos que o oponente possa fazer em seguida. RETORNE a pior jogada /*do oponente*/ contra a máquina. ATIVE recursivamente a expansão de estados; 4. ESCOLHA a jogada com a mais alta estimativa.
11. Voting Feature Intervals HISTÓRICO É comparado com métodos estatísticos, principalmente NBC (Naive Bayes Classifier); CARACTERÍSTICAS Algoritmo funciona de modos diferentes para valores numéricos e nominais;
12.
13. Algoritmo LEIA a base de treino INÍCIO PARA CADA característica f PARA CADA classe c End_point = end_points[f] une-se com find_end_points (training Set, f,c); tipo (end_points[f]); SEf é linear Cada par de distintos pontos consecutivos em end_points[f] forma escala intervalar SENÃO /* é nominal */ Cada ponto distinto em end_points forma um ponto de intervalo PARA CADA intervalo i na dimensão de atributos f PARA CADA Classe c Interval_class_count[f,i,c]= 0 Count_instances(f,conjunto de treino); PARA CADA intervalo i nos atributos PARA CADA classe c Interval_class_vote[f,i,c]=interval_class_count[f,i,c]/class_count[c] Normalize interval_class_vote[f,i,c]; /*tal que somatório de intervalo_class_vote[f,i,c]=1 */ FIM. Contagem de instâncias (f,conjunto de treino); INÍCIO PARA CADA instância no conjunto de treino SEef é conhecido I = encontre intervalos (f,ef) Ec= classe da instância e SEi é um ponto de intervalo SEef= limite mais baixo de i Interval_class_count[f,i,ec]+=1 SENÃO /* é um range interval*/ SEef= limite mais baixo de i Interval_class_count[f,i-1,ec]+=0.5 Interval_class_count[f,I,ec]+=0.5 SENÃO /* e entra no i*/ Interval_class_count[f,i,ec]+=1 FIM Classificação do algoritmo INÍCIO PARA CADA classe c Vote[c]=0 PARA CADA atributo f PARA CADA classe c Feature_vote[f,c] = 0 SEef é um valor conhecido I= encontre intervalos (f,ef) SEI é um ponto de intervalo SEef= limite mais baixo de i PARA CADA classe c Feature_vote[f,c] = intervals_class_vote[f,I,c] SENÃO /*É uma escala intervalar*/ PARA CADA classe c Feature_vote[f,c] = interval_class_vote[f,i-1,c] + interval_class_vote[f,I,c]/2 SENÃO /*entra no intervalo i*/ PARA CADA classe c Feature_vote[f,c] = interval_class_vote[f,I,c] PARA CADA classe c Vote[c] = vote[c] + feature_vote[f,c]; RETORNE a classe c com maior vote[c] FIM
14. Base Soybean Base sobre doenças da soja. Originada de um trabalho Michalski e Chilausky; Repositório disponibiliza duas versões: 340 instâncias e 307 instâncias; Alguns autores dizem que Michalski e Chilausky não disponibilizaram os dados corretamente e não sabem como eles chegaram aos resultados divulgados; Outros autores dizem que a base disponibilizada não é a mesma do trabalho original.
15. Base- Soybean Large Variação dos tipos de doenças da soja. Causador: Fungo (mais temidas); Vírus; Nematóides; Fitoplasma; Protozoários; Plantas parasitárias; Agentes variados (poluição, temperatura); Por região geográfica: Existem doenças particulares do Brasil, EUA. Etc...
20. Considerações Finais Dificuldades: Entendimento da base; Pouca literatura ou literatura com informações divergentes sobre os algoritmos; Pesquisadores não responderam/etapa de validação; Próximos trabalhos: Melhor avaliação e comparação de resultados.