Mineração de Dados na Base Soybean Large

Mineração de DadosBase Soybean Large Alunos: Cassius Busemeyer Cristiane Luquetta

IB1- Histórico As sete pontes de Königsberg: Teoria dos grafos; Vizinho mais próximos entre outros; K-NN (vizinho mais próximo); IB1.

IB1 - Características Instance Based Learning; Pouco esforço computacional no treino; Compara-se ao J.48 (autores do algoritmo); Usa distância euclidiana para calcular similaridade.

Como funciona Compara exemplos do treino com 1 (um) exemplo da base e classifica-o escolhendo a classe da instância com maior grau de similaridade; Hãã: Pega o exemplo mais parecido do conjunto de treino.

IB1 - Algoritmo PARA CADA x pertencente aos dados de treino FAÇA 1 PARA CADA y pertencente a base FAÇA Sim [y] = similaridade (x,y) 2 ymax – alguns y pertencem a base com maximo sim[y] 3 SE class(x) = class (ymax) ENTÃO classificação – correta SENÃO classificação – incorreta 4 Classe – Classe U {x}

Deriva da Teoria dos Jogos de John Von Neumann (1926); Albert Tucker cria o dilema do prisioneiro (1950); John Nash mostra que existe equilíbrio entre jogos não-cooperativos (1951). Minimax - Histórico

[object Object],Como funciona Hãã: cria todas as jogadas possíveis de um jogo até seu fim (ou até onde a máquina ou tempo permitir) e escolhe a melhor.

MiniMax - Algoritmo 1. VERIFIQUE as próximas jogadas diretamente atingíveis a partir do tabuleiro corrente SE a altura máxima de busca não tiver sido alcançada; SENÃO RETORNE a estimativa (heurística) do tabuleiro corrente; 2. ENTÃO caso uma se trate de posição de vitória, dê a ela a mais alta estimativa possível e retorne este valor; 3. SENÃO considere todos os movimentos que o oponente possa fazer em seguida. RETORNE a pior jogada /*do oponente*/ contra a máquina. ATIVE recursivamente a expansão de estados; 4. ESCOLHA a jogada com a mais alta estimativa.

Voting Feature Intervals HISTÓRICO É comparado com métodos estatísticos, principalmente NBC (Naive Bayes Classifier); CARACTERÍSTICAS Algoritmo funciona de modos diferentes para valores numéricos e nominais;

Como funciona ,[object Object],Hãã: cada valor de atributo de uma instância vota numa classe e é eleita a mais votada.

Algoritmo LEIA a base de treino INÍCIO PARA CADA característica f PARA CADA classe c End_point = end_points[f] une-se com find_end_points (training Set, f,c); tipo (end_points[f]); SEf é linear Cada par de distintos pontos consecutivos em end_points[f] forma escala intervalar SENÃO /* é nominal */ Cada ponto distinto em end_points forma um ponto de intervalo PARA CADA intervalo i na dimensão de atributos f PARA CADA Classe c Interval_class_count[f,i,c]= 0 Count_instances(f,conjunto de treino); PARA CADA intervalo i nos atributos PARA CADA classe c Interval_class_vote[f,i,c]=interval_class_count[f,i,c]/class_count[c] Normalize interval_class_vote[f,i,c]; /*tal que somatório de intervalo_class_vote[f,i,c]=1 */ FIM. Contagem de instâncias (f,conjunto de treino); INÍCIO PARA CADA instância no conjunto de treino SEef é conhecido I = encontre intervalos (f,ef) Ec= classe da instância e SEi é um ponto de intervalo SEef= limite mais baixo de i Interval_class_count[f,i,ec]+=1 SENÃO /* é um range interval*/ SEef= limite mais baixo de i Interval_class_count[f,i-1,ec]+=0.5 Interval_class_count[f,I,ec]+=0.5 SENÃO /* e entra no i*/ Interval_class_count[f,i,ec]+=1 FIM Classificação do algoritmo INÍCIO PARA CADA classe c Vote[c]=0 PARA CADA atributo f PARA CADA classe c Feature_vote[f,c] = 0 SEef é um valor conhecido I= encontre intervalos (f,ef) SEI é um ponto de intervalo SEef= limite mais baixo de i PARA CADA classe c Feature_vote[f,c] = intervals_class_vote[f,I,c] SENÃO /*É uma escala intervalar*/ PARA CADA classe c Feature_vote[f,c] = interval_class_vote[f,i-1,c] + interval_class_vote[f,I,c]/2 SENÃO /*entra no intervalo i*/ PARA CADA classe c Feature_vote[f,c] = interval_class_vote[f,I,c] PARA CADA classe c Vote[c] = vote[c] + feature_vote[f,c]; RETORNE a classe c com maior vote[c] FIM

Base Soybean Base sobre doenças da soja. Originada de um trabalho Michalski e Chilausky; Repositório disponibiliza duas versões: 340 instâncias e 307 instâncias; Alguns autores dizem que Michalski e Chilausky não disponibilizaram os dados corretamente e não sabem como eles chegaram aos resultados divulgados; Outros autores dizem que a base disponibilizada não é a mesma do trabalho original.

Base- Soybean Large Variação dos tipos de doenças da soja. Causador: Fungo (mais temidas); Vírus; Nematóides; Fitoplasma; Protozoários; Plantas parasitárias; Agentes variados (poluição, temperatura); Por região geográfica: Existem doenças particulares do Brasil, EUA. Etc...

KDD – Limpeza e transformação dos dados

KDD- Seleção dos algoritmos IB1; Comparado com J.48. MiniMax; V.F.I; Comparado c/ NaiveBayes.

Resultados Todos os resultados passaram de 75% na fase inicial (dito como suficiente – Witten e Frank, 2005).

Considerações Finais Dificuldades: Entendimento da base; Pouca literatura ou literatura com informações divergentes sobre os algoritmos; Pesquisadores não responderam/etapa de validação; Próximos trabalhos: Melhor avaliação e comparação de resultados.

Mineração de Dados na Base Soybean Large

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (15)

Semelhante a Mineração de Dados na Base Soybean Large

Semelhante a Mineração de Dados na Base Soybean Large (7)

Último

Último (20)

Mineração de Dados na Base Soybean Large