Web Data Mining com R: design de projetos para criação de modelos preditivos

414 visualizações

Publicada em

Web Data Mining com R: design de projetos para criação de modelos preditivos

Publicada em: Tecnologia, Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
414
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
10
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Web Data Mining com R: design de projetos para criação de modelos preditivos

  1. 1. Web Data Mining com R: design de projetos para cria¸˜o de modelos ca preditivos Fabr´ Jailson Barth ıcio Faculdade BandTec e VAGAS Tecnologia Junho de 2013
  2. 2. Sum´rio e Objetivos a • Etapas em estudos preditivos • Escolha dos dados • Medidas de erro Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Sum´rio e Objetivos a 2
  3. 3. Etapas em estudos preditivos • Escolher o conjunto de dados corretos. • Dividir os dados em: Treinamento. Teste. Valida¸˜o (opcional). ca Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Etapas em estudos preditivos 3
  4. 4. • Selecionar atributos que devem formar o conjunto de treinamento. • Identificar modelos preditivos usando o conjunto de treinamento. Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Etapas em estudos preditivos 4
  5. 5. • Aplicar cross-validation sobre o conjunto de treinamento. • Se n˜o existe conjunto de valida¸˜o ent˜o aplicar o a ca a modelo 1x no conjunto de teste. • Se existe conjunto de valida¸˜o ent˜o aplicar o modelo ca a no conjunto de teste e refinar o modelo. • Se existe conjunto de valida¸˜o ent˜o aplicar o modelo ca a 1x no conjunto de valida¸˜o. ca Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Etapas em estudos preditivos 5
  6. 6. Identificando o conjunto de dados corretos • Em alguns casos ´ f´cil (avalia¸˜o de filmes → novas e a ca avalia¸˜es de filmes). co • Em outros pode ser mais dif´ (dados gen´ticos → ıcil e doen¸as). c • Geralmente, quanto maior a quantidade de dados, melhor s˜o os modelos. a • Conhecer bench marks ajuda! • Sempre come¸amos com dados brutos e c precisamos process´-los. a Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca corretos Identificando o conjunto de dados 6
  7. 7. Defini¸˜o de Erro ca Table 1: Conjunto de teste Exemplo Classe real Classe inferida 1 Positivo Positivo 2 Positivo Negativo 3 Negativo Negativo 4 Negativo Negativo 5 Negativo Negativo 6 Positivo Positivo 7 Positivo Negativo 8 Negativo Negativo Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Defini¸˜o de Erro ca 7
  8. 8. qtd incorretos erro(modelo) = qtd exemplos (1) onde: • qtd exemplos: quantidade de exemplos do conjunto de teste. • qtd corretos: quantidade de exemplos do conjunto de teste incorretamente classificados. Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Defini¸˜o de Erro ca 8
  9. 9. Neste exemplo: Table 2: Conjunto de teste Exemplo Classe real Classe inferida 1 Positivo Positivo 2 Positivo Negativo 3 Negativo Negativo 4 Negativo Negativo 5 Negativo Negativo 6 Positivo Positivo 7 Positivo Negativo 8 Negativo Negativo 2 erro(modelo) = = 0.25 8 Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Defini¸˜o de Erro ca (2) 9
  10. 10. Defini¸˜o de Verdadeiro e Falso Positivo ca • Verdadeiro Positivo = identificado corretamente. • Falso Positivo = identificado incorretamente. • Verdadeiro Negativo = rejeitado corretamente. • Falso Negativo = rejeitado incorretamente. Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Positivo Defini¸˜o de Verdadeiro e Falso ca 10
  11. 11. Exemplo de teste m´dico: e • Verdadeiro Positivo = Pessoa doente corretamente classificada como doente. • Falso Positivo = Pessoa saud´vel incorretamente a classificada como doente. • Verdadeiro Negativo = Pessoa saud´vel corretamente a classificada como saud´vel. a • Falso Negativo = Pessoa doente incorretamente classificada como saud´vel. a Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Positivo Defini¸˜o de Verdadeiro e Falso ca 11
  12. 12. Matriz de precis˜o e cobertura a Positivo de fato Negativo de fato Classificados Verdadeiro Falso pelo modelo Positivo Positivo como positivo (VP) (FP) Classificados Falso Verdadeiro pelo modelo Negativo Negativo como negativo (FN) (VN) Cobertura Precis˜o a V P /(V P + F P ) V N/(V N + F N ) Acur´cia: a V P /(V P + F N ) V N/(F P + V N ) Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca (V P + V N )/(F P + F N ) Matriz de precis˜o e cobertura a 12
  13. 13. Cross-validation Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Cross-validation 13
  14. 14. Material de consulta • Tom Mitchell. Machine Learning, 1997. (Cap´ ıtulo 5). • Iah H. Witteh and Eibe Frank. Data Mining, 2000. (Cap´ ıtulo 5). • Prediction study design. Data Analysis Course. Coursera.org • Imagens retiradas de http://genome.tugraz.at/proclassify/help/pages/XV.html Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Material de consulta 14

×