Web Data Mining com R: design de
projetos para cria¸˜o de modelos
ca
preditivos
Fabr´ Jailson Barth
ıcio
Faculdade BandTec...
Sum´rio e Objetivos
a
• Etapas em estudos preditivos
• Escolha dos dados
• Medidas de erro

Web Data Mining com R: design ...
Etapas em estudos preditivos
• Escolher o conjunto de dados corretos.
• Dividir os dados em:
Treinamento.
Teste.
Valida¸˜o...
• Selecionar atributos que devem formar o conjunto de
treinamento.
• Identificar modelos preditivos usando o conjunto de
tr...
• Aplicar cross-validation sobre o conjunto de
treinamento.
• Se n˜o existe conjunto de valida¸˜o ent˜o aplicar o
a
ca
a
m...
Identificando o conjunto de dados
corretos
• Em alguns casos ´ f´cil (avalia¸˜o de filmes → novas
e a
ca
avalia¸˜es de filmes...
Defini¸˜o de Erro
ca
Table 1: Conjunto de teste
Exemplo

Classe real

Classe inferida

1

Positivo

Positivo

2

Positivo

...
qtd incorretos
erro(modelo) =
qtd exemplos

(1)

onde:
• qtd exemplos: quantidade de exemplos do conjunto
de teste.
• qtd ...
Neste exemplo:
Table 2: Conjunto de teste
Exemplo

Classe real

Classe inferida

1

Positivo

Positivo

2

Positivo

Negat...
Defini¸˜o de Verdadeiro e Falso Positivo
ca
• Verdadeiro Positivo = identificado corretamente.
• Falso Positivo = identificad...
Exemplo de teste m´dico:
e
• Verdadeiro Positivo = Pessoa doente corretamente
classificada como doente.
• Falso Positivo = ...
Matriz de precis˜o e cobertura
a
Positivo de fato

Negativo de fato

Classificados

Verdadeiro

Falso

pelo modelo

Positiv...
Cross-validation

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Cross-validation

13
Material de consulta
• Tom Mitchell. Machine Learning, 1997. (Cap´
ıtulo 5).
• Iah H. Witteh and Eibe Frank. Data Mining, ...
Próximos SlideShares
Carregando em…5
×

Web Data Mining com R: design de projetos para criação de modelos preditivos

435 visualizações

Publicada em

Web Data Mining com R: design de projetos para criação de modelos preditivos

Publicada em: Tecnologia, Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
435
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
11
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Web Data Mining com R: design de projetos para criação de modelos preditivos

  1. 1. Web Data Mining com R: design de projetos para cria¸˜o de modelos ca preditivos Fabr´ Jailson Barth ıcio Faculdade BandTec e VAGAS Tecnologia Junho de 2013
  2. 2. Sum´rio e Objetivos a • Etapas em estudos preditivos • Escolha dos dados • Medidas de erro Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Sum´rio e Objetivos a 2
  3. 3. Etapas em estudos preditivos • Escolher o conjunto de dados corretos. • Dividir os dados em: Treinamento. Teste. Valida¸˜o (opcional). ca Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Etapas em estudos preditivos 3
  4. 4. • Selecionar atributos que devem formar o conjunto de treinamento. • Identificar modelos preditivos usando o conjunto de treinamento. Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Etapas em estudos preditivos 4
  5. 5. • Aplicar cross-validation sobre o conjunto de treinamento. • Se n˜o existe conjunto de valida¸˜o ent˜o aplicar o a ca a modelo 1x no conjunto de teste. • Se existe conjunto de valida¸˜o ent˜o aplicar o modelo ca a no conjunto de teste e refinar o modelo. • Se existe conjunto de valida¸˜o ent˜o aplicar o modelo ca a 1x no conjunto de valida¸˜o. ca Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Etapas em estudos preditivos 5
  6. 6. Identificando o conjunto de dados corretos • Em alguns casos ´ f´cil (avalia¸˜o de filmes → novas e a ca avalia¸˜es de filmes). co • Em outros pode ser mais dif´ (dados gen´ticos → ıcil e doen¸as). c • Geralmente, quanto maior a quantidade de dados, melhor s˜o os modelos. a • Conhecer bench marks ajuda! • Sempre come¸amos com dados brutos e c precisamos process´-los. a Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca corretos Identificando o conjunto de dados 6
  7. 7. Defini¸˜o de Erro ca Table 1: Conjunto de teste Exemplo Classe real Classe inferida 1 Positivo Positivo 2 Positivo Negativo 3 Negativo Negativo 4 Negativo Negativo 5 Negativo Negativo 6 Positivo Positivo 7 Positivo Negativo 8 Negativo Negativo Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Defini¸˜o de Erro ca 7
  8. 8. qtd incorretos erro(modelo) = qtd exemplos (1) onde: • qtd exemplos: quantidade de exemplos do conjunto de teste. • qtd corretos: quantidade de exemplos do conjunto de teste incorretamente classificados. Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Defini¸˜o de Erro ca 8
  9. 9. Neste exemplo: Table 2: Conjunto de teste Exemplo Classe real Classe inferida 1 Positivo Positivo 2 Positivo Negativo 3 Negativo Negativo 4 Negativo Negativo 5 Negativo Negativo 6 Positivo Positivo 7 Positivo Negativo 8 Negativo Negativo 2 erro(modelo) = = 0.25 8 Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Defini¸˜o de Erro ca (2) 9
  10. 10. Defini¸˜o de Verdadeiro e Falso Positivo ca • Verdadeiro Positivo = identificado corretamente. • Falso Positivo = identificado incorretamente. • Verdadeiro Negativo = rejeitado corretamente. • Falso Negativo = rejeitado incorretamente. Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Positivo Defini¸˜o de Verdadeiro e Falso ca 10
  11. 11. Exemplo de teste m´dico: e • Verdadeiro Positivo = Pessoa doente corretamente classificada como doente. • Falso Positivo = Pessoa saud´vel incorretamente a classificada como doente. • Verdadeiro Negativo = Pessoa saud´vel corretamente a classificada como saud´vel. a • Falso Negativo = Pessoa doente incorretamente classificada como saud´vel. a Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Positivo Defini¸˜o de Verdadeiro e Falso ca 11
  12. 12. Matriz de precis˜o e cobertura a Positivo de fato Negativo de fato Classificados Verdadeiro Falso pelo modelo Positivo Positivo como positivo (VP) (FP) Classificados Falso Verdadeiro pelo modelo Negativo Negativo como negativo (FN) (VN) Cobertura Precis˜o a V P /(V P + F P ) V N/(V N + F N ) Acur´cia: a V P /(V P + F N ) V N/(F P + V N ) Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca (V P + V N )/(F P + F N ) Matriz de precis˜o e cobertura a 12
  13. 13. Cross-validation Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Cross-validation 13
  14. 14. Material de consulta • Tom Mitchell. Machine Learning, 1997. (Cap´ ıtulo 5). • Iah H. Witteh and Eibe Frank. Data Mining, 2000. (Cap´ ıtulo 5). • Prediction study design. Data Analysis Course. Coursera.org • Imagens retiradas de http://genome.tugraz.at/proclassify/help/pages/XV.html Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Material de consulta 14

×