O documento discute o design de projetos para criação de modelos preditivos usando web data mining com R. Ele descreve as principais etapas como escolher os dados corretos, dividir os dados em conjuntos de treinamento, teste e validação, selecionar atributos, identificar modelos, avaliar erros e realizar validação cruzada.
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Web Data Mining com R: design de projetos para criação de modelos preditivos
1. Web Data Mining com R: design de
projetos para cria¸˜o de modelos
ca
preditivos
Fabr´ Jailson Barth
ıcio
Faculdade BandTec e VAGAS Tecnologia
Junho de 2013
2. Sum´rio e Objetivos
a
• Etapas em estudos preditivos
• Escolha dos dados
• Medidas de erro
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Sum´rio e Objetivos
a
2
3. Etapas em estudos preditivos
• Escolher o conjunto de dados corretos.
• Dividir os dados em:
Treinamento.
Teste.
Valida¸˜o (opcional).
ca
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Etapas em estudos preditivos
3
4. • Selecionar atributos que devem formar o conjunto de
treinamento.
• Identificar modelos preditivos usando o conjunto de
treinamento.
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Etapas em estudos preditivos
4
5. • Aplicar cross-validation sobre o conjunto de
treinamento.
• Se n˜o existe conjunto de valida¸˜o ent˜o aplicar o
a
ca
a
modelo 1x no conjunto de teste.
• Se existe conjunto de valida¸˜o ent˜o aplicar o modelo
ca
a
no conjunto de teste e refinar o modelo.
• Se existe conjunto de valida¸˜o ent˜o aplicar o modelo
ca
a
1x no conjunto de valida¸˜o.
ca
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Etapas em estudos preditivos
5
6. Identificando o conjunto de dados
corretos
• Em alguns casos ´ f´cil (avalia¸˜o de filmes → novas
e a
ca
avalia¸˜es de filmes).
co
• Em outros pode ser mais dif´ (dados gen´ticos →
ıcil
e
doen¸as).
c
• Geralmente, quanto maior a quantidade de dados,
melhor s˜o os modelos.
a
• Conhecer bench marks ajuda!
• Sempre come¸amos com dados brutos e
c
precisamos process´-los.
a
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
corretos
Identificando o conjunto de dados
6
7. Defini¸˜o de Erro
ca
Table 1: Conjunto de teste
Exemplo
Classe real
Classe inferida
1
Positivo
Positivo
2
Positivo
Negativo
3
Negativo
Negativo
4
Negativo
Negativo
5
Negativo
Negativo
6
Positivo
Positivo
7
Positivo
Negativo
8
Negativo
Negativo
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Defini¸˜o de Erro
ca
7
8. qtd incorretos
erro(modelo) =
qtd exemplos
(1)
onde:
• qtd exemplos: quantidade de exemplos do conjunto
de teste.
• qtd corretos: quantidade de exemplos do conjunto de
teste incorretamente classificados.
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Defini¸˜o de Erro
ca
8
9. Neste exemplo:
Table 2: Conjunto de teste
Exemplo
Classe real
Classe inferida
1
Positivo
Positivo
2
Positivo
Negativo
3
Negativo
Negativo
4
Negativo
Negativo
5
Negativo
Negativo
6
Positivo
Positivo
7
Positivo
Negativo
8
Negativo
Negativo
2
erro(modelo) = = 0.25
8
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Defini¸˜o de Erro
ca
(2)
9
10. Defini¸˜o de Verdadeiro e Falso Positivo
ca
• Verdadeiro Positivo = identificado corretamente.
• Falso Positivo = identificado incorretamente.
• Verdadeiro Negativo = rejeitado corretamente.
• Falso Negativo = rejeitado incorretamente.
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Positivo
Defini¸˜o de Verdadeiro e Falso
ca
10
11. Exemplo de teste m´dico:
e
• Verdadeiro Positivo = Pessoa doente corretamente
classificada como doente.
• Falso Positivo = Pessoa saud´vel incorretamente
a
classificada como doente.
• Verdadeiro Negativo = Pessoa saud´vel corretamente
a
classificada como saud´vel.
a
• Falso Negativo = Pessoa doente incorretamente
classificada como saud´vel.
a
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Positivo
Defini¸˜o de Verdadeiro e Falso
ca
11
12. Matriz de precis˜o e cobertura
a
Positivo de fato
Negativo de fato
Classificados
Verdadeiro
Falso
pelo modelo
Positivo
Positivo
como positivo
(VP)
(FP)
Classificados
Falso
Verdadeiro
pelo modelo
Negativo
Negativo
como negativo
(FN)
(VN)
Cobertura
Precis˜o
a
V P /(V P + F P )
V N/(V N + F N )
Acur´cia:
a
V P /(V P + F N )
V N/(F P + V N )
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
(V P + V N )/(F P + F N )
Matriz de precis˜o e cobertura
a
12
14. Material de consulta
• Tom Mitchell. Machine Learning, 1997. (Cap´
ıtulo 5).
• Iah H. Witteh and Eibe Frank. Data Mining, 2000.
(Cap´
ıtulo 5).
• Prediction study design. Data Analysis Course.
Coursera.org
• Imagens retiradas de
http://genome.tugraz.at/proclassify/help/pages/XV.html
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Material de consulta
14