SlideShare uma empresa Scribd logo
Web Data Mining com R: design de
projetos para cria¸˜o de modelos
ca
preditivos
Fabr´ Jailson Barth
ıcio
Faculdade BandTec e VAGAS Tecnologia

Junho de 2013
Sum´rio e Objetivos
a
• Etapas em estudos preditivos
• Escolha dos dados
• Medidas de erro

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Sum´rio e Objetivos
a

2
Etapas em estudos preditivos
• Escolher o conjunto de dados corretos.
• Dividir os dados em:
Treinamento.
Teste.
Valida¸˜o (opcional).
ca

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Etapas em estudos preditivos

3
• Selecionar atributos que devem formar o conjunto de
treinamento.
• Identificar modelos preditivos usando o conjunto de
treinamento.

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Etapas em estudos preditivos

4
• Aplicar cross-validation sobre o conjunto de
treinamento.
• Se n˜o existe conjunto de valida¸˜o ent˜o aplicar o
a
ca
a
modelo 1x no conjunto de teste.
• Se existe conjunto de valida¸˜o ent˜o aplicar o modelo
ca
a
no conjunto de teste e refinar o modelo.
• Se existe conjunto de valida¸˜o ent˜o aplicar o modelo
ca
a
1x no conjunto de valida¸˜o.
ca

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Etapas em estudos preditivos

5
Identificando o conjunto de dados
corretos
• Em alguns casos ´ f´cil (avalia¸˜o de filmes → novas
e a
ca
avalia¸˜es de filmes).
co
• Em outros pode ser mais dif´ (dados gen´ticos →
ıcil
e
doen¸as).
c
• Geralmente, quanto maior a quantidade de dados,
melhor s˜o os modelos.
a
• Conhecer bench marks ajuda!
• Sempre come¸amos com dados brutos e
c
precisamos process´-los.
a
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
corretos

Identificando o conjunto de dados

6
Defini¸˜o de Erro
ca
Table 1: Conjunto de teste
Exemplo

Classe real

Classe inferida

1

Positivo

Positivo

2

Positivo

Negativo

3

Negativo

Negativo

4

Negativo

Negativo

5

Negativo

Negativo

6

Positivo

Positivo

7

Positivo

Negativo

8

Negativo

Negativo

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Defini¸˜o de Erro
ca

7
qtd incorretos
erro(modelo) =
qtd exemplos

(1)

onde:
• qtd exemplos: quantidade de exemplos do conjunto
de teste.
• qtd corretos: quantidade de exemplos do conjunto de
teste incorretamente classificados.

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Defini¸˜o de Erro
ca

8
Neste exemplo:
Table 2: Conjunto de teste
Exemplo

Classe real

Classe inferida

1

Positivo

Positivo

2

Positivo

Negativo

3

Negativo

Negativo

4

Negativo

Negativo

5

Negativo

Negativo

6

Positivo

Positivo

7

Positivo

Negativo

8

Negativo

Negativo

2
erro(modelo) = = 0.25
8
Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Defini¸˜o de Erro
ca

(2)

9
Defini¸˜o de Verdadeiro e Falso Positivo
ca
• Verdadeiro Positivo = identificado corretamente.
• Falso Positivo = identificado incorretamente.
• Verdadeiro Negativo = rejeitado corretamente.
• Falso Negativo = rejeitado incorretamente.

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Positivo

Defini¸˜o de Verdadeiro e Falso
ca

10
Exemplo de teste m´dico:
e
• Verdadeiro Positivo = Pessoa doente corretamente
classificada como doente.
• Falso Positivo = Pessoa saud´vel incorretamente
a
classificada como doente.
• Verdadeiro Negativo = Pessoa saud´vel corretamente
a
classificada como saud´vel.
a
• Falso Negativo = Pessoa doente incorretamente
classificada como saud´vel.
a

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca
Positivo

Defini¸˜o de Verdadeiro e Falso
ca

11
Matriz de precis˜o e cobertura
a
Positivo de fato

Negativo de fato

Classificados

Verdadeiro

Falso

pelo modelo

Positivo

Positivo

como positivo

(VP)

(FP)

Classificados

Falso

Verdadeiro

pelo modelo

Negativo

Negativo

como negativo

(FN)

(VN)

Cobertura

Precis˜o
a

V P /(V P + F P )

V N/(V N + F N )

Acur´cia:
a
V P /(V P + F N )

V N/(F P + V N )

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

(V P + V N )/(F P + F N )

Matriz de precis˜o e cobertura
a

12
Cross-validation

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Cross-validation

13
Material de consulta
• Tom Mitchell. Machine Learning, 1997. (Cap´
ıtulo 5).
• Iah H. Witteh and Eibe Frank. Data Mining, 2000.
(Cap´
ıtulo 5).
• Prediction study design. Data Analysis Course.
Coursera.org
• Imagens retiradas de
http://genome.tugraz.at/proclassify/help/pages/XV.html

Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos —
ca

Material de consulta

14

Mais conteúdo relacionado

Destaque

Analytics, KPIs for effective Churn & Loyalty management
Analytics, KPIs for effective Churn & Loyalty managementAnalytics, KPIs for effective Churn & Loyalty management
Analytics, KPIs for effective Churn & Loyalty management
Ehtisham Rao
 
Churn Modeling For Mobile Telecommunications
Churn Modeling For Mobile TelecommunicationsChurn Modeling For Mobile Telecommunications
Churn Modeling For Mobile Telecommunications
Salford Systems
 
Mensurando a Experiência do Usuário ( A Importância dos Dados Para UX ) - ...
Mensurando a Experiência do Usuário ( A Importância dos Dados Para UX ) - ...Mensurando a Experiência do Usuário ( A Importância dos Dados Para UX ) - ...
Mensurando a Experiência do Usuário ( A Importância dos Dados Para UX ) - ...
Huxley Dias
 
Inteligência Competitiva Empresarial: como alcançá-la utilizando a mineração ...
Inteligência Competitiva Empresarial: como alcançá-la utilizando a mineração ...Inteligência Competitiva Empresarial: como alcançá-la utilizando a mineração ...
Inteligência Competitiva Empresarial: como alcançá-la utilizando a mineração ...
Hekima
 
Customer Churn, A Data Science Use Case in Telecom
Customer Churn, A Data Science Use Case in TelecomCustomer Churn, A Data Science Use Case in Telecom
Customer Churn, A Data Science Use Case in Telecom
Chris Chen
 
churn prediction in telecom
churn prediction in telecom churn prediction in telecom
churn prediction in telecom
Hong Bui Van
 
Churn management
Churn managementChurn management
Churn management
Mohammed Akram Ayyubi
 
Data analytics telecom churn final ppt
Data analytics telecom churn final ppt Data analytics telecom churn final ppt
Data analytics telecom churn final ppt
Gunvansh Khanna
 
Churn Predictive Modelling
Churn Predictive ModellingChurn Predictive Modelling
Churn Predictive Modelling
Hugo E. Cisternas
 

Destaque (9)

Analytics, KPIs for effective Churn & Loyalty management
Analytics, KPIs for effective Churn & Loyalty managementAnalytics, KPIs for effective Churn & Loyalty management
Analytics, KPIs for effective Churn & Loyalty management
 
Churn Modeling For Mobile Telecommunications
Churn Modeling For Mobile TelecommunicationsChurn Modeling For Mobile Telecommunications
Churn Modeling For Mobile Telecommunications
 
Mensurando a Experiência do Usuário ( A Importância dos Dados Para UX ) - ...
Mensurando a Experiência do Usuário ( A Importância dos Dados Para UX ) - ...Mensurando a Experiência do Usuário ( A Importância dos Dados Para UX ) - ...
Mensurando a Experiência do Usuário ( A Importância dos Dados Para UX ) - ...
 
Inteligência Competitiva Empresarial: como alcançá-la utilizando a mineração ...
Inteligência Competitiva Empresarial: como alcançá-la utilizando a mineração ...Inteligência Competitiva Empresarial: como alcançá-la utilizando a mineração ...
Inteligência Competitiva Empresarial: como alcançá-la utilizando a mineração ...
 
Customer Churn, A Data Science Use Case in Telecom
Customer Churn, A Data Science Use Case in TelecomCustomer Churn, A Data Science Use Case in Telecom
Customer Churn, A Data Science Use Case in Telecom
 
churn prediction in telecom
churn prediction in telecom churn prediction in telecom
churn prediction in telecom
 
Churn management
Churn managementChurn management
Churn management
 
Data analytics telecom churn final ppt
Data analytics telecom churn final ppt Data analytics telecom churn final ppt
Data analytics telecom churn final ppt
 
Churn Predictive Modelling
Churn Predictive ModellingChurn Predictive Modelling
Churn Predictive Modelling
 

Semelhante a Web Data Mining com R: design de projetos para criação de modelos preditivos

Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquina
Fabrício Barth
 
Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big Data
Fabrício Barth
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
Fabrício Barth
 
Data science
Data scienceData science
Data science
Nauber Gois
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
Nauber Gois
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
Fabrício Barth
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Fabrício Barth
 
Esteroides JEE
Esteroides JEEEsteroides JEE
Esteroides JEE
Saulo Arruda
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
cardoso80
 
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Tribunal de Contas da União - TCU (Oficial)
 

Semelhante a Web Data Mining com R: design de projetos para criação de modelos preditivos (10)

Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquina
 
Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big Data
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
 
Data science
Data scienceData science
Data science
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Esteroides JEE
Esteroides JEEEsteroides JEE
Esteroides JEE
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
 

Mais de Fabrício Barth

Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big Data
Fabrício Barth
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Fabrício Barth
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Fabrício Barth
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionado
Fabrício Barth
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
Fabrício Barth
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando R
Fabrício Barth
 
Web Data Mining com R
Web Data Mining com RWeb Data Mining com R
Web Data Mining com R
Fabrício Barth
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random Forest
Fabrício Barth
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
Fabrício Barth
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Fabrício Barth
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big Data
Fabrício Barth
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big Data
Fabrício Barth
 
Projeto Simple Maps
Projeto Simple MapsProjeto Simple Maps
Projeto Simple Maps
Fabrício Barth
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informações
Fabrício Barth
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web Mining
Fabrício Barth
 
Ferramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFerramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de Informações
Fabrício Barth
 
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoAtena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Fabrício Barth
 

Mais de Fabrício Barth (17)

Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big Data
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
 
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big DataPré-processamento [no R] e Análise Exploratória - Curso de Big Data
Pré-processamento [no R] e Análise Exploratória - Curso de Big Data
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionado
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando R
 
Web Data Mining com R
Web Data Mining com RWeb Data Mining com R
Web Data Mining com R
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random Forest
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big Data
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big Data
 
Projeto Simple Maps
Projeto Simple MapsProjeto Simple Maps
Projeto Simple Maps
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informações
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web Mining
 
Ferramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFerramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de Informações
 
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoAtena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
 

Último

História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
TomasSousa7
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
Momento da Informática
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
Momento da Informática
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
joaovmp3
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
Momento da Informática
 
Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
WELITONNOGUEIRA3
 

Último (6)

História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
 
Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
 

Web Data Mining com R: design de projetos para criação de modelos preditivos

  • 1. Web Data Mining com R: design de projetos para cria¸˜o de modelos ca preditivos Fabr´ Jailson Barth ıcio Faculdade BandTec e VAGAS Tecnologia Junho de 2013
  • 2. Sum´rio e Objetivos a • Etapas em estudos preditivos • Escolha dos dados • Medidas de erro Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Sum´rio e Objetivos a 2
  • 3. Etapas em estudos preditivos • Escolher o conjunto de dados corretos. • Dividir os dados em: Treinamento. Teste. Valida¸˜o (opcional). ca Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Etapas em estudos preditivos 3
  • 4. • Selecionar atributos que devem formar o conjunto de treinamento. • Identificar modelos preditivos usando o conjunto de treinamento. Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Etapas em estudos preditivos 4
  • 5. • Aplicar cross-validation sobre o conjunto de treinamento. • Se n˜o existe conjunto de valida¸˜o ent˜o aplicar o a ca a modelo 1x no conjunto de teste. • Se existe conjunto de valida¸˜o ent˜o aplicar o modelo ca a no conjunto de teste e refinar o modelo. • Se existe conjunto de valida¸˜o ent˜o aplicar o modelo ca a 1x no conjunto de valida¸˜o. ca Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Etapas em estudos preditivos 5
  • 6. Identificando o conjunto de dados corretos • Em alguns casos ´ f´cil (avalia¸˜o de filmes → novas e a ca avalia¸˜es de filmes). co • Em outros pode ser mais dif´ (dados gen´ticos → ıcil e doen¸as). c • Geralmente, quanto maior a quantidade de dados, melhor s˜o os modelos. a • Conhecer bench marks ajuda! • Sempre come¸amos com dados brutos e c precisamos process´-los. a Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca corretos Identificando o conjunto de dados 6
  • 7. Defini¸˜o de Erro ca Table 1: Conjunto de teste Exemplo Classe real Classe inferida 1 Positivo Positivo 2 Positivo Negativo 3 Negativo Negativo 4 Negativo Negativo 5 Negativo Negativo 6 Positivo Positivo 7 Positivo Negativo 8 Negativo Negativo Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Defini¸˜o de Erro ca 7
  • 8. qtd incorretos erro(modelo) = qtd exemplos (1) onde: • qtd exemplos: quantidade de exemplos do conjunto de teste. • qtd corretos: quantidade de exemplos do conjunto de teste incorretamente classificados. Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Defini¸˜o de Erro ca 8
  • 9. Neste exemplo: Table 2: Conjunto de teste Exemplo Classe real Classe inferida 1 Positivo Positivo 2 Positivo Negativo 3 Negativo Negativo 4 Negativo Negativo 5 Negativo Negativo 6 Positivo Positivo 7 Positivo Negativo 8 Negativo Negativo 2 erro(modelo) = = 0.25 8 Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Defini¸˜o de Erro ca (2) 9
  • 10. Defini¸˜o de Verdadeiro e Falso Positivo ca • Verdadeiro Positivo = identificado corretamente. • Falso Positivo = identificado incorretamente. • Verdadeiro Negativo = rejeitado corretamente. • Falso Negativo = rejeitado incorretamente. Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Positivo Defini¸˜o de Verdadeiro e Falso ca 10
  • 11. Exemplo de teste m´dico: e • Verdadeiro Positivo = Pessoa doente corretamente classificada como doente. • Falso Positivo = Pessoa saud´vel incorretamente a classificada como doente. • Verdadeiro Negativo = Pessoa saud´vel corretamente a classificada como saud´vel. a • Falso Negativo = Pessoa doente incorretamente classificada como saud´vel. a Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Positivo Defini¸˜o de Verdadeiro e Falso ca 11
  • 12. Matriz de precis˜o e cobertura a Positivo de fato Negativo de fato Classificados Verdadeiro Falso pelo modelo Positivo Positivo como positivo (VP) (FP) Classificados Falso Verdadeiro pelo modelo Negativo Negativo como negativo (FN) (VN) Cobertura Precis˜o a V P /(V P + F P ) V N/(V N + F N ) Acur´cia: a V P /(V P + F N ) V N/(F P + V N ) Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca (V P + V N )/(F P + F N ) Matriz de precis˜o e cobertura a 12
  • 13. Cross-validation Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Cross-validation 13
  • 14. Material de consulta • Tom Mitchell. Machine Learning, 1997. (Cap´ ıtulo 5). • Iah H. Witteh and Eibe Frank. Data Mining, 2000. (Cap´ ıtulo 5). • Prediction study design. Data Analysis Course. Coursera.org • Imagens retiradas de http://genome.tugraz.at/proclassify/help/pages/XV.html Web Data Mining com R: design de projetos para cria¸˜o de modelos preditivos — ca Material de consulta 14