SlideShare uma empresa Scribd logo
1 de 23
I N F O R M Á T I C A 7 D F
E z e q u i a s ( ) ;
R o b e r t ( ) ;
M a t h e u s ( ) ;
P e d r o ( ) ;
Mineração de dados
Data Mining
• Mineração de Dados consiste é um processo que
explora grandes quantidades de dados na busca
de padrões, ou relacionamentos sistemáticos
entre variáveis.
• Tem como entrada uma Base de Dados e como
saída um conhecimento.
Reter clientes;
Detectar fraudes;
Identificar competências;
Tomada de decisões;
Atendimento personalizado;
Finalidade
1.Limpeza
2.Integração
3.Transformação
4.Redução
1. Conjunto de Treinamento (Training Set): conjunto
de registros usados;
2. Conjunto de Testes (Test Set): conjunto de
registros para testes;
3. Conjunto de Validação (Validation Set): conjunto de
registros usados para validação do modelo
construído;
Tarefa
O quê buscamos ?
Regularidade ? Ou
Irregularidade ?
• Descritivas: A tarefa de descrição é muito utilizada em conjunto com as técnicas de
análise exploratória de dados, para comprovar a influência de certas variáveis no resultado
obtido.
• Predição: Visa descobrir o valor futuro de um determinado atributo.
• Estimação: é usada quando o registro é identificado por um valor numérico e não um
categórico. Podendo estimar o valor de uma determinada variável analisando-se os
valores das demais.
• Classificação: Visa identificar a qual classe um determinado registro pertence.
• Associação: consiste em identificar quais atributos estão
relacionados. Apresentam a forma: SE atributo X ENTÃO atributo Y. É uma das tarefas
mais conhecidas devido aos bons resultados obtidos,
• Agrupamento: visa identificar e aproximar os registros
similares. Um agrupamento (ou cluster) é uma coleção de registros similares entre si,
porém diferentes dos outros registros nos demais agrupamentos.
Métodos, ou técnicas
Como chegaremos, ou descobriremos, o conhecimento desejado ?
Regra 1: SE idade == jovem E estudante == não ENTÃO comprar computador = não
Regra 2: SE idade == jovem E estudante == sim ENTÃO comprar computador = sim
Regra 3: SE idade == média ENTÃO comprar computador = sim
Regra 4: SE idade == adulto E avaliação de crédito == OK ENTÃO comprar computador = sim
Regra 5: SE idade == adulto E avaliação de crédito == ruim ENTÃO comprar computador = não
Ferramentas
Existem várias ferramentas tanto livres, quanto comerciais. Sendo elas:
• Weka
• KELL
• KNIME
• Neural Designer
• OpenNN
• Orange
• SAS
• R
• SPSS
Limitações
• As relações precisam ser muito bem definidas, caso contrário os resultados
podem ser mal interpretados;
• Permitir que o processo de treinamento execute por muito tempo, até que se
consiga obter indícios que possam levar à conclusões factíveis;
• Usar um grande número de variáveis;
• É necessário um elevado conhecimento do usuário;
• Técnicas para lidar com base de dados cada vez
maiores, chegando a casa dos Terabyte;
• Cada vez mais as tabelas possuem mais atributos,
aumentando o espaço de busca;
• Os modelos padrões quando são submetidos a novos
tipos dados, se comportam de maneira errônea;
ALGUMA DÚVIDA SENHORES ?
01001111 01100010 01110010 01101001 01100111
01100001 01100100 01101111
4
F
3
1
0
C
2
D
1
6
7
3
0
1
9
0
D
7

Mais conteúdo relacionado

Semelhante a Mineração de Dados ( Data Mining )

Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
EloGroup
 

Semelhante a Mineração de Dados ( Data Mining ) (20)

Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
1 2 3 - Testando - Automatizando os testes de software
1 2 3 - Testando - Automatizando os testes de software1 2 3 - Testando - Automatizando os testes de software
1 2 3 - Testando - Automatizando os testes de software
 
Apostila-GQ.ppsx
Apostila-GQ.ppsxApostila-GQ.ppsx
Apostila-GQ.ppsx
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
 
Lógica de programação e algoritmos
Lógica de programação e algoritmosLógica de programação e algoritmos
Lógica de programação e algoritmos
 
Aprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaAprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociência
 
Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Empreendedorismo
EmpreendedorismoEmpreendedorismo
Empreendedorismo
 
Coleta de dados
Coleta de dadosColeta de dados
Coleta de dados
 
Clean Code - Fork In Tuba
Clean Code - Fork In TubaClean Code - Fork In Tuba
Clean Code - Fork In Tuba
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
TDD (Resumo)
TDD (Resumo)TDD (Resumo)
TDD (Resumo)
 
Tdc2015 bigdata-mpias-final-pdf
Tdc2015 bigdata-mpias-final-pdfTdc2015 bigdata-mpias-final-pdf
Tdc2015 bigdata-mpias-final-pdf
 
Pizzaria ferram1
Pizzaria ferram1Pizzaria ferram1
Pizzaria ferram1
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Data mining
Data miningData mining
Data mining
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0
 

Último

Último (6)

Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 

Mineração de Dados ( Data Mining )

  • 1.
  • 2. I N F O R M Á T I C A 7 D F E z e q u i a s ( ) ; R o b e r t ( ) ; M a t h e u s ( ) ; P e d r o ( ) ;
  • 4. • Mineração de Dados consiste é um processo que explora grandes quantidades de dados na busca de padrões, ou relacionamentos sistemáticos entre variáveis. • Tem como entrada uma Base de Dados e como saída um conhecimento.
  • 5. Reter clientes; Detectar fraudes; Identificar competências; Tomada de decisões; Atendimento personalizado;
  • 7.
  • 8.
  • 10. 1. Conjunto de Treinamento (Training Set): conjunto de registros usados; 2. Conjunto de Testes (Test Set): conjunto de registros para testes; 3. Conjunto de Validação (Validation Set): conjunto de registros usados para validação do modelo construído;
  • 11. Tarefa O quê buscamos ? Regularidade ? Ou Irregularidade ?
  • 12. • Descritivas: A tarefa de descrição é muito utilizada em conjunto com as técnicas de análise exploratória de dados, para comprovar a influência de certas variáveis no resultado obtido. • Predição: Visa descobrir o valor futuro de um determinado atributo. • Estimação: é usada quando o registro é identificado por um valor numérico e não um categórico. Podendo estimar o valor de uma determinada variável analisando-se os valores das demais. • Classificação: Visa identificar a qual classe um determinado registro pertence.
  • 13. • Associação: consiste em identificar quais atributos estão relacionados. Apresentam a forma: SE atributo X ENTÃO atributo Y. É uma das tarefas mais conhecidas devido aos bons resultados obtidos, • Agrupamento: visa identificar e aproximar os registros similares. Um agrupamento (ou cluster) é uma coleção de registros similares entre si, porém diferentes dos outros registros nos demais agrupamentos.
  • 14. Métodos, ou técnicas Como chegaremos, ou descobriremos, o conhecimento desejado ?
  • 15. Regra 1: SE idade == jovem E estudante == não ENTÃO comprar computador = não Regra 2: SE idade == jovem E estudante == sim ENTÃO comprar computador = sim Regra 3: SE idade == média ENTÃO comprar computador = sim Regra 4: SE idade == adulto E avaliação de crédito == OK ENTÃO comprar computador = sim Regra 5: SE idade == adulto E avaliação de crédito == ruim ENTÃO comprar computador = não
  • 16.
  • 17.
  • 18. Ferramentas Existem várias ferramentas tanto livres, quanto comerciais. Sendo elas: • Weka • KELL • KNIME • Neural Designer • OpenNN • Orange • SAS • R • SPSS
  • 19. Limitações • As relações precisam ser muito bem definidas, caso contrário os resultados podem ser mal interpretados; • Permitir que o processo de treinamento execute por muito tempo, até que se consiga obter indícios que possam levar à conclusões factíveis; • Usar um grande número de variáveis; • É necessário um elevado conhecimento do usuário;
  • 20. • Técnicas para lidar com base de dados cada vez maiores, chegando a casa dos Terabyte; • Cada vez mais as tabelas possuem mais atributos, aumentando o espaço de busca; • Os modelos padrões quando são submetidos a novos tipos dados, se comportam de maneira errônea;
  • 21.
  • 23. 01001111 01100010 01110010 01101001 01100111 01100001 01100100 01101111 4 F 3 1 0 C 2 D 1 6 7 3 0 1 9 0 D 7