SlideShare uma empresa Scribd logo
I N F O R M Á T I C A 7 D F
E z e q u i a s ( ) ;
R o b e r t ( ) ;
M a t h e u s ( ) ;
P e d r o ( ) ;
Mineração de dados
Data Mining
• Mineração de Dados consiste é um processo que
explora grandes quantidades de dados na busca
de padrões, ou relacionamentos sistemáticos
entre variáveis.
• Tem como entrada uma Base de Dados e como
saída um conhecimento.
Reter clientes;
Detectar fraudes;
Identificar competências;
Tomada de decisões;
Atendimento personalizado;
Finalidade
1.Limpeza
2.Integração
3.Transformação
4.Redução
1. Conjunto de Treinamento (Training Set): conjunto
de registros usados;
2. Conjunto de Testes (Test Set): conjunto de
registros para testes;
3. Conjunto de Validação (Validation Set): conjunto de
registros usados para validação do modelo
construído;
Tarefa
O quê buscamos ?
Regularidade ? Ou
Irregularidade ?
• Descritivas: A tarefa de descrição é muito utilizada em conjunto com as técnicas de
análise exploratória de dados, para comprovar a influência de certas variáveis no resultado
obtido.
• Predição: Visa descobrir o valor futuro de um determinado atributo.
• Estimação: é usada quando o registro é identificado por um valor numérico e não um
categórico. Podendo estimar o valor de uma determinada variável analisando-se os
valores das demais.
• Classificação: Visa identificar a qual classe um determinado registro pertence.
• Associação: consiste em identificar quais atributos estão
relacionados. Apresentam a forma: SE atributo X ENTÃO atributo Y. É uma das tarefas
mais conhecidas devido aos bons resultados obtidos,
• Agrupamento: visa identificar e aproximar os registros
similares. Um agrupamento (ou cluster) é uma coleção de registros similares entre si,
porém diferentes dos outros registros nos demais agrupamentos.
Métodos, ou técnicas
Como chegaremos, ou descobriremos, o conhecimento desejado ?
Regra 1: SE idade == jovem E estudante == não ENTÃO comprar computador = não
Regra 2: SE idade == jovem E estudante == sim ENTÃO comprar computador = sim
Regra 3: SE idade == média ENTÃO comprar computador = sim
Regra 4: SE idade == adulto E avaliação de crédito == OK ENTÃO comprar computador = sim
Regra 5: SE idade == adulto E avaliação de crédito == ruim ENTÃO comprar computador = não
Ferramentas
Existem várias ferramentas tanto livres, quanto comerciais. Sendo elas:
• Weka
• KELL
• KNIME
• Neural Designer
• OpenNN
• Orange
• SAS
• R
• SPSS
Limitações
• As relações precisam ser muito bem definidas, caso contrário os resultados
podem ser mal interpretados;
• Permitir que o processo de treinamento execute por muito tempo, até que se
consiga obter indícios que possam levar à conclusões factíveis;
• Usar um grande número de variáveis;
• É necessário um elevado conhecimento do usuário;
• Técnicas para lidar com base de dados cada vez
maiores, chegando a casa dos Terabyte;
• Cada vez mais as tabelas possuem mais atributos,
aumentando o espaço de busca;
• Os modelos padrões quando são submetidos a novos
tipos dados, se comportam de maneira errônea;
ALGUMA DÚVIDA SENHORES ?
01001111 01100010 01110010 01101001 01100111
01100001 01100100 01101111
4
F
3
1
0
C
2
D
1
6
7
3
0
1
9
0
D
7

Mais conteúdo relacionado

Semelhante a Mineração de Dados ( Data Mining )

Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
Marcos Vinicius Fidelis
 
1 2 3 - Testando - Automatizando os testes de software
1 2 3 - Testando - Automatizando os testes de software1 2 3 - Testando - Automatizando os testes de software
1 2 3 - Testando - Automatizando os testes de software
Heider Lopes
 
Apostila-GQ.ppsx
Apostila-GQ.ppsxApostila-GQ.ppsx
Apostila-GQ.ppsx
SandroGally
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Cássio Alan Garcia
 
Lógica de programação e algoritmos
Lógica de programação e algoritmosLógica de programação e algoritmos
Lógica de programação e algoritmos
Alisson Meneses Batista
 
Aprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaAprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociência
Walter Hugo Lopez Pinaya
 
Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...
Geanderson Lenz
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
Marcos Vinicius Fidelis
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Marcos Vinicius Fidelis
 
Coleta de dados
Coleta de dadosColeta de dados
Coleta de dados
gallojunior
 
Clean Code - Fork In Tuba
Clean Code - Fork In TubaClean Code - Fork In Tuba
Clean Code - Fork In Tuba
Rafael Paz
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
Renata Nunes
 
TDD (Resumo)
TDD (Resumo)TDD (Resumo)
TDD (Resumo)
Denis Ferrari
 
Tdc2015 bigdata-mpias-final-pdf
Tdc2015 bigdata-mpias-final-pdfTdc2015 bigdata-mpias-final-pdf
Tdc2015 bigdata-mpias-final-pdf
Ministry of Data
 
Pizzaria ferram1
Pizzaria ferram1Pizzaria ferram1
Pizzaria ferram1
Vilma Santos
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
Félix Winter Vier
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupEloGroup
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0
Leandro Escobar
 

Semelhante a Mineração de Dados ( Data Mining ) (20)

Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
1 2 3 - Testando - Automatizando os testes de software
1 2 3 - Testando - Automatizando os testes de software1 2 3 - Testando - Automatizando os testes de software
1 2 3 - Testando - Automatizando os testes de software
 
Apostila-GQ.ppsx
Apostila-GQ.ppsxApostila-GQ.ppsx
Apostila-GQ.ppsx
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
 
Lógica de programação e algoritmos
Lógica de programação e algoritmosLógica de programação e algoritmos
Lógica de programação e algoritmos
 
Aprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociênciaAprendizagem de máquina aplicada na neurociência
Aprendizagem de máquina aplicada na neurociência
 
Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...Guia completo para definição de estatística de modelos e algoritmos de machin...
Guia completo para definição de estatística de modelos e algoritmos de machin...
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Empreendedorismo
EmpreendedorismoEmpreendedorismo
Empreendedorismo
 
Coleta de dados
Coleta de dadosColeta de dados
Coleta de dados
 
Clean Code - Fork In Tuba
Clean Code - Fork In TubaClean Code - Fork In Tuba
Clean Code - Fork In Tuba
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
TDD (Resumo)
TDD (Resumo)TDD (Resumo)
TDD (Resumo)
 
Tdc2015 bigdata-mpias-final-pdf
Tdc2015 bigdata-mpias-final-pdfTdc2015 bigdata-mpias-final-pdf
Tdc2015 bigdata-mpias-final-pdf
 
Pizzaria ferram1
Pizzaria ferram1Pizzaria ferram1
Pizzaria ferram1
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Data mining
Data miningData mining
Data mining
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0
 

Mineração de Dados ( Data Mining )

  • 1.
  • 2. I N F O R M Á T I C A 7 D F E z e q u i a s ( ) ; R o b e r t ( ) ; M a t h e u s ( ) ; P e d r o ( ) ;
  • 4. • Mineração de Dados consiste é um processo que explora grandes quantidades de dados na busca de padrões, ou relacionamentos sistemáticos entre variáveis. • Tem como entrada uma Base de Dados e como saída um conhecimento.
  • 5. Reter clientes; Detectar fraudes; Identificar competências; Tomada de decisões; Atendimento personalizado;
  • 7.
  • 8.
  • 10. 1. Conjunto de Treinamento (Training Set): conjunto de registros usados; 2. Conjunto de Testes (Test Set): conjunto de registros para testes; 3. Conjunto de Validação (Validation Set): conjunto de registros usados para validação do modelo construído;
  • 11. Tarefa O quê buscamos ? Regularidade ? Ou Irregularidade ?
  • 12. • Descritivas: A tarefa de descrição é muito utilizada em conjunto com as técnicas de análise exploratória de dados, para comprovar a influência de certas variáveis no resultado obtido. • Predição: Visa descobrir o valor futuro de um determinado atributo. • Estimação: é usada quando o registro é identificado por um valor numérico e não um categórico. Podendo estimar o valor de uma determinada variável analisando-se os valores das demais. • Classificação: Visa identificar a qual classe um determinado registro pertence.
  • 13. • Associação: consiste em identificar quais atributos estão relacionados. Apresentam a forma: SE atributo X ENTÃO atributo Y. É uma das tarefas mais conhecidas devido aos bons resultados obtidos, • Agrupamento: visa identificar e aproximar os registros similares. Um agrupamento (ou cluster) é uma coleção de registros similares entre si, porém diferentes dos outros registros nos demais agrupamentos.
  • 14. Métodos, ou técnicas Como chegaremos, ou descobriremos, o conhecimento desejado ?
  • 15. Regra 1: SE idade == jovem E estudante == não ENTÃO comprar computador = não Regra 2: SE idade == jovem E estudante == sim ENTÃO comprar computador = sim Regra 3: SE idade == média ENTÃO comprar computador = sim Regra 4: SE idade == adulto E avaliação de crédito == OK ENTÃO comprar computador = sim Regra 5: SE idade == adulto E avaliação de crédito == ruim ENTÃO comprar computador = não
  • 16.
  • 17.
  • 18. Ferramentas Existem várias ferramentas tanto livres, quanto comerciais. Sendo elas: • Weka • KELL • KNIME • Neural Designer • OpenNN • Orange • SAS • R • SPSS
  • 19. Limitações • As relações precisam ser muito bem definidas, caso contrário os resultados podem ser mal interpretados; • Permitir que o processo de treinamento execute por muito tempo, até que se consiga obter indícios que possam levar à conclusões factíveis; • Usar um grande número de variáveis; • É necessário um elevado conhecimento do usuário;
  • 20. • Técnicas para lidar com base de dados cada vez maiores, chegando a casa dos Terabyte; • Cada vez mais as tabelas possuem mais atributos, aumentando o espaço de busca; • Os modelos padrões quando são submetidos a novos tipos dados, se comportam de maneira errônea;
  • 21.
  • 23. 01001111 01100010 01110010 01101001 01100111 01100001 01100100 01101111 4 F 3 1 0 C 2 D 1 6 7 3 0 1 9 0 D 7