SlideShare uma empresa Scribd logo
1 de 38
Descoberta de ConhecimentoDescoberta de Conhecimento
em Bases de Dadosem Bases de Dados
e Mineração de Dadose Mineração de Dados
Eduardo Massao Arakaki
(ema@di.ufpe.br)
Marcela Fontes Lima Guerra
(mflg@di.ufpe.br)
RoteiroRoteiro
Motivação
Exemplo preliminar
Conceitos básicos
Processo de kdd
Métodos de mineração de dados
Técnicas
Exemplos
Referências
MotivaçãoMotivação
A informatização dos meios produtivos
permitiu a geração de grandes volumes de
dados:
– Transações eletrônicas;
– Novos equipamentos científicos e industriais
para observação e controle;
– Dispositivos de armazenamento em massa;
Aproveitamento da informação permite
ganho de competitividade: “conhecimento é
poder (e poder = $$!)” Motivação
MotivaçãoMotivação
Os recursos de análise de dados tradicionais
são inviáveis para acompanhar esta
evolução
“Morrendo de sede por conhecimento
em um oceano de dados”
Motivação
MotivaçãoMotivação
Solução:
– ferramentas de automatização das tarefas
repetitivas e sistemática de análise de dados
– ferramentas de auxílio para as tarefas cognitivas
da análise
– integração das ferramentas em sistemas
apoiando o processo completo de descoberta de
conhecimento para tomada de decisão
Motivação
Exemplo PreliminarExemplo Preliminar
Um problema do mundo dos negócios:
entender o perfil dos clientes
– desenvolvimento de novos produtos;
– controle de estoque em postos de distribuição;
– propaganda mal direcionada gera maiores
gastos e desestimula o possível interessado a
procurar as ofertas adequadas;
Quais são meus clientes típicos?
Exemplo
Descoberta de ConhecimentoDescoberta de Conhecimento
em Bancos de Dadosem Bancos de Dados
“O processo não trivial de extração de
informações implícitas, anteriormente
desconhecidas, e potencialmente úteis de
uma fonte de dados”;
“Torture os dados até eles confessarem”;
O que é um padrão interessante ?
(válido, novo, útil e interpretável)
Conceitos
KDD x Data MiningKDD x Data Mining
Mineração de dados é o passo do processo
de KDD que produz um conjunto de
padrões sob um custo computacional
aceitável;
KDD utiliza algoritmos de data mining para
extrair padrões classificados como
“conhecimento”. Incorpora também tarefas
como escolha do algoritmo adequado,
processamento e amostragem de dados e
interpretação de resultados; Conceitos
Etapas do ProcessoEtapas do Processo
Seleção
Pré-processamento
Transformação
Data mining (aprendizagem)
Interpretação e Avaliação
Processo
Processo mínimo deProcesso mínimo de
descoberta do conhecimentodescoberta do conhecimento
Compreensão do domínio e dos objetivos da tarefa;
Criação do conjunto de dados envolvendo as variáveis
necessárias;
Processo
11
Seleção de DadosSeleção de Dados
Selecionar ou segmentar dados de acordo
com critérios definidos:
Ex.: Todas as pessoas que são proprietárias
de carros é um subconjunto de dados
determinado.
Processo
Processo mínimoProcesso mínimo
Operações como identificação de ruídos,
outliers, como tratar falta de dados em alguns
campos, etc.
Processo
13
Pré-ProcessamentoPré-Processamento
Estágio de limpeza dos dados, onde
informações julgadas desnecessárias são
removidas.
Reconfiguração dos dados para assegurar
formatos consistentes (identificação)
– Ex. : sexo = “F” ou “M”
sexo = “M” ou “H”
Processo
Processo mínimoProcesso mínimo
Redução de dimensionalidade,
combinação de atributos;
Processo
15
TransformaçãoTransformação
Transformam-se os dados em formatos
utilizáveis. Esta depende da técnica data
mining usada.
Disponibilizar os dados de maneira usável e
navegável.
Processo
Processo mínimoProcesso mínimo
Escolha e execução do algoritmo de aprendizagem
de acordo com a tarefa a ser cumprida
Processo
17
Data MiningData Mining
É a verdadeira extração dos padrões de
comportamento dos dados (exemplos)
Processo
Processo mínimoProcesso mínimo
Interpretação dos resultados, com
possível retorno aos passos anteriores;
Processo
Consolidação: incorporação e documentação do
conhecimento e comunicação aos interessados;
19
Interpretação e AvaliaçãoInterpretação e Avaliação
Identificado os padrões pelo sistema, estes
são interpretados em conhecimentos, os
quais darão suporte a tomada de decisões
humanas
Processo
Métodos de mineração deMétodos de mineração de
dadosdados
Métodos de mineração de dados
normalmente são extensões ou combinações
de uns poucos métodos fundamentais;
Porém, não é viável a criação de um único
método universal: cada algoritmo possui
sua própria tendência indutiva;
Métodos
Tarefas básicasTarefas básicas
Previsão
– Cálculo de variáveis de interesse a partir dos
valores de um conjunto de variáveis de
explicação;
– É comumente visada em aprendizado de
máquina/estatística;
– Exemplos: classificação e regressão;
Métodos
Tarefas básicasTarefas básicas
Descrição
– Reportar relações entre as variáveis do modelo
de forma simétrica;
– À princípio, está mais relacionada ao processo
de KDD;
– Exemplos: agrupamento, sumarização
(incluindo sumário de textos), dependências,
análise de desvio;
Métodos
Exemplo de previsão (I)Exemplo de previsão (I)
Um hiperplano paralelo de
separação: pode ser
interpretado diretamente como
uma regra:
– se a renda é menor que t,
então o crédito não deve ser
liberado
Exemplo:
– árvores de decisão;
– indução de regras
renda
débito
x
x
x
x
x
x
x
o
o
o
o
o
o
o
o
o
t
sem
crédito
o
o: exemplo aceito
x: exemplo recusado
Análise de crédito
Métodos
Exemplo de previsão (II)Exemplo de previsão (II)
Hiperplano oblíquo: melhor
separação:
Exemplos:
– regressão linear;
– perceptron;
Análise de crédito
renda
débito
x
x
x
x
x
x
x
o
o
o
o
o
o
o
o
o
t
sem
crédito
o
o: exemplo aceito
x: exemplo recusado
Métodos
Exemplo de previsão (III)Exemplo de previsão (III)
Superfície não linear:
melhor poder de
classificação, pior
interpretação;
Exemplos:
– perceptrons multicamadas;
– regressão não-linear;
Análise de crédito
renda
débito
x
x
x
x
x
x
x
o
o
o
o
o
o
o
o
o
t
sem
crédito
o
o: exemplo aceito
x: exemplo recusado
Métodos
Exemplo de previsão (IV)Exemplo de previsão (IV)
Métodos baseado em
exemplos;
Exemplos:
– k-vizinhos mais
próximos;
– raciocínio baseado em
casos;
Análise de crédito
renda
débito
x
x
x
x
x
x
x
o
o
o
o
o
o
o
o
o
t
sem
crédito
o
o: exemplo aceito
x: exemplo recusado
Métodos
Exemplo de descrição (I)Exemplo de descrição (I)
Agrupamento
Exemplo:
– vector quantization;
renda
débito
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
t
+
+: exemplo
Análise de crédito
Métodos
Exemplo de descrição (II)Exemplo de descrição (II)
Regras de associação
– “98% dos consumidores que adquiriram pneus
e acessórios de automóveis também se
interessaram por serviços automotivos”;
– descoberta simétrica de relações, ao contrário
de métodos de classificação
qualquer atributo pode ser uma classe ou um
atributo de discriminação;
Métodos
Revisão geral de Aprendizagem:
TécnicasTécnicas
CBR
ExemplosExemplos
Áreas de aplicações potenciais:
– Vendas e Marketing
Identificar padrões de comportamento de
consumidores
Associar comportamentos à características
demográficas de consumidores
Campanhas de marketing direto (mailing
campaigns)
Identificar consumidores “leais”
Exemplos
ExemplosExemplos
Áreas de aplicações potenciais:
– Bancos
Identificar padrões de fraudes (cartões de
crédito)
Identificar características de correntistas
Mercado Financeiro ($$$)
Exemplos
ExemplosExemplos
Áreas de aplicações potenciais
– Médica
Comportamento de pacientes
Identificar terapias de sucessos para diferentes
tratamentos
Fraudes em planos de saúdes
Comportamento de usuários de planos de saúde
Exemplos
IntroduçãoIntrodução
Exemplo (1) - Fraldas e cervejas
– O que as cervejas tem a ver com as fraldas ?
– homens casados, entre 25 e 30 anos;
– compravam fraldas e/ou cervejas às sextas-
feiras à tarde no caminho do trabalho para casa;
– Wal-Mart otimizou às gôndolas nos pontos de
vendas, colocando as fraldas ao lado das
cervejas;
– Resultado: o consumo cresceu 30% . Exemplos
ExemplosExemplos
Exemplo (2) - Lojas Brasileiras (Info 03/98)
– Aplicou 1 milhão de dólares em técnicas de data
mining
– Reduziu de 51000 produtos para 14000 produtos
oferecidos em suas lojas.
– Exemplo de anomalias detectadas:
– Roupas de inverno e guarda chuvas encalhadas no
nordeste
– Batedeiras 110v a venda em SC onde a corrente
elétrica é 220v
Exemplos
ExemplosExemplos
Exemplo (3) - Bank of America (Info 03/98)
– Selecionou entre seus 36 milhões de clientes
Aqueles com menor risco de dar calotes
Tinham filhos com idades entre 18 e 21 anos
Resultado em três anos o banco lucrou 30 milhões de
dólares com a carteira de empréstimos.
Exemplos
ExemplosExemplos
Empresas de software para Data mining:
– SAS http://www.sas.com
– Information Havesting http://www.convex.com
– Red Brick http://www.redbrick.com
– Oracle http://www.oracle.com
– Sybase http://www.sybase.com
– Informix http://www.informix.com
– IBM http://www.ibm.com
Exemplos
ConclusõesConclusões
Data mining é um processo que permite compreender o
comportamento dos dados.
Data mining analisa os dados usando técnicas de
aprendizagem para encontrar padrões e regulariedades
nestes conjuntos de dados.
É um problema pluridisciplinar, envolve Inteligência
Artificial, Estatística, Computação Gráfica, Banco de
Dados.
Pode ser bem aplicado em diversas áreas de negócios
Conclusões
ReferênciasReferências
– Fayyad et al. (1996). Advances in knowledge discovery and data
mining, AAAI Press/MIT Press.
– Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for
Knowledge in Databases, 1994.
– http://www-pcc.qub.ac.uk/tec/courses/datamining
– http://www.rio.com.br/~extended
– http://www.datamining.com
– http://www.santafe.edu/~kurt
– http://www.datamation.com
– http://www-dse.doc.ic.ac.uk/~kd
– http://www.cs.bham.ac.uk/~anp
– http://www.dbms.com
– http://www.infolink.com.br/~mpolito/mining/mining.html
– http://www.lci.ufrj.br/~labbd/semins/grupo1 Referências

Mais conteúdo relacionado

Mais procurados

Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data WarehouseJeorgeCarmona
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...Leandro de Castro
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data WarehouseMessias Batista
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseVinícius Amaral
 

Mais procurados (20)

Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
Mineração
MineraçãoMineração
Mineração
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data Warehouse
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Business Intelligence - Data Warehouse
Business Intelligence - Data WarehouseBusiness Intelligence - Data Warehouse
Business Intelligence - Data Warehouse
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data Warehouse
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
Data Mining
Data MiningData Mining
Data Mining
 
Data mining
Data miningData mining
Data mining
 

Semelhante a Data mining

Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)Jéssica Góis Scala
 
Business Analytics - Data Science Processes
Business Analytics - Data Science Processes Business Analytics - Data Science Processes
Business Analytics - Data Science Processes Daniela Brauner
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de DadosJoão Pedro Albino
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
Aula 02 giovanni --dcbd
Aula 02   giovanni --dcbdAula 02   giovanni --dcbd
Aula 02 giovanni --dcbdgtiprotec
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Wosley Arruda
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
Mineração_de_Dados.pptx
Mineração_de_Dados.pptxMineração_de_Dados.pptx
Mineração_de_Dados.pptxadrian990162
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negóciosFelipeyeger
 

Semelhante a Data mining (20)

Mineração Livre de Dados
Mineração Livre de DadosMineração Livre de Dados
Mineração Livre de Dados
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
Business Analytics - Data Science Processes
Business Analytics - Data Science Processes Business Analytics - Data Science Processes
Business Analytics - Data Science Processes
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Aula Data Mining
Aula Data MiningAula Data Mining
Aula Data Mining
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Desvendando os mistérios do Data Science
Desvendando os mistérios do Data ScienceDesvendando os mistérios do Data Science
Desvendando os mistérios do Data Science
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Aula 02 giovanni --dcbd
Aula 02   giovanni --dcbdAula 02   giovanni --dcbd
Aula 02 giovanni --dcbd
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Data Science For Dummies From a Dummy
Data Science For Dummies From a DummyData Science For Dummies From a Dummy
Data Science For Dummies From a Dummy
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
jjjjjjjjjjjjjjj
jjjjjjjjjjjjjjjjjjjjjjjjjjjjjj
jjjjjjjjjjjjjjj
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Mineração_de_Dados.pptx
Mineração_de_Dados.pptxMineração_de_Dados.pptx
Mineração_de_Dados.pptx
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negócios
 

Data mining

  • 1. Descoberta de ConhecimentoDescoberta de Conhecimento em Bases de Dadosem Bases de Dados e Mineração de Dadose Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)
  • 2. RoteiroRoteiro Motivação Exemplo preliminar Conceitos básicos Processo de kdd Métodos de mineração de dados Técnicas Exemplos Referências
  • 3. MotivaçãoMotivação A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: – Transações eletrônicas; – Novos equipamentos científicos e industriais para observação e controle; – Dispositivos de armazenamento em massa; Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$!)” Motivação
  • 4. MotivaçãoMotivação Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução “Morrendo de sede por conhecimento em um oceano de dados” Motivação
  • 5. MotivaçãoMotivação Solução: – ferramentas de automatização das tarefas repetitivas e sistemática de análise de dados – ferramentas de auxílio para as tarefas cognitivas da análise – integração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão Motivação
  • 6. Exemplo PreliminarExemplo Preliminar Um problema do mundo dos negócios: entender o perfil dos clientes – desenvolvimento de novos produtos; – controle de estoque em postos de distribuição; – propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; Quais são meus clientes típicos? Exemplo
  • 7. Descoberta de ConhecimentoDescoberta de Conhecimento em Bancos de Dadosem Bancos de Dados “O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; “Torture os dados até eles confessarem”; O que é um padrão interessante ? (válido, novo, útil e interpretável) Conceitos
  • 8. KDD x Data MiningKDD x Data Mining Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos
  • 9. Etapas do ProcessoEtapas do Processo Seleção Pré-processamento Transformação Data mining (aprendizagem) Interpretação e Avaliação Processo
  • 10. Processo mínimo deProcesso mínimo de descoberta do conhecimentodescoberta do conhecimento Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Processo
  • 11. 11 Seleção de DadosSeleção de Dados Selecionar ou segmentar dados de acordo com critérios definidos: Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. Processo
  • 12. Processo mínimoProcesso mínimo Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Processo
  • 13. 13 Pré-ProcessamentoPré-Processamento Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. Reconfiguração dos dados para assegurar formatos consistentes (identificação) – Ex. : sexo = “F” ou “M” sexo = “M” ou “H” Processo
  • 14. Processo mínimoProcesso mínimo Redução de dimensionalidade, combinação de atributos; Processo
  • 15. 15 TransformaçãoTransformação Transformam-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. Disponibilizar os dados de maneira usável e navegável. Processo
  • 16. Processo mínimoProcesso mínimo Escolha e execução do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida Processo
  • 17. 17 Data MiningData Mining É a verdadeira extração dos padrões de comportamento dos dados (exemplos) Processo
  • 18. Processo mínimoProcesso mínimo Interpretação dos resultados, com possível retorno aos passos anteriores; Processo Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados;
  • 19. 19 Interpretação e AvaliaçãoInterpretação e Avaliação Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Processo
  • 20. Métodos de mineração deMétodos de mineração de dadosdados Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos
  • 21. Tarefas básicasTarefas básicas Previsão – Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; – É comumente visada em aprendizado de máquina/estatística; – Exemplos: classificação e regressão; Métodos
  • 22. Tarefas básicasTarefas básicas Descrição – Reportar relações entre as variáveis do modelo de forma simétrica; – À princípio, está mais relacionada ao processo de KDD; – Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos
  • 23. Exemplo de previsão (I)Exemplo de previsão (I) Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: – se a renda é menor que t, então o crédito não deve ser liberado Exemplo: – árvores de decisão; – indução de regras renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Análise de crédito Métodos
  • 24. Exemplo de previsão (II)Exemplo de previsão (II) Hiperplano oblíquo: melhor separação: Exemplos: – regressão linear; – perceptron; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos
  • 25. Exemplo de previsão (III)Exemplo de previsão (III) Superfície não linear: melhor poder de classificação, pior interpretação; Exemplos: – perceptrons multicamadas; – regressão não-linear; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos
  • 26. Exemplo de previsão (IV)Exemplo de previsão (IV) Métodos baseado em exemplos; Exemplos: – k-vizinhos mais próximos; – raciocínio baseado em casos; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos
  • 27. Exemplo de descrição (I)Exemplo de descrição (I) Agrupamento Exemplo: – vector quantization; renda débito + + + + + + + + + + + + + + + + t + +: exemplo Análise de crédito Métodos
  • 28. Exemplo de descrição (II)Exemplo de descrição (II) Regras de associação – “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”; – descoberta simétrica de relações, ao contrário de métodos de classificação qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos
  • 29. Revisão geral de Aprendizagem: TécnicasTécnicas CBR
  • 30. ExemplosExemplos Áreas de aplicações potenciais: – Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais” Exemplos
  • 31. ExemplosExemplos Áreas de aplicações potenciais: – Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$) Exemplos
  • 32. ExemplosExemplos Áreas de aplicações potenciais – Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde Exemplos
  • 33. IntroduçãoIntrodução Exemplo (1) - Fraldas e cervejas – O que as cervejas tem a ver com as fraldas ? – homens casados, entre 25 e 30 anos; – compravam fraldas e/ou cervejas às sextas- feiras à tarde no caminho do trabalho para casa; – Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; – Resultado: o consumo cresceu 30% . Exemplos
  • 34. ExemplosExemplos Exemplo (2) - Lojas Brasileiras (Info 03/98) – Aplicou 1 milhão de dólares em técnicas de data mining – Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. – Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente elétrica é 220v Exemplos
  • 35. ExemplosExemplos Exemplo (3) - Bank of America (Info 03/98) – Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. Exemplos
  • 36. ExemplosExemplos Empresas de software para Data mining: – SAS http://www.sas.com – Information Havesting http://www.convex.com – Red Brick http://www.redbrick.com – Oracle http://www.oracle.com – Sybase http://www.sybase.com – Informix http://www.informix.com – IBM http://www.ibm.com Exemplos
  • 37. ConclusõesConclusões Data mining é um processo que permite compreender o comportamento dos dados. Data mining analisa os dados usando técnicas de aprendizagem para encontrar padrões e regulariedades nestes conjuntos de dados. É um problema pluridisciplinar, envolve Inteligência Artificial, Estatística, Computação Gráfica, Banco de Dados. Pode ser bem aplicado em diversas áreas de negócios Conclusões
  • 38. ReferênciasReferências – Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press. – Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for Knowledge in Databases, 1994. – http://www-pcc.qub.ac.uk/tec/courses/datamining – http://www.rio.com.br/~extended – http://www.datamining.com – http://www.santafe.edu/~kurt – http://www.datamation.com – http://www-dse.doc.ic.ac.uk/~kd – http://www.cs.bham.ac.uk/~anp – http://www.dbms.com – http://www.infolink.com.br/~mpolito/mining/mining.html – http://www.lci.ufrj.br/~labbd/semins/grupo1 Referências