Descoberta de ConhecimentoDescoberta de Conhecimento
em Bases de Dadosem Bases de Dados
e Mineração de Dadose Mineração de Dados
Eduardo Massao Arakaki
(ema@di.ufpe.br)
Marcela Fontes Lima Guerra
(mflg@di.ufpe.br)
RoteiroRoteiro
Motivação
Exemplo preliminar
Conceitos básicos
Processo de kdd
Métodos de mineração de dados
Técnicas
Exemplos
Referências
MotivaçãoMotivação
A informatização dos meios produtivos
permitiu a geração de grandes volumes de
dados:
– Transações eletrônicas;
– Novos equipamentos científicos e industriais
para observação e controle;
– Dispositivos de armazenamento em massa;
Aproveitamento da informação permite
ganho de competitividade: “conhecimento é
poder (e poder = $$!)” Motivação
MotivaçãoMotivação
Os recursos de análise de dados tradicionais
são inviáveis para acompanhar esta
evolução
“Morrendo de sede por conhecimento
em um oceano de dados”
Motivação
MotivaçãoMotivação
Solução:
– ferramentas de automatização das tarefas
repetitivas e sistemática de análise de dados
– ferramentas de auxílio para as tarefas cognitivas
da análise
– integração das ferramentas em sistemas
apoiando o processo completo de descoberta de
conhecimento para tomada de decisão
Motivação
Exemplo PreliminarExemplo Preliminar
Um problema do mundo dos negócios:
entender o perfil dos clientes
– desenvolvimento de novos produtos;
– controle de estoque em postos de distribuição;
– propaganda mal direcionada gera maiores
gastos e desestimula o possível interessado a
procurar as ofertas adequadas;
Quais são meus clientes típicos?
Exemplo
Descoberta de ConhecimentoDescoberta de Conhecimento
em Bancos de Dadosem Bancos de Dados
“O processo não trivial de extração de
informações implícitas, anteriormente
desconhecidas, e potencialmente úteis de
uma fonte de dados”;
“Torture os dados até eles confessarem”;
O que é um padrão interessante ?
(válido, novo, útil e interpretável)
Conceitos
KDD x Data MiningKDD x Data Mining
Mineração de dados é o passo do processo
de KDD que produz um conjunto de
padrões sob um custo computacional
aceitável;
KDD utiliza algoritmos de data mining para
extrair padrões classificados como
“conhecimento”. Incorpora também tarefas
como escolha do algoritmo adequado,
processamento e amostragem de dados e
interpretação de resultados; Conceitos
Etapas do ProcessoEtapas do Processo
Seleção
Pré-processamento
Transformação
Data mining (aprendizagem)
Interpretação e Avaliação
Processo
Processo mínimo deProcesso mínimo de
descoberta do conhecimentodescoberta do conhecimento
Compreensão do domínio e dos objetivos da tarefa;
Criação do conjunto de dados envolvendo as variáveis
necessárias;
Processo
11
Seleção de DadosSeleção de Dados
Selecionar ou segmentar dados de acordo
com critérios definidos:
Ex.: Todas as pessoas que são proprietárias
de carros é um subconjunto de dados
determinado.
Processo
Processo mínimoProcesso mínimo
Operações como identificação de ruídos,
outliers, como tratar falta de dados em alguns
campos, etc.
Processo
13
Pré-ProcessamentoPré-Processamento
Estágio de limpeza dos dados, onde
informações julgadas desnecessárias são
removidas.
Reconfiguração dos dados para assegurar
formatos consistentes (identificação)
– Ex. : sexo = “F” ou “M”
sexo = “M” ou “H”
Processo
Processo mínimoProcesso mínimo
Redução de dimensionalidade,
combinação de atributos;
Processo
15
TransformaçãoTransformação
Transformam-se os dados em formatos
utilizáveis. Esta depende da técnica data
mining usada.
Disponibilizar os dados de maneira usável e
navegável.
Processo
Processo mínimoProcesso mínimo
Escolha e execução do algoritmo de aprendizagem
de acordo com a tarefa a ser cumprida
Processo
17
Data MiningData Mining
É a verdadeira extração dos padrões de
comportamento dos dados (exemplos)
Processo
Processo mínimoProcesso mínimo
Interpretação dos resultados, com
possível retorno aos passos anteriores;
Processo
Consolidação: incorporação e documentação do
conhecimento e comunicação aos interessados;
19
Interpretação e AvaliaçãoInterpretação e Avaliação
Identificado os padrões pelo sistema, estes
são interpretados em conhecimentos, os
quais darão suporte a tomada de decisões
humanas
Processo
Métodos de mineração deMétodos de mineração de
dadosdados
Métodos de mineração de dados
normalmente são extensões ou combinações
de uns poucos métodos fundamentais;
Porém, não é viável a criação de um único
método universal: cada algoritmo possui
sua própria tendência indutiva;
Métodos
Tarefas básicasTarefas básicas
Previsão
– Cálculo de variáveis de interesse a partir dos
valores de um conjunto de variáveis de
explicação;
– É comumente visada em aprendizado de
máquina/estatística;
– Exemplos: classificação e regressão;
Métodos
Tarefas básicasTarefas básicas
Descrição
– Reportar relações entre as variáveis do modelo
de forma simétrica;
– À princípio, está mais relacionada ao processo
de KDD;
– Exemplos: agrupamento, sumarização
(incluindo sumário de textos), dependências,
análise de desvio;
Métodos
Exemplo de previsão (I)Exemplo de previsão (I)
Um hiperplano paralelo de
separação: pode ser
interpretado diretamente como
uma regra:
– se a renda é menor que t,
então o crédito não deve ser
liberado
Exemplo:
– árvores de decisão;
– indução de regras
renda
débito
x
x
x
x
x
x
x
o
o
o
o
o
o
o
o
o
t
sem
crédito
o
o: exemplo aceito
x: exemplo recusado
Análise de crédito
Métodos
Exemplo de previsão (II)Exemplo de previsão (II)
Hiperplano oblíquo: melhor
separação:
Exemplos:
– regressão linear;
– perceptron;
Análise de crédito
renda
débito
x
x
x
x
x
x
x
o
o
o
o
o
o
o
o
o
t
sem
crédito
o
o: exemplo aceito
x: exemplo recusado
Métodos
Exemplo de previsão (III)Exemplo de previsão (III)
Superfície não linear:
melhor poder de
classificação, pior
interpretação;
Exemplos:
– perceptrons multicamadas;
– regressão não-linear;
Análise de crédito
renda
débito
x
x
x
x
x
x
x
o
o
o
o
o
o
o
o
o
t
sem
crédito
o
o: exemplo aceito
x: exemplo recusado
Métodos
Exemplo de previsão (IV)Exemplo de previsão (IV)
Métodos baseado em
exemplos;
Exemplos:
– k-vizinhos mais
próximos;
– raciocínio baseado em
casos;
Análise de crédito
renda
débito
x
x
x
x
x
x
x
o
o
o
o
o
o
o
o
o
t
sem
crédito
o
o: exemplo aceito
x: exemplo recusado
Métodos
Exemplo de descrição (I)Exemplo de descrição (I)
Agrupamento
Exemplo:
– vector quantization;
renda
débito
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
t
+
+: exemplo
Análise de crédito
Métodos
Exemplo de descrição (II)Exemplo de descrição (II)
Regras de associação
– “98% dos consumidores que adquiriram pneus
e acessórios de automóveis também se
interessaram por serviços automotivos”;
– descoberta simétrica de relações, ao contrário
de métodos de classificação
qualquer atributo pode ser uma classe ou um
atributo de discriminação;
Métodos
Revisão geral de Aprendizagem:
TécnicasTécnicas
CBR
ExemplosExemplos
Áreas de aplicações potenciais:
– Vendas e Marketing
Identificar padrões de comportamento de
consumidores
Associar comportamentos à características
demográficas de consumidores
Campanhas de marketing direto (mailing
campaigns)
Identificar consumidores “leais”
Exemplos
ExemplosExemplos
Áreas de aplicações potenciais:
– Bancos
Identificar padrões de fraudes (cartões de
crédito)
Identificar características de correntistas
Mercado Financeiro ($$$)
Exemplos
ExemplosExemplos
Áreas de aplicações potenciais
– Médica
Comportamento de pacientes
Identificar terapias de sucessos para diferentes
tratamentos
Fraudes em planos de saúdes
Comportamento de usuários de planos de saúde
Exemplos
IntroduçãoIntrodução
Exemplo (1) - Fraldas e cervejas
– O que as cervejas tem a ver com as fraldas ?
– homens casados, entre 25 e 30 anos;
– compravam fraldas e/ou cervejas às sextas-
feiras à tarde no caminho do trabalho para casa;
– Wal-Mart otimizou às gôndolas nos pontos de
vendas, colocando as fraldas ao lado das
cervejas;
– Resultado: o consumo cresceu 30% . Exemplos
ExemplosExemplos
Exemplo (2) - Lojas Brasileiras (Info 03/98)
– Aplicou 1 milhão de dólares em técnicas de data
mining
– Reduziu de 51000 produtos para 14000 produtos
oferecidos em suas lojas.
– Exemplo de anomalias detectadas:
– Roupas de inverno e guarda chuvas encalhadas no
nordeste
– Batedeiras 110v a venda em SC onde a corrente
elétrica é 220v
Exemplos
ExemplosExemplos
Exemplo (3) - Bank of America (Info 03/98)
– Selecionou entre seus 36 milhões de clientes
Aqueles com menor risco de dar calotes
Tinham filhos com idades entre 18 e 21 anos
Resultado em três anos o banco lucrou 30 milhões de
dólares com a carteira de empréstimos.
Exemplos
ExemplosExemplos
Empresas de software para Data mining:
– SAS http://www.sas.com
– Information Havesting http://www.convex.com
– Red Brick http://www.redbrick.com
– Oracle http://www.oracle.com
– Sybase http://www.sybase.com
– Informix http://www.informix.com
– IBM http://www.ibm.com
Exemplos
ConclusõesConclusões
Data mining é um processo que permite compreender o
comportamento dos dados.
Data mining analisa os dados usando técnicas de
aprendizagem para encontrar padrões e regulariedades
nestes conjuntos de dados.
É um problema pluridisciplinar, envolve Inteligência
Artificial, Estatística, Computação Gráfica, Banco de
Dados.
Pode ser bem aplicado em diversas áreas de negócios
Conclusões
ReferênciasReferências
– Fayyad et al. (1996). Advances in knowledge discovery and data
mining, AAAI Press/MIT Press.
– Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for
Knowledge in Databases, 1994.
– http://www-pcc.qub.ac.uk/tec/courses/datamining
– http://www.rio.com.br/~extended
– http://www.datamining.com
– http://www.santafe.edu/~kurt
– http://www.datamation.com
– http://www-dse.doc.ic.ac.uk/~kd
– http://www.cs.bham.ac.uk/~anp
– http://www.dbms.com
– http://www.infolink.com.br/~mpolito/mining/mining.html
– http://www.lci.ufrj.br/~labbd/semins/grupo1 Referências

Data mining

  • 1.
    Descoberta de ConhecimentoDescobertade Conhecimento em Bases de Dadosem Bases de Dados e Mineração de Dadose Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)
  • 2.
    RoteiroRoteiro Motivação Exemplo preliminar Conceitos básicos Processode kdd Métodos de mineração de dados Técnicas Exemplos Referências
  • 3.
    MotivaçãoMotivação A informatização dosmeios produtivos permitiu a geração de grandes volumes de dados: – Transações eletrônicas; – Novos equipamentos científicos e industriais para observação e controle; – Dispositivos de armazenamento em massa; Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$!)” Motivação
  • 4.
    MotivaçãoMotivação Os recursos deanálise de dados tradicionais são inviáveis para acompanhar esta evolução “Morrendo de sede por conhecimento em um oceano de dados” Motivação
  • 5.
    MotivaçãoMotivação Solução: – ferramentas deautomatização das tarefas repetitivas e sistemática de análise de dados – ferramentas de auxílio para as tarefas cognitivas da análise – integração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão Motivação
  • 6.
    Exemplo PreliminarExemplo Preliminar Umproblema do mundo dos negócios: entender o perfil dos clientes – desenvolvimento de novos produtos; – controle de estoque em postos de distribuição; – propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; Quais são meus clientes típicos? Exemplo
  • 7.
    Descoberta de ConhecimentoDescobertade Conhecimento em Bancos de Dadosem Bancos de Dados “O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; “Torture os dados até eles confessarem”; O que é um padrão interessante ? (válido, novo, útil e interpretável) Conceitos
  • 8.
    KDD x DataMiningKDD x Data Mining Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos
  • 9.
    Etapas do ProcessoEtapasdo Processo Seleção Pré-processamento Transformação Data mining (aprendizagem) Interpretação e Avaliação Processo
  • 10.
    Processo mínimo deProcessomínimo de descoberta do conhecimentodescoberta do conhecimento Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Processo
  • 11.
    11 Seleção de DadosSeleçãode Dados Selecionar ou segmentar dados de acordo com critérios definidos: Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. Processo
  • 12.
    Processo mínimoProcesso mínimo Operaçõescomo identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Processo
  • 13.
    13 Pré-ProcessamentoPré-Processamento Estágio de limpezados dados, onde informações julgadas desnecessárias são removidas. Reconfiguração dos dados para assegurar formatos consistentes (identificação) – Ex. : sexo = “F” ou “M” sexo = “M” ou “H” Processo
  • 14.
    Processo mínimoProcesso mínimo Reduçãode dimensionalidade, combinação de atributos; Processo
  • 15.
    15 TransformaçãoTransformação Transformam-se os dadosem formatos utilizáveis. Esta depende da técnica data mining usada. Disponibilizar os dados de maneira usável e navegável. Processo
  • 16.
    Processo mínimoProcesso mínimo Escolhae execução do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida Processo
  • 17.
    17 Data MiningData Mining Éa verdadeira extração dos padrões de comportamento dos dados (exemplos) Processo
  • 18.
    Processo mínimoProcesso mínimo Interpretaçãodos resultados, com possível retorno aos passos anteriores; Processo Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados;
  • 19.
    19 Interpretação e AvaliaçãoInterpretaçãoe Avaliação Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Processo
  • 20.
    Métodos de mineraçãodeMétodos de mineração de dadosdados Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos
  • 21.
    Tarefas básicasTarefas básicas Previsão –Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; – É comumente visada em aprendizado de máquina/estatística; – Exemplos: classificação e regressão; Métodos
  • 22.
    Tarefas básicasTarefas básicas Descrição –Reportar relações entre as variáveis do modelo de forma simétrica; – À princípio, está mais relacionada ao processo de KDD; – Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos
  • 23.
    Exemplo de previsão(I)Exemplo de previsão (I) Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: – se a renda é menor que t, então o crédito não deve ser liberado Exemplo: – árvores de decisão; – indução de regras renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Análise de crédito Métodos
  • 24.
    Exemplo de previsão(II)Exemplo de previsão (II) Hiperplano oblíquo: melhor separação: Exemplos: – regressão linear; – perceptron; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos
  • 25.
    Exemplo de previsão(III)Exemplo de previsão (III) Superfície não linear: melhor poder de classificação, pior interpretação; Exemplos: – perceptrons multicamadas; – regressão não-linear; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos
  • 26.
    Exemplo de previsão(IV)Exemplo de previsão (IV) Métodos baseado em exemplos; Exemplos: – k-vizinhos mais próximos; – raciocínio baseado em casos; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos
  • 27.
    Exemplo de descrição(I)Exemplo de descrição (I) Agrupamento Exemplo: – vector quantization; renda débito + + + + + + + + + + + + + + + + t + +: exemplo Análise de crédito Métodos
  • 28.
    Exemplo de descrição(II)Exemplo de descrição (II) Regras de associação – “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”; – descoberta simétrica de relações, ao contrário de métodos de classificação qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos
  • 29.
    Revisão geral deAprendizagem: TécnicasTécnicas CBR
  • 30.
    ExemplosExemplos Áreas de aplicaçõespotenciais: – Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais” Exemplos
  • 31.
    ExemplosExemplos Áreas de aplicaçõespotenciais: – Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$) Exemplos
  • 32.
    ExemplosExemplos Áreas de aplicaçõespotenciais – Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde Exemplos
  • 33.
    IntroduçãoIntrodução Exemplo (1) -Fraldas e cervejas – O que as cervejas tem a ver com as fraldas ? – homens casados, entre 25 e 30 anos; – compravam fraldas e/ou cervejas às sextas- feiras à tarde no caminho do trabalho para casa; – Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; – Resultado: o consumo cresceu 30% . Exemplos
  • 34.
    ExemplosExemplos Exemplo (2) -Lojas Brasileiras (Info 03/98) – Aplicou 1 milhão de dólares em técnicas de data mining – Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. – Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente elétrica é 220v Exemplos
  • 35.
    ExemplosExemplos Exemplo (3) -Bank of America (Info 03/98) – Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. Exemplos
  • 36.
    ExemplosExemplos Empresas de softwarepara Data mining: – SAS http://www.sas.com – Information Havesting http://www.convex.com – Red Brick http://www.redbrick.com – Oracle http://www.oracle.com – Sybase http://www.sybase.com – Informix http://www.informix.com – IBM http://www.ibm.com Exemplos
  • 37.
    ConclusõesConclusões Data mining éum processo que permite compreender o comportamento dos dados. Data mining analisa os dados usando técnicas de aprendizagem para encontrar padrões e regulariedades nestes conjuntos de dados. É um problema pluridisciplinar, envolve Inteligência Artificial, Estatística, Computação Gráfica, Banco de Dados. Pode ser bem aplicado em diversas áreas de negócios Conclusões
  • 38.
    ReferênciasReferências – Fayyad etal. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press. – Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for Knowledge in Databases, 1994. – http://www-pcc.qub.ac.uk/tec/courses/datamining – http://www.rio.com.br/~extended – http://www.datamining.com – http://www.santafe.edu/~kurt – http://www.datamation.com – http://www-dse.doc.ic.ac.uk/~kd – http://www.cs.bham.ac.uk/~anp – http://www.dbms.com – http://www.infolink.com.br/~mpolito/mining/mining.html – http://www.lci.ufrj.br/~labbd/semins/grupo1 Referências