Data mining

363 visualizações

Publicada em

Estudo sobre a descoberta de conhecimento em bases e mineração de dados

Publicada em: Negócios
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
363
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
8
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Data mining

  1. 1. Descoberta de ConhecimentoDescoberta de Conhecimento em Bases de Dadosem Bases de Dados e Mineração de Dadose Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)
  2. 2. RoteiroRoteiro Motivação Exemplo preliminar Conceitos básicos Processo de kdd Métodos de mineração de dados Técnicas Exemplos Referências
  3. 3. MotivaçãoMotivação A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: – Transações eletrônicas; – Novos equipamentos científicos e industriais para observação e controle; – Dispositivos de armazenamento em massa; Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$!)” Motivação
  4. 4. MotivaçãoMotivação Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução “Morrendo de sede por conhecimento em um oceano de dados” Motivação
  5. 5. MotivaçãoMotivação Solução: – ferramentas de automatização das tarefas repetitivas e sistemática de análise de dados – ferramentas de auxílio para as tarefas cognitivas da análise – integração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão Motivação
  6. 6. Exemplo PreliminarExemplo Preliminar Um problema do mundo dos negócios: entender o perfil dos clientes – desenvolvimento de novos produtos; – controle de estoque em postos de distribuição; – propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; Quais são meus clientes típicos? Exemplo
  7. 7. Descoberta de ConhecimentoDescoberta de Conhecimento em Bancos de Dadosem Bancos de Dados “O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; “Torture os dados até eles confessarem”; O que é um padrão interessante ? (válido, novo, útil e interpretável) Conceitos
  8. 8. KDD x Data MiningKDD x Data Mining Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos
  9. 9. Etapas do ProcessoEtapas do Processo Seleção Pré-processamento Transformação Data mining (aprendizagem) Interpretação e Avaliação Processo
  10. 10. Processo mínimo deProcesso mínimo de descoberta do conhecimentodescoberta do conhecimento Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Processo
  11. 11. 11 Seleção de DadosSeleção de Dados Selecionar ou segmentar dados de acordo com critérios definidos: Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. Processo
  12. 12. Processo mínimoProcesso mínimo Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Processo
  13. 13. 13 Pré-ProcessamentoPré-Processamento Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. Reconfiguração dos dados para assegurar formatos consistentes (identificação) – Ex. : sexo = “F” ou “M” sexo = “M” ou “H” Processo
  14. 14. Processo mínimoProcesso mínimo Redução de dimensionalidade, combinação de atributos; Processo
  15. 15. 15 TransformaçãoTransformação Transformam-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. Disponibilizar os dados de maneira usável e navegável. Processo
  16. 16. Processo mínimoProcesso mínimo Escolha e execução do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida Processo
  17. 17. 17 Data MiningData Mining É a verdadeira extração dos padrões de comportamento dos dados (exemplos) Processo
  18. 18. Processo mínimoProcesso mínimo Interpretação dos resultados, com possível retorno aos passos anteriores; Processo Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados;
  19. 19. 19 Interpretação e AvaliaçãoInterpretação e Avaliação Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Processo
  20. 20. Métodos de mineração deMétodos de mineração de dadosdados Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos
  21. 21. Tarefas básicasTarefas básicas Previsão – Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; – É comumente visada em aprendizado de máquina/estatística; – Exemplos: classificação e regressão; Métodos
  22. 22. Tarefas básicasTarefas básicas Descrição – Reportar relações entre as variáveis do modelo de forma simétrica; – À princípio, está mais relacionada ao processo de KDD; – Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos
  23. 23. Exemplo de previsão (I)Exemplo de previsão (I) Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: – se a renda é menor que t, então o crédito não deve ser liberado Exemplo: – árvores de decisão; – indução de regras renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Análise de crédito Métodos
  24. 24. Exemplo de previsão (II)Exemplo de previsão (II) Hiperplano oblíquo: melhor separação: Exemplos: – regressão linear; – perceptron; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos
  25. 25. Exemplo de previsão (III)Exemplo de previsão (III) Superfície não linear: melhor poder de classificação, pior interpretação; Exemplos: – perceptrons multicamadas; – regressão não-linear; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos
  26. 26. Exemplo de previsão (IV)Exemplo de previsão (IV) Métodos baseado em exemplos; Exemplos: – k-vizinhos mais próximos; – raciocínio baseado em casos; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos
  27. 27. Exemplo de descrição (I)Exemplo de descrição (I) Agrupamento Exemplo: – vector quantization; renda débito + + + + + + + + + + + + + + + + t + +: exemplo Análise de crédito Métodos
  28. 28. Exemplo de descrição (II)Exemplo de descrição (II) Regras de associação – “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”; – descoberta simétrica de relações, ao contrário de métodos de classificação qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos
  29. 29. Revisão geral de Aprendizagem: TécnicasTécnicas CBR
  30. 30. ExemplosExemplos Áreas de aplicações potenciais: – Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais” Exemplos
  31. 31. ExemplosExemplos Áreas de aplicações potenciais: – Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$) Exemplos
  32. 32. ExemplosExemplos Áreas de aplicações potenciais – Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde Exemplos
  33. 33. IntroduçãoIntrodução Exemplo (1) - Fraldas e cervejas – O que as cervejas tem a ver com as fraldas ? – homens casados, entre 25 e 30 anos; – compravam fraldas e/ou cervejas às sextas- feiras à tarde no caminho do trabalho para casa; – Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; – Resultado: o consumo cresceu 30% . Exemplos
  34. 34. ExemplosExemplos Exemplo (2) - Lojas Brasileiras (Info 03/98) – Aplicou 1 milhão de dólares em técnicas de data mining – Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. – Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente elétrica é 220v Exemplos
  35. 35. ExemplosExemplos Exemplo (3) - Bank of America (Info 03/98) – Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. Exemplos
  36. 36. ExemplosExemplos Empresas de software para Data mining: – SAS http://www.sas.com – Information Havesting http://www.convex.com – Red Brick http://www.redbrick.com – Oracle http://www.oracle.com – Sybase http://www.sybase.com – Informix http://www.informix.com – IBM http://www.ibm.com Exemplos
  37. 37. ConclusõesConclusões Data mining é um processo que permite compreender o comportamento dos dados. Data mining analisa os dados usando técnicas de aprendizagem para encontrar padrões e regulariedades nestes conjuntos de dados. É um problema pluridisciplinar, envolve Inteligência Artificial, Estatística, Computação Gráfica, Banco de Dados. Pode ser bem aplicado em diversas áreas de negócios Conclusões
  38. 38. ReferênciasReferências – Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press. – Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for Knowledge in Databases, 1994. – http://www-pcc.qub.ac.uk/tec/courses/datamining – http://www.rio.com.br/~extended – http://www.datamining.com – http://www.santafe.edu/~kurt – http://www.datamation.com – http://www-dse.doc.ic.ac.uk/~kd – http://www.cs.bham.ac.uk/~anp – http://www.dbms.com – http://www.infolink.com.br/~mpolito/mining/mining.html – http://www.lci.ufrj.br/~labbd/semins/grupo1 Referências

×