16/9/2012   ©2010 | MATA60 Banco de Dados   1   DATA WAREHOUSE E   DATA MINING
16/9/2012   ©2010 | MATA60 Banco de Dados   2   DATA WAREHOUSE
16/9/2012                    ©2010 | MATA60 Banco de Dados   3Conceito• “Coleção de dados orientada a assunto, integrada, ...
16/9/2012      ©2010 | MATA60 Banco de Dados   4Propriedades
16/9/2012         ©2010 | MATA60 Banco de Dados   5Fluxo dos Dados
16/9/2012                        ©2010 | MATA60 Banco de Dados   6Modelagem dos Dados• Objetivos da Modelagem Dimensional ...
16/9/2012                        ©2010 | MATA60 Banco de Dados    7Modelagem dos Dados• Modelo Relacional   • Usado para i...
16/9/2012         ©2010 | MATA60 Banco de Dados   8Ambiente Operacional * AmbienteAnalítico
16/9/2012      ©2010 | MATA60 Banco de Dados   9Modelo Dimensional
16/9/2012         ©2010 | MATA60 Banco de Dados   10Tabela de Fatos
16/9/2012      ©2010 | MATA60 Banco de Dados   11Tabela de Dimensão
16/9/2012     ©2010 | MATA60 Banco de Dados   12Star Scheme
16/9/2012     ©2010 | MATA60 Banco de Dados   13Snowflake Schema
16/9/2012                              ©2010 | MATA60 Banco de Dados    14Data Mart• Definição  • DM é um subconjunto de u...
16/9/2012   ©2010 | MATA60 Banco de Dados   15DW * DM
16/9/2012      ©2010 | MATA60 Banco de Dados   16Data Warehousing
16/9/2012                                 ©2010 | MATA60 Banco de Dados   17ETL e ODS• Ferramentas de ETL   • Responsáveis...
16/9/2012     ©2010 | MATA60 Banco de Dados   18Abordagem Top-Down
16/9/2012     ©2010 | MATA60 Banco de Dados   19Abordagem Bottom-Up
16/9/2012                          ©2010 | MATA60 Banco de Dados   20OLAP• O que é OLAP (On-Line Analytical Processing)?  ...
16/9/2012                      ©2010 | MATA60 Banco de Dados   21OLAP• Cubo Multidimensional (Abstração do DW)  • Metáfora...
16/9/2012                    ©2010 | MATA60 Banco de Dados   22Operações OLAP• Drill Down e Roll Up (ou Drill Up)
16/9/2012                        ©2010 | MATA60 Banco de Dados   23Operações OLAP• Rotação  • Técnica que gira o cubo, per...
16/9/2012                         ©2010 | MATA60 Banco de Dados   24Operações OLAP• Slice and Dice  • Técnica que fatia o ...
16/9/2012   ©2010 | MATA60 Banco de Dados   25MDX
16/9/2012    ©2010 | MATA60 Banco de Dados   26   DATA MINING
16/9/2012                    ©2010 | MATA60 Banco de Dados   27Conceito• Mineração de dados é a busca de informações valio...
©2010 | Mauricio Cesar Santos da Purificação | Grupo   16/9/2012                                                    DW-UFB...
16/9/2012                   ©2010 | MATA60 Banco de Dados   29Data Mining e KDD• KDD utiliza algoritmos de data mining par...
16/9/2012       ©2010 | MATA60 Banco de Dados   30KDD - Contextualização
16/9/2012     ©2010 | MATA60 Banco de Dados   31KDD e Data Warehouse
16/9/2012                        ©2010 | MATA60 Banco de Dados   32Pré-Processamento• Atributos com representação inadequa...
16/9/2012    ©2010 | MATA60 Banco de Dados   33   TAREFAS DE DATA MINING
16/9/2012                           ©2010 | MATA60 Banco de Dados   34Análise de Regras de Associação• Exemplo:   • “Clien...
16/9/2012                         ©2010 | MATA60 Banco de Dados   35Análise de Padrões Sequenciais• Exemplo:   • A sequênc...
16/9/2012                           ©2010 | MATA60 Banco de Dados   36Classificação e Predição• Exemplo:   • Suponha que o...
16/9/2012                 ©2010 | MATA60 Banco de Dados   37Classificação e Predição• Em algumas aplicações, o usuário est...
16/9/2012                         ©2010 | MATA60 Banco de Dados   38Análise de Clusters (Agrupamentos)• Exemplo:   • Poder...
16/9/2012                  ©2010 | MATA60 Banco de Dados   39Análise de Outliers• Um banco de dados pode conter dados que ...
16/9/2012    ©2010 | MATA60 Banco de Dados   40   TÉCNICAS DE DATA   MINING
16/9/2012                       ©2010 | MATA60 Banco de Dados         41Árvores de Decisão • Representações simples do con...
16/9/2012                              ©2010 | MATA60 Banco de Dados         42 Árvores de Decisão      Classificação de u...
16/9/2012                                       ©2010 | MATA60 Banco de Dados   43Redes Neurais• Redes Neurais:      • Par...
16/9/2012                           ©2010 | MATA60 Banco de Dados   44Técnicas • Redes Neurais:   • Exemplo prático: risco...
16/9/2012                        ©2010 | MATA60 Banco de Dados    45Técnicas• Redes Neurais: - 2o Exemplo                 ...
Próximos SlideShares
Carregando em…5
×

Data Warehouse e Data Mining

1.511 visualizações

Publicada em

Publicada em: Tecnologia
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.511
No SlideShare
0
A partir de incorporações
0
Número de incorporações
6
Ações
Compartilhamentos
0
Downloads
82
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Data Warehouse e Data Mining

  1. 1. 16/9/2012 ©2010 | MATA60 Banco de Dados 1 DATA WAREHOUSE E DATA MINING
  2. 2. 16/9/2012 ©2010 | MATA60 Banco de Dados 2 DATA WAREHOUSE
  3. 3. 16/9/2012 ©2010 | MATA60 Banco de Dados 3Conceito• “Coleção de dados orientada a assunto, integrada, não- volátil e variante no tempo, utilizada para tomada de decisões”. W. H. Inmon• "a copy of transaction data specifically structured for query and analysis“ R. Kimball• “Repositório estruturado e corporativo de dados orientados a assunto, variantes no tempo e históricos, usados para recuperação de informações e suporte à decisão. O DW armazena atômicos e sumarizados”. Definição de DW da Oracle
  4. 4. 16/9/2012 ©2010 | MATA60 Banco de Dados 4Propriedades
  5. 5. 16/9/2012 ©2010 | MATA60 Banco de Dados 5Fluxo dos Dados
  6. 6. 16/9/2012 ©2010 | MATA60 Banco de Dados 6Modelagem dos Dados• Objetivos da Modelagem Dimensional • Fornecer uma imagem global da realidade do negócio • Exibir informações em níveis apropriados de detalhes (resumido ou detalhado) • Otimizar o processamento de consultas complexas (Modelo Estrela ou Flocos de Neve) • Integrar dados de diversas fontes em uma única BD para facilitar a geração de relatórios
  7. 7. 16/9/2012 ©2010 | MATA60 Banco de Dados 7Modelagem dos Dados• Modelo Relacional • Usado para identificar relacionamentos entre tipos de relações • Visa remover a redundância de dados • Processamento de Transações On-Line (OLTP)• Modelo Dimensional • Apresenta dados em uma estrutura intuitiva permitindo alta performance de acesso • Independe da representação física dos dados • Organiza dados em tabelas de fatos e dimensões • Processamento Analítico On-Line (OLAP)
  8. 8. 16/9/2012 ©2010 | MATA60 Banco de Dados 8Ambiente Operacional * AmbienteAnalítico
  9. 9. 16/9/2012 ©2010 | MATA60 Banco de Dados 9Modelo Dimensional
  10. 10. 16/9/2012 ©2010 | MATA60 Banco de Dados 10Tabela de Fatos
  11. 11. 16/9/2012 ©2010 | MATA60 Banco de Dados 11Tabela de Dimensão
  12. 12. 16/9/2012 ©2010 | MATA60 Banco de Dados 12Star Scheme
  13. 13. 16/9/2012 ©2010 | MATA60 Banco de Dados 13Snowflake Schema
  14. 14. 16/9/2012 ©2010 | MATA60 Banco de Dados 14Data Mart• Definição • DM é um subconjunto de um DW • Subconjunto do DW que satisfaz os requisitos de um certo tema ou atividade de negócio • Projetado para um dado grupo de usuários• Específico a um assunto particular ou atividade de negócio• Pode ser visto como uma solução tática• Pode ser construído antes ou depois do DW • Antes ⇒ pode representar fragmentos de dados, mas reduz a complexidade de desenvolvimento • Depois ⇒ produz uma visão integrada dos dados, mas aumenta a complexidade de desenvolvimento• Abordagem atual consiste em construir primeiro os DM, mas garantindo a consistência dos dados!
  15. 15. 16/9/2012 ©2010 | MATA60 Banco de Dados 15DW * DM
  16. 16. 16/9/2012 ©2010 | MATA60 Banco de Dados 16Data Warehousing
  17. 17. 16/9/2012 ©2010 | MATA60 Banco de Dados 17ETL e ODS• Ferramentas de ETL • Responsáveis pela conversão dos dados do ambiente operacional para o de suporte à decisão • Realizam Acesso, Extração, Transformação, Validação e Carga dos dados• Operational Datastore (ODS) • Repositório de dados operacionais integrados • Benefícios • Otimiza a criação do DW • Possibilita a realização de consultas relacionais sobre dados históricos • Permite interações de tempo real (e.g. gerenciamento de relacionamentos de cliente)
  18. 18. 16/9/2012 ©2010 | MATA60 Banco de Dados 18Abordagem Top-Down
  19. 19. 16/9/2012 ©2010 | MATA60 Banco de Dados 19Abordagem Bottom-Up
  20. 20. 16/9/2012 ©2010 | MATA60 Banco de Dados 20OLAP• O que é OLAP (On-Line Analytical Processing)? • Conjunto de tecnologias projetadas para analisar e acessar dados típicos de suporte a decisão que estão no DW • Fornece dados em alto nível (totais,médias,min..) • Acessa vários registros • Tem alto desempenho e consultas fáceis e interativas • Lida com dados históricos (dimensão temporal) • Oferece visões multidimensionais (perspectivas)
  21. 21. 16/9/2012 ©2010 | MATA60 Banco de Dados 21OLAP• Cubo Multidimensional (Abstração do DW) • Metáfora de uma abordagem multidimensional para visualização e organização dos dados • Várias dimensões podem ser usadas simultaneamente • Dados são manipulados mais rapidamente e facilmente (agregação em níveis de hierarquia)
  22. 22. 16/9/2012 ©2010 | MATA60 Banco de Dados 22Operações OLAP• Drill Down e Roll Up (ou Drill Up)
  23. 23. 16/9/2012 ©2010 | MATA60 Banco de Dados 23Operações OLAP• Rotação • Técnica que gira o cubo, permitindo ter diferentes visões dos dados
  24. 24. 16/9/2012 ©2010 | MATA60 Banco de Dados 24Operações OLAP• Slice and Dice • Técnica que fatia o cubo, permitindo restringir a análise aos dados, sem inversão de eixos • “Semelhante” a cláusula WHERE de SQL
  25. 25. 16/9/2012 ©2010 | MATA60 Banco de Dados 25MDX
  26. 26. 16/9/2012 ©2010 | MATA60 Banco de Dados 26 DATA MINING
  27. 27. 16/9/2012 ©2010 | MATA60 Banco de Dados 27Conceito• Mineração de dados é a busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens [WI99].• Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99].• Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01].
  28. 28. ©2010 | Mauricio Cesar Santos da Purificação | Grupo 16/9/2012 DW-UFBA 28 Áreas de Aplicações Potenciais• Vendas e Marketing • Identificar padrões de comportamento de consumidores • Associar comportamentos à características demográficas de consumidores • Campanhas de marketing direto (mailing campaigns) • Identificar consumidores “leais”• Bancos • Identificar padrões de fraudes (cartões de crédito) • Identificar características de correntistas • Mercado Financeiro ($$$)• Médica • Comportamento de pacientes • Identificar terapias de sucessos para diferentes tratamentos • Fraudes em planos de saúdes • Comportamento de usuários de planos de saúde
  29. 29. 16/9/2012 ©2010 | MATA60 Banco de Dados 29Data Mining e KDD• KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”.• Incorpora tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;
  30. 30. 16/9/2012 ©2010 | MATA60 Banco de Dados 30KDD - Contextualização
  31. 31. 16/9/2012 ©2010 | MATA60 Banco de Dados 31KDD e Data Warehouse
  32. 32. 16/9/2012 ©2010 | MATA60 Banco de Dados 32Pré-Processamento• Atributos com representação inadequada para tarefa e algoritmo.• Atributos cujos valores não tenham informações adequadas.• Excesso de atributos (podem ser redundantes ou desnecessários).• Atributos insuficientes.• Excesso de instancias (afetam tempo de processamento).• Instâncias insuficientes.• Instâncias incompletas (sem valores para alguns atributos).• Assim como a mineração de dados em si, requer conhecimento sobre os dados e algoritmo que será usado!
  33. 33. 16/9/2012 ©2010 | MATA60 Banco de Dados 33 TAREFAS DE DATA MINING
  34. 34. 16/9/2012 ©2010 | MATA60 Banco de Dados 34Análise de Regras de Associação• Exemplo: • “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado. • Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais.
  35. 35. 16/9/2012 ©2010 | MATA60 Banco de Dados 35Análise de Padrões Sequenciais• Exemplo: • A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca- fitas de carro. • Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo.
  36. 36. 16/9/2012 ©2010 | MATA60 Banco de Dados 36Classificação e Predição• Exemplo: • Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador. • Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores.
  37. 37. 16/9/2012 ©2010 | MATA60 Banco de Dados 37Classificação e Predição• Em algumas aplicações, o usuário está mais interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos.• Neste caso, a tarefa de mineração é denominada Predição.
  38. 38. 16/9/2012 ©2010 | MATA60 Banco de Dados 38Análise de Clusters (Agrupamentos)• Exemplo: • Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes; • Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira;
  39. 39. 16/9/2012 ©2010 | MATA60 Banco de Dados 39Análise de Outliers• Um banco de dados pode conter dados que não apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções).• Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado.• Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente.
  40. 40. 16/9/2012 ©2010 | MATA60 Banco de Dados 40 TÉCNICAS DE DATA MINING
  41. 41. 16/9/2012 ©2010 | MATA60 Banco de Dados 41Árvores de Decisão • Representações simples do conhecimento • Utilização de regras condicionais • A partir de um conjunto de valores decide SIM ou NÃO • Mais rápida e mais compreensível que redes neurais • Exemplo: Sair ou não de acordo com o tempo Tempo Predicado objetivo: Sair ou Não Sair Nublado Ensolarado Chuvoso Umidade Sair Muito vento Alta Normal Sim Não Ñ Sair Sair Ñ Sair Sair
  42. 42. 16/9/2012 ©2010 | MATA60 Banco de Dados 42 Árvores de Decisão Classificação de um indivíduo com risco de ter ou não crédito Renda > R$ 4.000,00 SIM NÃO Predicado objetivo: Crédito ou Não Dívida < 10% da renda ? Dívida = 0% SIM NÃO NÃO SIMRisco de ter crédito Risco de não ter crédito Risco de ter crédito Nesta árvore de decisões, regras são induzidas nos padrões dos dados e cria-se uma hierarquia de indicações “se-então”.
  43. 43. 16/9/2012 ©2010 | MATA60 Banco de Dados 43Redes Neurais• Redes Neurais: • Para construir um modelo neural, nós primeiramente "adestramos" a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições. • Problemas: • Não retorna informação a priori • Não pode ser treinada em uma grande base de dados • Entrada não pode ser dados alfanuméricos (mapear para numérico) • Nenhuma explanação dos dados é fornecida (caixa preta)
  44. 44. 16/9/2012 ©2010 | MATA60 Banco de Dados 44Técnicas • Redes Neurais: • Exemplo prático: risco de câncer Data mining - Clementine User Guide
  45. 45. 16/9/2012 ©2010 | MATA60 Banco de Dados 45Técnicas• Redes Neurais: - 2o Exemplo Nível RENDA DÉBITO IDADE REG. DE de PAGAMENTO entrada Nível oculto Risco Risco de de ter não ter crédito crédito Nível de As redes neurais usam seus dados de entrada. saída Atribui pesos nas conecções entre os atributos (neurônios). E obtém um resultado (risco de ter ou não crédito) no nível de

×