Data Warehouse e Data Mining

Mauricio Cesar Santos da Purificação
Mauricio Cesar Santos da PurificaçãoBusiness Intelligence Consultant em MPurificação
16/9/2012   ©2010 | MATA60 Banco de Dados   1




   DATA WAREHOUSE E
   DATA MINING
16/9/2012   ©2010 | MATA60 Banco de Dados   2




   DATA WAREHOUSE
16/9/2012                    ©2010 | MATA60 Banco de Dados   3




Conceito
• “Coleção de dados orientada a assunto, integrada, não-
  volátil e variante no tempo, utilizada para tomada de
  decisões”. W. H. Inmon

• "a copy of transaction data specifically structured for
  query and analysis“ R. Kimball

• “Repositório estruturado e corporativo de dados
  orientados a assunto, variantes no tempo e históricos,
  usados para recuperação de informações e suporte à
  decisão. O DW armazena atômicos e sumarizados”.
  Definição de DW da Oracle
16/9/2012      ©2010 | MATA60 Banco de Dados   4




Propriedades
16/9/2012         ©2010 | MATA60 Banco de Dados   5




Fluxo dos Dados
16/9/2012                        ©2010 | MATA60 Banco de Dados   6




Modelagem dos Dados
• Objetivos da Modelagem Dimensional


   • Fornecer uma imagem global da realidade do negócio
   • Exibir informações em níveis apropriados de detalhes (resumido
     ou detalhado)
   • Otimizar o processamento de consultas complexas
   (Modelo Estrela ou Flocos de Neve)
   • Integrar dados de diversas fontes em uma única BD para facilitar a
     geração de relatórios
16/9/2012                        ©2010 | MATA60 Banco de Dados    7




Modelagem dos Dados
• Modelo Relacional

   • Usado para identificar relacionamentos entre tipos de relações
   • Visa remover a redundância de dados
   • Processamento de Transações On-Line (OLTP)


• Modelo Dimensional

   • Apresenta dados em uma estrutura intuitiva permitindo alta
     performance de acesso
   • Independe da representação física dos dados
   • Organiza dados em tabelas de fatos e dimensões
   • Processamento Analítico On-Line (OLAP)
16/9/2012         ©2010 | MATA60 Banco de Dados   8


Ambiente Operacional * Ambiente
Analítico
16/9/2012      ©2010 | MATA60 Banco de Dados   9




Modelo Dimensional
16/9/2012         ©2010 | MATA60 Banco de Dados   10




Tabela de Fatos
16/9/2012      ©2010 | MATA60 Banco de Dados   11




Tabela de Dimensão
16/9/2012     ©2010 | MATA60 Banco de Dados   12




Star Scheme
16/9/2012     ©2010 | MATA60 Banco de Dados   13




Snowflake Schema
16/9/2012                              ©2010 | MATA60 Banco de Dados    14




Data Mart
• Definição
  • DM é um subconjunto de um DW
       • Subconjunto do DW que satisfaz os requisitos de um certo tema ou
         atividade de negócio
       • Projetado para um dado grupo de usuários
• Específico a um assunto particular ou atividade de negócio
• Pode ser visto como uma solução tática
• Pode ser construído antes ou depois do DW
  • Antes ⇒ pode representar fragmentos de dados, mas reduz a
    complexidade de desenvolvimento
  • Depois ⇒ produz uma visão integrada dos dados, mas aumenta a
    complexidade de desenvolvimento
• Abordagem atual consiste em construir primeiro os DM, mas
  garantindo a consistência dos dados!
16/9/2012   ©2010 | MATA60 Banco de Dados   15




DW * DM
16/9/2012      ©2010 | MATA60 Banco de Dados   16




Data Warehousing
16/9/2012                                 ©2010 | MATA60 Banco de Dados   17




ETL e ODS
• Ferramentas de ETL

   • Responsáveis pela conversão dos dados do ambiente operacional
     para o de suporte à decisão
   • Realizam Acesso, Extração, Transformação, Validação e Carga
     dos dados


• Operational Datastore (ODS)
  • Repositório de dados operacionais integrados
  • Benefícios
       • Otimiza a criação do DW
       • Possibilita a realização de consultas relacionais sobre dados históricos
       • Permite interações de tempo real (e.g. gerenciamento de
            relacionamentos de cliente)
16/9/2012     ©2010 | MATA60 Banco de Dados   18




Abordagem Top-Down
16/9/2012     ©2010 | MATA60 Banco de Dados   19




Abordagem Bottom-Up
16/9/2012                          ©2010 | MATA60 Banco de Dados   20




OLAP
• O que é OLAP (On-Line Analytical Processing)?


   • Conjunto de tecnologias projetadas para analisar e acessar dados
       típicos de suporte a decisão que estão no DW
   •    Fornece dados em alto nível (totais,médias,min..)
   •    Acessa vários registros
   •   Tem alto desempenho e consultas fáceis e interativas
   •    Lida com dados históricos (dimensão temporal)
   •    Oferece visões multidimensionais (perspectivas)
16/9/2012                      ©2010 | MATA60 Banco de Dados   21




OLAP
• Cubo Multidimensional (Abstração do DW)
  • Metáfora de uma abordagem multidimensional para visualização e
    organização dos dados
  • Várias dimensões podem ser usadas simultaneamente
  • Dados são manipulados mais rapidamente e facilmente
    (agregação em níveis de hierarquia)
16/9/2012                    ©2010 | MATA60 Banco de Dados   22




Operações OLAP
• Drill Down e Roll Up (ou Drill Up)
16/9/2012                        ©2010 | MATA60 Banco de Dados   23




Operações OLAP
• Rotação
  • Técnica que gira o cubo, permitindo ter diferentes visões dos
    dados
16/9/2012                         ©2010 | MATA60 Banco de Dados   24




Operações OLAP
• Slice and Dice
  • Técnica que fatia o cubo, permitindo restringir a análise aos dados,
    sem inversão de eixos
  • “Semelhante” a cláusula WHERE de SQL
16/9/2012   ©2010 | MATA60 Banco de Dados   25




MDX
16/9/2012    ©2010 | MATA60 Banco de Dados   26




   DATA MINING
16/9/2012                    ©2010 | MATA60 Banco de Dados   27




Conceito
• Mineração de dados é a busca de informações valiosas em
  grandes bancos de dados. É um esforço de cooperação entre
  homens e computadores. Os homens projetam bancos de
  dados, descrevem problemas e definem seus objetivos. Os
  computadores verificam dados e procuram padrões que casem
  com as metas estabelecidas pelos homens [WI99].

• Mineração de dados é o processo de proposição de várias
  consultas e extração de informações úteis, padrões e
  tendências, frequentemente desconhecidos, a partir de grande
  quantidade de dados armazenada em bancos de dados
  [BT99].

• Mineração de dados, de forma simples, é o processo de
  extração ou mineração de conhecimento em grandes
  quantidades de dados [HK01].
©2010 | Mauricio Cesar Santos da Purificação | Grupo
   16/9/2012
                                                    DW-UFBA
                                                                                       28




   Áreas de Aplicações Potenciais
• Vendas e Marketing
   • Identificar padrões de comportamento de consumidores
   • Associar comportamentos à características demográficas de consumidores
   • Campanhas de marketing direto (mailing campaigns)
   • Identificar consumidores “leais”
• Bancos
  • Identificar padrões de fraudes (cartões de crédito)
  • Identificar características de correntistas
  • Mercado Financeiro ($$$)
• Médica
  • Comportamento de pacientes
  • Identificar terapias de sucessos para diferentes tratamentos
  • Fraudes em planos de saúdes
  • Comportamento de usuários de planos de saúde
16/9/2012                   ©2010 | MATA60 Banco de Dados   29




Data Mining e KDD
• KDD utiliza algoritmos de data mining para extrair
  padrões classificados como “conhecimento”.

• Incorpora tarefas como escolha do algoritmo adequado,
  processamento e amostragem de dados e interpretação
  de resultados;
16/9/2012       ©2010 | MATA60 Banco de Dados   30




KDD - Contextualização
16/9/2012     ©2010 | MATA60 Banco de Dados   31




KDD e Data Warehouse
16/9/2012                        ©2010 | MATA60 Banco de Dados   32




Pré-Processamento
• Atributos com representação inadequada para tarefa e algoritmo.

• Atributos cujos valores não tenham informações adequadas.

• Excesso de atributos (podem ser redundantes ou desnecessários).

• Atributos insuficientes.

• Excesso de instancias (afetam tempo de processamento).

• Instâncias insuficientes.

• Instâncias incompletas (sem valores para alguns atributos).

• Assim como a mineração de dados em si, requer conhecimento
  sobre os dados e algoritmo que será usado!
16/9/2012    ©2010 | MATA60 Banco de Dados   33




   TAREFAS DE DATA MINING
16/9/2012                           ©2010 | MATA60 Banco de Dados   34




Análise de Regras de Associação
• Exemplo:


   • “Clientes que compram pão também compram leite” representa
      uma regra de associação que reflete um padrão de comportamento
      dos clientes do supermercado.

   • Descobrir regras de associação entre produtos comprados por
      clientes numa mesma compra pode ser útil para melhorar a
      organização das prateleiras, facilitar (ou dificultar) as compras do
      usuário ou induzi-lo a comprar mais.
16/9/2012                         ©2010 | MATA60 Banco de Dados   35




Análise de Padrões Sequenciais
• Exemplo:


   • A sequência < {carro}, {pneu, toca-fitas} > representa o padrão
      Clientes que compram carro, tempos depois compram pneu e toca-
      fitas de carro.

   • Descobrir tais padrões sequenciais em dados temporais pode ser
      útil em campanhas de marketing, por exemplo.
16/9/2012                           ©2010 | MATA60 Banco de Dados   36




Classificação e Predição
• Exemplo:


   • Suponha que o gerente do supermercado está interessado em
      descobrir que tipo de características de seus clientes os
      classificam em bom comprador ou mau comprador.

   • Um modelo de classificação poderia incluir a seguinte regra:
      Clientes da faixa econômica B, com idade entre 50 e 60 são maus
      compradores.
16/9/2012                 ©2010 | MATA60 Banco de Dados   37




Classificação e Predição
• Em algumas aplicações, o usuário está mais interessado
  em predizer alguns valores ausentes em seus dados, em
  vez de descobrir classes de objetos. Isto ocorre
  sobretudo quando os valores que faltam são numéricos.

• Neste caso, a tarefa de mineração é denominada
  Predição.
16/9/2012                         ©2010 | MATA60 Banco de Dados   38




Análise de Clusters (Agrupamentos)
• Exemplo:


   • Poderíamos aplicar análise de clusters sobre o banco de dados de
      um supermercado a fim de identificar grupos homogêneos de
      clientes;

   • Por exemplo, clientes aglutinados em determinados pontos da
      cidade costumam vir ao supermercado aos domingos, enquanto
      clientes aglutinados em outros pontos da cidade costumam fazer
      suas compras às segundas-feira;
16/9/2012                  ©2010 | MATA60 Banco de Dados   39




Análise de Outliers
• Um banco de dados pode conter dados que não
  apresentam o comportamento geral da maioria. Estes
  dados são denominados outliers(exceções).

• Muitos métodos de mineração descartam estes outliers
  como sendo ruído indesejado.

• Entretanto, em algumas aplicações, tais como detecção
  de fraudes, estes eventos raros podem ser mais
  interessantes do que eventos que ocorrem regularmente.
16/9/2012    ©2010 | MATA60 Banco de Dados   40




   TÉCNICAS DE DATA
   MINING
16/9/2012                       ©2010 | MATA60 Banco de Dados         41




Árvores de Decisão
 • Representações simples do conhecimento
 • Utilização de regras condicionais
 • A partir de um conjunto de valores decide SIM ou NÃO
 • Mais rápida e mais compreensível que redes neurais
 • Exemplo: Sair ou não de acordo com o tempo
                         Tempo
                                                        Predicado objetivo:
                                                          Sair ou Não Sair
               Nublado     Ensolarado         Chuvoso

              Umidade        Sair            Muito vento
            Alta    Normal                Sim                   Não

        Ñ Sair      Sair                Ñ Sair              Sair
16/9/2012                              ©2010 | MATA60 Banco de Dados         42




 Árvores de Decisão
      Classificação de um indivíduo com risco de ter ou não crédito
                        Renda > R$ 4.000,00

                          SIM                          NÃO        Predicado objetivo:
                                                                     Crédito ou Não

        Dívida < 10% da renda ?                       Dívida = 0%


             SIM                  NÃO         NÃO                       SIM


Risco de ter crédito Risco de não ter crédito Risco de ter crédito

             Nesta árvore de decisões, regras são induzidas nos padrões dos
                dados e cria-se uma hierarquia de indicações “se-então”.
16/9/2012                                       ©2010 | MATA60 Banco de Dados   43




Redes Neurais
• Redes Neurais:


      • Para construir um modelo neural, nós primeiramente
        "adestramos" a rede em um dataset de treinamento e então
        usamos a rede já treinada para fazer predições.
      • Problemas:
            • Não retorna informação a priori
            • Não pode ser treinada em uma grande base de dados
            • Entrada não pode ser dados alfanuméricos (mapear para numérico)
            • Nenhuma explanação dos dados é fornecida (caixa preta)
16/9/2012                           ©2010 | MATA60 Banco de Dados   44




Técnicas
 • Redes Neurais:
   • Exemplo prático: risco de câncer




                      Data mining - Clementine User Guide
16/9/2012                        ©2010 | MATA60 Banco de Dados    45




Técnicas
• Redes Neurais: - 2o Exemplo
                                                                        Nível
      RENDA         DÉBITO          IDADE               REG. DE          de
                                                      PAGAMENTO        entrada




                                                                        Nível
                                                                       oculto

                     Risco           Risco de
                     de ter           não ter
                    crédito          crédito                            Nível
                                                                         de
         As redes neurais usam seus dados de entrada.                   saída
   Atribui pesos nas conecções entre os atributos (neurônios).
  E obtém um resultado (risco de ter ou não crédito) no nível de
1 de 45

Recomendados

Data Mining e Data Warehouse por
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data WarehouseJeorgeCarmona
7K visualizações28 slides
Data Warehouse por
Data WarehouseData Warehouse
Data WarehouseThiago Oliveira
7.6K visualizações49 slides
Data warehousing - Técnicas e procedimentos por
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosMarcos Pessoa
1.8K visualizações51 slides
Datawarehouse por
DatawarehouseDatawarehouse
DatawarehouseAlana Souza
2.9K visualizações44 slides
Data Warehouse por
Data WarehouseData Warehouse
Data WarehouseMenelik Soares
474 visualizações18 slides
Introdução ao Data Warehouse por
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data WarehouseMessias Batista
701 visualizações41 slides

Mais conteúdo relacionado

Mais procurados

Business Intelligence - Data Warehouse por
Business Intelligence - Data WarehouseBusiness Intelligence - Data Warehouse
Business Intelligence - Data WarehouseRudson Kiyoshi Souza Carvalho
1.6K visualizações59 slides
Data warehouse & data mining por
Data warehouse & data miningData warehouse & data mining
Data warehouse & data miningJerônimo Medina Madruga
10.5K visualizações73 slides
OLAP, BI, EIS por
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EISNetalva - Joel Alvarenga
3.2K visualizações44 slides
Apresentação de Business Intelligence por
Apresentação de Business IntelligenceApresentação de Business Intelligence
Apresentação de Business IntelligenceJuliana Maria Lopes
912 visualizações9 slides
OLAP por
OLAPOLAP
OLAPEder E. Pereira
1K visualizações27 slides
Data warehouse & Data mining por
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
8.9K visualizações31 slides

Mais procurados(20)

Apresentação de Business Intelligence por Juliana Maria Lopes
Apresentação de Business IntelligenceApresentação de Business Intelligence
Apresentação de Business Intelligence
Juliana Maria Lopes912 visualizações
Data warehouse & Data mining por Cassius Busemeyer
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
Cassius Busemeyer8.9K visualizações
38664419 artigo-data warehouse por diochel
38664419 artigo-data warehouse38664419 artigo-data warehouse
38664419 artigo-data warehouse
diochel3K visualizações
Sistemas de Informação (SAD / OLAP) por m4rkSpinelli
Sistemas de Informação (SAD / OLAP)Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)
m4rkSpinelli10.4K visualizações
Kimball Vs Inmon por guest2308b5
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmon
guest2308b514.7K visualizações
Data warehousing por acistec
Data warehousingData warehousing
Data warehousing
acistec2.5K visualizações
Tomada decisão por Ecoplas
Tomada decisãoTomada decisão
Tomada decisão
Ecoplas3.6K visualizações
Pg20235 rf20222vp20208 por rikardojsf
Pg20235 rf20222vp20208Pg20235 rf20222vp20208
Pg20235 rf20222vp20208
rikardojsf323 visualizações
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p... por fabiolagrijo
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
fabiolagrijo1.6K visualizações
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ... por Caio Moreno
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Caio Moreno89K visualizações
Introdução ao BI por pichiliani
Introdução ao BIIntrodução ao BI
Introdução ao BI
pichiliani2K visualizações
As 10 maiores tendências em business intelligence para 2014 por Tableau Software
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014
Tableau Software4.7K visualizações
Data warehouse por RuiPedroGomes7
Data warehouseData warehouse
Data warehouse
RuiPedroGomes7476 visualizações

Similar a Data Warehouse e Data Mining

Sistemas de Informação - Aula05 - cap5 bd e business intelligence por
Sistemas de Informação - Aula05 - cap5 bd e business intelligenceSistemas de Informação - Aula05 - cap5 bd e business intelligence
Sistemas de Informação - Aula05 - cap5 bd e business intelligenceCEULJI/ULBRA Centro Universitário Luterano de Ji-Paraná
1.3K visualizações58 slides
Aula Data Mining por
Aula Data MiningAula Data Mining
Aula Data MiningMauricio Cesar Santos da Purificação
2K visualizações98 slides
Business Intelligence por
Business IntelligenceBusiness Intelligence
Business IntelligenceMauricio Uriona Maldonado PhD
1.6K visualizações40 slides
Bancos de dados no sql – uma nova abordagem por
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemJoão Gabriel Lima
714 visualizações30 slides
Carreira do profissional de dados por
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dadosEdvaldo Castro
764 visualizações56 slides
Poc1 apresentacao parcial_henriquechevreux por
Poc1 apresentacao parcial_henriquechevreuxPoc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreuxchevreux
344 visualizações12 slides

Similar a Data Warehouse e Data Mining(20)

Bancos de dados no sql – uma nova abordagem por João Gabriel Lima
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagem
João Gabriel Lima714 visualizações
Carreira do profissional de dados por Edvaldo Castro
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dados
Edvaldo Castro764 visualizações
Poc1 apresentacao parcial_henriquechevreux por chevreux
Poc1 apresentacao parcial_henriquechevreuxPoc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreux
chevreux344 visualizações
Data mesh-pt por IgorViana30
Data mesh-ptData mesh-pt
Data mesh-pt
IgorViana3068 visualizações
Palestra garimpando com pentaho data mining latinoware por Marcos Vinicius Fidelis
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
Marcos Vinicius Fidelis544 visualizações
Conceitos DW por Stella Finamore
Conceitos DWConceitos DW
Conceitos DW
Stella Finamore72 visualizações
Big Data x Data Mining - Hadoop por F.Davi Camilo Ribeiro
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
F.Davi Camilo Ribeiro575 visualizações
Banco de Dados - Conceitos por ssuser69006f
Banco de Dados - ConceitosBanco de Dados - Conceitos
Banco de Dados - Conceitos
ssuser69006f27 visualizações
Big Data, NoSQL e In Memory Databases por Caio Louro
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
Caio Louro933 visualizações
Exploracao datawarehouse mineracao_de_dados_ou_olap por KlaytonAlves
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
KlaytonAlves421 visualizações
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para... por Denodo
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
Denodo 96 visualizações
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões por Rodolfo Mendes
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Rodolfo Mendes139 visualizações
Como Implementar a Análise de Dados em Tempo Real por Denodo
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo Real
Denodo 51 visualizações
Business Analytics por Petronio Candido
Business AnalyticsBusiness Analytics
Business Analytics
Petronio Candido1.6K visualizações
Data Management: 5 tendências para alcançar a mudança por Denodo
Data Management: 5 tendências para alcançar a mudançaData Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudança
Denodo 127 visualizações

Mais de Mauricio Cesar Santos da Purificação

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport... por
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
326 visualizações48 slides
R para Iniciantes por
R para IniciantesR para Iniciantes
R para IniciantesMauricio Cesar Santos da Purificação
929 visualizações38 slides
Aprendendo R por
Aprendendo RAprendendo R
Aprendendo RMauricio Cesar Santos da Purificação
326 visualizações41 slides
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro por
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroIntelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroMauricio Cesar Santos da Purificação
149 visualizações42 slides
Pitch AcheSeuEstúdio - Campus Party por
Pitch AcheSeuEstúdio - Campus PartyPitch AcheSeuEstúdio - Campus Party
Pitch AcheSeuEstúdio - Campus PartyMauricio Cesar Santos da Purificação
349 visualizações9 slides
Pitch BestPoint - Campus Party por
Pitch BestPoint - Campus PartyPitch BestPoint - Campus Party
Pitch BestPoint - Campus PartyMauricio Cesar Santos da Purificação
289 visualizações10 slides

Mais de Mauricio Cesar Santos da Purificação(20)

Último

MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023 por
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023AcademicaDlaUnicesum
6 visualizações3 slides
Shift left DevOps Experience por
Shift left DevOps ExperienceShift left DevOps Experience
Shift left DevOps ExperienceWalter Coan
5 visualizações19 slides
DevFest2023-Pragmatismo da Internet das Coisas por
DevFest2023-Pragmatismo da Internet das CoisasDevFest2023-Pragmatismo da Internet das Coisas
DevFest2023-Pragmatismo da Internet das CoisasWalter Coan
36 visualizações40 slides
VIRTUS 1.6 MSI.pdf por
VIRTUS 1.6 MSI.pdfVIRTUS 1.6 MSI.pdf
VIRTUS 1.6 MSI.pdfFbioVieira85
5 visualizações13 slides
Conheça agora o UiPath Autopilot™ para o Studio.pdf por
Conheça agora o UiPath Autopilot™ para o Studio.pdfConheça agora o UiPath Autopilot™ para o Studio.pdf
Conheça agora o UiPath Autopilot™ para o Studio.pdfBrunaCavalcanti29
14 visualizações8 slides
TechConnection 2023 Floripa Azure Container Apps por
TechConnection 2023 Floripa Azure Container AppsTechConnection 2023 Floripa Azure Container Apps
TechConnection 2023 Floripa Azure Container AppsWalter Coan
6 visualizações14 slides

Último(8)

MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023 por AcademicaDlaUnicesum
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
MAPA - SAÚDE - FUNDAMENTOS DE FARMACOLOGIA - 54/2023
AcademicaDlaUnicesum6 visualizações
Shift left DevOps Experience por Walter Coan
Shift left DevOps ExperienceShift left DevOps Experience
Shift left DevOps Experience
Walter Coan5 visualizações
DevFest2023-Pragmatismo da Internet das Coisas por Walter Coan
DevFest2023-Pragmatismo da Internet das CoisasDevFest2023-Pragmatismo da Internet das Coisas
DevFest2023-Pragmatismo da Internet das Coisas
Walter Coan36 visualizações
VIRTUS 1.6 MSI.pdf por FbioVieira85
VIRTUS 1.6 MSI.pdfVIRTUS 1.6 MSI.pdf
VIRTUS 1.6 MSI.pdf
FbioVieira855 visualizações
Conheça agora o UiPath Autopilot™ para o Studio.pdf por BrunaCavalcanti29
Conheça agora o UiPath Autopilot™ para o Studio.pdfConheça agora o UiPath Autopilot™ para o Studio.pdf
Conheça agora o UiPath Autopilot™ para o Studio.pdf
BrunaCavalcanti2914 visualizações
TechConnection 2023 Floripa Azure Container Apps por Walter Coan
TechConnection 2023 Floripa Azure Container AppsTechConnection 2023 Floripa Azure Container Apps
TechConnection 2023 Floripa Azure Container Apps
Walter Coan6 visualizações
ProxySQL no MySQL: Apenas um load balancer? por Roberto Garcia de Bem
ProxySQL no MySQL: Apenas um load balancer?ProxySQL no MySQL: Apenas um load balancer?
ProxySQL no MySQL: Apenas um load balancer?
Roberto Garcia de Bem6 visualizações
certificado excel.pdf por juniorcarvalho136
certificado excel.pdfcertificado excel.pdf
certificado excel.pdf
juniorcarvalho1365 visualizações

Data Warehouse e Data Mining

  • 1. 16/9/2012 ©2010 | MATA60 Banco de Dados 1 DATA WAREHOUSE E DATA MINING
  • 2. 16/9/2012 ©2010 | MATA60 Banco de Dados 2 DATA WAREHOUSE
  • 3. 16/9/2012 ©2010 | MATA60 Banco de Dados 3 Conceito • “Coleção de dados orientada a assunto, integrada, não- volátil e variante no tempo, utilizada para tomada de decisões”. W. H. Inmon • "a copy of transaction data specifically structured for query and analysis“ R. Kimball • “Repositório estruturado e corporativo de dados orientados a assunto, variantes no tempo e históricos, usados para recuperação de informações e suporte à decisão. O DW armazena atômicos e sumarizados”. Definição de DW da Oracle
  • 4. 16/9/2012 ©2010 | MATA60 Banco de Dados 4 Propriedades
  • 5. 16/9/2012 ©2010 | MATA60 Banco de Dados 5 Fluxo dos Dados
  • 6. 16/9/2012 ©2010 | MATA60 Banco de Dados 6 Modelagem dos Dados • Objetivos da Modelagem Dimensional • Fornecer uma imagem global da realidade do negócio • Exibir informações em níveis apropriados de detalhes (resumido ou detalhado) • Otimizar o processamento de consultas complexas (Modelo Estrela ou Flocos de Neve) • Integrar dados de diversas fontes em uma única BD para facilitar a geração de relatórios
  • 7. 16/9/2012 ©2010 | MATA60 Banco de Dados 7 Modelagem dos Dados • Modelo Relacional • Usado para identificar relacionamentos entre tipos de relações • Visa remover a redundância de dados • Processamento de Transações On-Line (OLTP) • Modelo Dimensional • Apresenta dados em uma estrutura intuitiva permitindo alta performance de acesso • Independe da representação física dos dados • Organiza dados em tabelas de fatos e dimensões • Processamento Analítico On-Line (OLAP)
  • 8. 16/9/2012 ©2010 | MATA60 Banco de Dados 8 Ambiente Operacional * Ambiente Analítico
  • 9. 16/9/2012 ©2010 | MATA60 Banco de Dados 9 Modelo Dimensional
  • 10. 16/9/2012 ©2010 | MATA60 Banco de Dados 10 Tabela de Fatos
  • 11. 16/9/2012 ©2010 | MATA60 Banco de Dados 11 Tabela de Dimensão
  • 12. 16/9/2012 ©2010 | MATA60 Banco de Dados 12 Star Scheme
  • 13. 16/9/2012 ©2010 | MATA60 Banco de Dados 13 Snowflake Schema
  • 14. 16/9/2012 ©2010 | MATA60 Banco de Dados 14 Data Mart • Definição • DM é um subconjunto de um DW • Subconjunto do DW que satisfaz os requisitos de um certo tema ou atividade de negócio • Projetado para um dado grupo de usuários • Específico a um assunto particular ou atividade de negócio • Pode ser visto como uma solução tática • Pode ser construído antes ou depois do DW • Antes ⇒ pode representar fragmentos de dados, mas reduz a complexidade de desenvolvimento • Depois ⇒ produz uma visão integrada dos dados, mas aumenta a complexidade de desenvolvimento • Abordagem atual consiste em construir primeiro os DM, mas garantindo a consistência dos dados!
  • 15. 16/9/2012 ©2010 | MATA60 Banco de Dados 15 DW * DM
  • 16. 16/9/2012 ©2010 | MATA60 Banco de Dados 16 Data Warehousing
  • 17. 16/9/2012 ©2010 | MATA60 Banco de Dados 17 ETL e ODS • Ferramentas de ETL • Responsáveis pela conversão dos dados do ambiente operacional para o de suporte à decisão • Realizam Acesso, Extração, Transformação, Validação e Carga dos dados • Operational Datastore (ODS) • Repositório de dados operacionais integrados • Benefícios • Otimiza a criação do DW • Possibilita a realização de consultas relacionais sobre dados históricos • Permite interações de tempo real (e.g. gerenciamento de relacionamentos de cliente)
  • 18. 16/9/2012 ©2010 | MATA60 Banco de Dados 18 Abordagem Top-Down
  • 19. 16/9/2012 ©2010 | MATA60 Banco de Dados 19 Abordagem Bottom-Up
  • 20. 16/9/2012 ©2010 | MATA60 Banco de Dados 20 OLAP • O que é OLAP (On-Line Analytical Processing)? • Conjunto de tecnologias projetadas para analisar e acessar dados típicos de suporte a decisão que estão no DW • Fornece dados em alto nível (totais,médias,min..) • Acessa vários registros • Tem alto desempenho e consultas fáceis e interativas • Lida com dados históricos (dimensão temporal) • Oferece visões multidimensionais (perspectivas)
  • 21. 16/9/2012 ©2010 | MATA60 Banco de Dados 21 OLAP • Cubo Multidimensional (Abstração do DW) • Metáfora de uma abordagem multidimensional para visualização e organização dos dados • Várias dimensões podem ser usadas simultaneamente • Dados são manipulados mais rapidamente e facilmente (agregação em níveis de hierarquia)
  • 22. 16/9/2012 ©2010 | MATA60 Banco de Dados 22 Operações OLAP • Drill Down e Roll Up (ou Drill Up)
  • 23. 16/9/2012 ©2010 | MATA60 Banco de Dados 23 Operações OLAP • Rotação • Técnica que gira o cubo, permitindo ter diferentes visões dos dados
  • 24. 16/9/2012 ©2010 | MATA60 Banco de Dados 24 Operações OLAP • Slice and Dice • Técnica que fatia o cubo, permitindo restringir a análise aos dados, sem inversão de eixos • “Semelhante” a cláusula WHERE de SQL
  • 25. 16/9/2012 ©2010 | MATA60 Banco de Dados 25 MDX
  • 26. 16/9/2012 ©2010 | MATA60 Banco de Dados 26 DATA MINING
  • 27. 16/9/2012 ©2010 | MATA60 Banco de Dados 27 Conceito • Mineração de dados é a busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens [WI99]. • Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99]. • Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01].
  • 28. ©2010 | Mauricio Cesar Santos da Purificação | Grupo 16/9/2012 DW-UFBA 28 Áreas de Aplicações Potenciais • Vendas e Marketing • Identificar padrões de comportamento de consumidores • Associar comportamentos à características demográficas de consumidores • Campanhas de marketing direto (mailing campaigns) • Identificar consumidores “leais” • Bancos • Identificar padrões de fraudes (cartões de crédito) • Identificar características de correntistas • Mercado Financeiro ($$$) • Médica • Comportamento de pacientes • Identificar terapias de sucessos para diferentes tratamentos • Fraudes em planos de saúdes • Comportamento de usuários de planos de saúde
  • 29. 16/9/2012 ©2010 | MATA60 Banco de Dados 29 Data Mining e KDD • KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. • Incorpora tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;
  • 30. 16/9/2012 ©2010 | MATA60 Banco de Dados 30 KDD - Contextualização
  • 31. 16/9/2012 ©2010 | MATA60 Banco de Dados 31 KDD e Data Warehouse
  • 32. 16/9/2012 ©2010 | MATA60 Banco de Dados 32 Pré-Processamento • Atributos com representação inadequada para tarefa e algoritmo. • Atributos cujos valores não tenham informações adequadas. • Excesso de atributos (podem ser redundantes ou desnecessários). • Atributos insuficientes. • Excesso de instancias (afetam tempo de processamento). • Instâncias insuficientes. • Instâncias incompletas (sem valores para alguns atributos). • Assim como a mineração de dados em si, requer conhecimento sobre os dados e algoritmo que será usado!
  • 33. 16/9/2012 ©2010 | MATA60 Banco de Dados 33 TAREFAS DE DATA MINING
  • 34. 16/9/2012 ©2010 | MATA60 Banco de Dados 34 Análise de Regras de Associação • Exemplo: • “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado. • Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais.
  • 35. 16/9/2012 ©2010 | MATA60 Banco de Dados 35 Análise de Padrões Sequenciais • Exemplo: • A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca- fitas de carro. • Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo.
  • 36. 16/9/2012 ©2010 | MATA60 Banco de Dados 36 Classificação e Predição • Exemplo: • Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador. • Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores.
  • 37. 16/9/2012 ©2010 | MATA60 Banco de Dados 37 Classificação e Predição • Em algumas aplicações, o usuário está mais interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos. • Neste caso, a tarefa de mineração é denominada Predição.
  • 38. 16/9/2012 ©2010 | MATA60 Banco de Dados 38 Análise de Clusters (Agrupamentos) • Exemplo: • Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes; • Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira;
  • 39. 16/9/2012 ©2010 | MATA60 Banco de Dados 39 Análise de Outliers • Um banco de dados pode conter dados que não apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções). • Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado. • Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente.
  • 40. 16/9/2012 ©2010 | MATA60 Banco de Dados 40 TÉCNICAS DE DATA MINING
  • 41. 16/9/2012 ©2010 | MATA60 Banco de Dados 41 Árvores de Decisão • Representações simples do conhecimento • Utilização de regras condicionais • A partir de um conjunto de valores decide SIM ou NÃO • Mais rápida e mais compreensível que redes neurais • Exemplo: Sair ou não de acordo com o tempo Tempo Predicado objetivo: Sair ou Não Sair Nublado Ensolarado Chuvoso Umidade Sair Muito vento Alta Normal Sim Não Ñ Sair Sair Ñ Sair Sair
  • 42. 16/9/2012 ©2010 | MATA60 Banco de Dados 42 Árvores de Decisão Classificação de um indivíduo com risco de ter ou não crédito Renda > R$ 4.000,00 SIM NÃO Predicado objetivo: Crédito ou Não Dívida < 10% da renda ? Dívida = 0% SIM NÃO NÃO SIM Risco de ter crédito Risco de não ter crédito Risco de ter crédito Nesta árvore de decisões, regras são induzidas nos padrões dos dados e cria-se uma hierarquia de indicações “se-então”.
  • 43. 16/9/2012 ©2010 | MATA60 Banco de Dados 43 Redes Neurais • Redes Neurais: • Para construir um modelo neural, nós primeiramente "adestramos" a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições. • Problemas: • Não retorna informação a priori • Não pode ser treinada em uma grande base de dados • Entrada não pode ser dados alfanuméricos (mapear para numérico) • Nenhuma explanação dos dados é fornecida (caixa preta)
  • 44. 16/9/2012 ©2010 | MATA60 Banco de Dados 44 Técnicas • Redes Neurais: • Exemplo prático: risco de câncer Data mining - Clementine User Guide
  • 45. 16/9/2012 ©2010 | MATA60 Banco de Dados 45 Técnicas • Redes Neurais: - 2o Exemplo Nível RENDA DÉBITO IDADE REG. DE de PAGAMENTO entrada Nível oculto Risco Risco de de ter não ter crédito crédito Nível de As redes neurais usam seus dados de entrada. saída Atribui pesos nas conecções entre os atributos (neurônios). E obtém um resultado (risco de ter ou não crédito) no nível de