1) O documento introduz conceitos sobre Business Intelligence, Data Warehouse, modelagem dimensional e técnicas para construção de um modelo dimensional.
2) É discutido o que é um Data Warehouse, suas características, objetivos e como ele se diferencia de sistemas transacionais.
3) São apresentadas as diferenças entre Data Warehouse e Data Mart.
1. TÓPICO 2 – INTRODUÇÃO AO DATA WAREHOUSE
FORMAÇÃO MODELAGEM DIMENSIONAL
2. • Esclarecer conceitos de Business Intelligence, Data
Warehous, suas possíveis arquiteturas e subdivisões.
• Cobrir os conceitos da Modelagem Dimensional.
• Demonstrar técnicas confiáveis para a construção de um
Modelo Dimensional.
OBJETIVOS
3. • O que vocês conhecem?
• BI e DW é a mesma coisa?
• Quais são as ferramentas?
Aula 1
Conceitos e
Fundamentos de BI
4. • A melhor estratégia é a montagem de um Data Warehouse para organização dos
dados.
• Vantagens da Montagem do DW:
– Criação de um ambiente para integração e tratamento dos dados
– Ambiente com objetivo único
– Separação dos sistemas legados (transacionais)
– Base de dados Otimizada ara consultas
– Suporte de ferramentas específicas para esse fim
Melhor estratégia para montagem de sistemas de BI
5. • Data Warehouse é um processo que extrai os dados de sistemas operacionais e
transacionais, limpando, transformando em informações organizadas permitindo
analises dessas informações.
• Seus principais autores são: Ralph Kimball e Bill Inmon
O que é o Data Warehouse
6. • Um software
• Um modelo de dados
• Uma técnica isolada
• Uma base de dados
• Um produto
• Uma linguagem de programação
• Uma cópia do sistema transcional
O que um Data Warehouse não é?
7. • Tornar a informação facilmente acessível
• Apresentar a informação de maneira consistente e única
• Centralizar e controlar o acesso as informações corporativas
• Permitir as áreas de negócio avaliar suas informações e tomar decisões mais
precisas
• Padronizar a informação de diversas fontes
Objetivos de um Data Warehouse
8. • Orientado por assunto (Subject Oriented)
• Integrado (integrated)
• Não volátil (nonvolatile)
• Orientado por tempo (time variant)
Características de um Data Warehouse
9. • Diferentemente dos sistemas legados que tem seus dados orientados por
funcionalidades, os Data Warehouses são orientados por assuntos, considerando
um seguradora:
Características de um DW – Orientado por assunto
SISTEMA OPERACIONAL
DATA WAREHOUSE
Vida Clientes
Saúde Produtos
Odontológico Contratos
Previdência Apólices
10. • Os dados carregados no Data Warehouse são extraídos e carregados no Data
Warehouse, padronizando as informações .
• O dado pode ter diversas fontes o Data Warehouse integra essas informações
fornecendo uma visão única e corporativa.
Características de um Data Warehouse -Integrado
11. Os dados carregados dos Sistemas Operacionais, sofrem modificações durante todo o
dia:
• Inserções de novos clientes
• Exclusão de clientes
• Alteração no cadastro dos clientes
Características de um Data Warehouse – Não Volátil
12. No Data Warehouse, os dados são carregados em janelas de tempo previamente
determinadas, 1 vez por dia, todas as madrugadas etc.
Características de um Data Warehouse – Não Volátil
DATA WAREHOUSE
Atualizar
Inserir
Apagar
Sistemas Operacionais
Cargas de dados
13. • Os sistemas operacionais sempre possuem as informações correntes no momento
da leitura. Os Data Warehouses possuem posições históricas, onde é possível
comparar os períodos de tempo.
• As cargas de dados são feitas em intervalos regulares e pré-definidos, sendo as
informações organizadas por uma unidade de tempo.
Por exemplo: Diário, Semanal ou Mensal.
Características de um Data Warehouse – Orientado por
tempo
14. Sistemas Operacionais X Sistemas de Informações
Gerenciais
OPERACIONAL INFORMAÇÕES
CONTEÚDO DOS DADOS VALOR CORRENTE TRANSFORMADOS SUMARIZADOS
ESTRUTURA DE DADOS OTIMIZADOS PARA TRANSAÇÕES OTIMIZADOS PARA QUERIES
FREQUÊNCIA DE ACESSO ALTO MÉDIO PARA BAIXO
TIPO DE ACESSO LEITURA, ALTERAÇÃO E DELEÇÃO LEITURA
USO DO SISTEMA PREVISIVEIS E REPETITIVOS
AD-HOC RONDÔMICO.
HEURÍSTICO
TEMPO DE RESPOSTA MILISEGUNDOS
ALGUNS SEGUNDOS. ATÉ
MINUTOS..
QUANTIDADE DE USUÁRIOS GRANDE GRUPO PEQUENO GRUPO
15. OLTPX OLAP
OLTP – Estruturas de Dados
mais complexas (3NF)
Data Warehouse –
Estruturas de dados
Multidimensionais
Poucos Índices Muitos
Muitos Joins Alguns
Normalizados Dados Desnormalizados
Raramente Dados derivados agregações Comum
16. O que é OLAP? ROLAP/MOLAP/HOLAP
• OLAP = On-line Analystical Processing
• Podem ser:
– ROLAP ( Relacional – OLAP)
– São consideradas ROLAP quando aplicadas a banco de dados relacional, como
Oracle, SqlServe, DB2, MySql, entre outros.
– A linguagem principal é SQL
17. O que é OLAP? ROLAP/MOLAP/HOLAP
• MOLAP ( Multidimensional – OLAP)
• São consideradas MOLAP quando aplicadas a banco de dados multidimensionais
como Analysis Services (SSAS), Hyperion, Cognos PowerPLay/TM1, Oracle OLAP
entre outros.
• A linguagem principal é o MDX (Multidimensional eXtensions)
• O armazenamento dos dados é em cubo
18. O que é OLAP?
• HOLAP (Hibrido – OLAP)
• As análises podem ser feitas utilizando ROLAP e MOLAP
• Com linguagens SQL e MDX
• Pode armazenar dados detalhados no relacional e agregados no multidimensional
19. Camada Semântica ou Metadados
• Área intermediária entre os bancos de dados e os usuários finais.
DATA WAREHOUSE
TB_CLIENTES (TABELA)
CD_CLIENTE (COLUNAS)
NM_CLIENTE
DS_ENDEREÇO
CLIENTES
CÓDIGO DO CLIENTE
NOME DO CLIENE
ENDEREÇO DO CLIENTE
20. Data Warehouse X Data Mart
DATA WAREHOUSE DATA MART
Visão Abrangente Visão Localizada
Empresa Departamento ou processo de negócio
Feito para a empresa Público-alvo focado
Regras de negócios corporativas Regras de negócios específicos
Notas do Editor
A montagem de um Data Warehouse (DW) é a saída mais acertada para a construção de sistemas de BI, no DW são desenvolvidos modelos e rotinas específicas para o tratamento, qualidade, performance e disponibilidade dos dados para o BI.
Sendo um ambiente separado dos sistemas legados, durante o consumo dos dados pelo BI, os sistemas origem não são afetados e não perdem performance, mesmo que as consultas sejam muito demoradas.
Data Warehouse é um conceito utilizado para definir a organização de informações para análises.
Entre seus principais autores estão Kimball e Inmon, que foram precursores definindo técnicas e modelos, como Slowly Changing Dimension e arquitetura CIF ( Corporate Information Factory )
Muitas definições são utilizadas para Data Warehouse, mas nenhuma dessas acima definem o que é.
É um conjunto de técnicas e ferramentas.
O Objetivos de um Data Warehouse são todos voltados para informação, seja integrando, limpando ou melhorando sua apresentação.
Muitas vezes usar o DW para resolver problemas nos sistemas operacionais é um erro, pois os dados com problemas continuam nos sistemas, já que o DW é apenas um consumidor dessas informações.
Para integrações complexas de sistemas e informações, é aconselhável a montagem de um Operational Data Store (ODS) ou outra base de integração.
As técnicas de Master Data Management (MDM) também podem ser utilizadas na integração de informações.
O Objetivos de um Data Warehouse são todos voltados para informação, seja integrando, limpando ou melhorando sua apresentação.
Muitas vezes usar o DW para resolver problemas nos sistemas operacionais é um erro, pois os dados com problemas continuam nos sistemas, já que o DW é apenas um consumidor dessas informações.
Para integrações complexas de sistemas e informações, é aconselhável a montagem de um Operational Data Store (ODS) ou outra base de integração.
As técnicas de Master Data Management (MDM) também podem ser utilizadas na integração de informações.
Sistemas Operacionais tem preocupações primárias com o controle dos processos, ou seja, suportar o negócio, não permitindo erros no cadastramento de informações dos clientes, venda de produtos que não possuem estoque, ou quaisquer outros problemas que possam afetar o funcionamento da empresa.
Os Data Warehouses são organizados e orientados por assuntos de dados, sem preocupação com os processos operacionais. O Data Warehouse deve ser desenhado para suprir o negócio de informações. Dessa maneira, a orientação por assunto agrupa informações para grupos de analises.
Análise de Vendas e Faturamento, pode ser feita por Produto, Cliente e outros, mas o objetivo principal é demonstrar informações pertinentes a Vendas e Faturamento, não se preocupando especificamente com um produto ou classificação de cliente.
A Integração do Data Warehouse é feita pelo processo de ETL, que é responsável por manter os dados íntegros e padronizados.
Os dados dos sistemas operacionais devem ser atualizados no Data Warehouse em processos definidos e controlados pelo próprio DW. Sendo assim, todas as alterações feitas durante o dia no sistema operacional, deve ser levada em Lote no processo do ETL.
Os dados dos sistemas operacionais devem ser atualizados no Data Warehouse em processos definidos e controlados pelo próprio DW. Sendo assim, todas as alterações feitas durante o dia no sistema operacional, deve ser levada em Lote no processo do ETL.
Os sistemas operacionais sempre possuem os valores correntes, no DW os valores estão orientados de acordo com as suas definições
Sistemas Operacionais :
Orientado a transação.
Muitas transações com pequeno volume de dados.
Responsável por manter o funcionamento do negócio.
Sistemas de Informações Gerenciais:
Orientado a consulta.
Poucas consultas com grande volume de dados.
Responsável por alimentar a empresa com informações.
Comparação entre sistemas OLTP e OLAP
OLTP – On-Line Transaction Processing
OLAP – On-Line Analítical Processing.
As variações das estruturas OLAP são :
ROLAP – modelos de dados de data warehouse construídos em bancos de dados relacionais (R). Exemplos, Oracle 9/10/11, SqlServer, DB2, etc.
MOLAP – cubos baseados em tecnologias multidimensionais que armazenam as informações pré-computadas. Exemplos, Oracle OLÀP, Hyperion Essbase, MS Analysis Services
Comparação entre sistemas OLTP e OLAP
OLTP – On-Line Transaction Processing
OLAP – On-Line Analítical Processing.
As variações das estruturas OLAP são :
ROLAP – modelos de dados de data warehouse construídos em bancos de dados relacionais (R). Exemplos, Oracle 9/10/11, SqlServer, DB2, etc.
MOLAP – cubos baseados em tecnologias multidimensionais que armazenam as informações pré-computadas. Exemplos, Oracle OLÀP, Hyperion Essbase, MS Analysis Services
O cubo tem uma estrutura otimizada para as consultas de dados, pré-computando os cruzamentos entre os dados
O cubo tem uma estrutura otimizada para as consultas de dados, pré-computando os cruzamentos entre os dados
O cubo tem uma estrutura otimizada para as consultas de dados, pré-computando os cruzamentos entre os dados
Comparação entre sistemas OLTP e OLAP
OLTP – On-Line Transaction Processing
OLAP – On-Line Analítical Processing.
As variações das estruturas OLAP são :
ROLAP – modelos de dados de data warehouse construídos em bancos de dados relacionais (R). Exemplos, Oracle 9/10/11, SqlServer, DB2, etc.
MOLAP – cubos baseados em tecnologias multidimensionais que armazenam as informações pré-computadas. Exemplos, Oracle OLÀP, Hyperion Essbase, MS Analysis Services