O documento discute vários aspectos avançados de modelagem dimensional, incluindo: (1) esquemas estrela e snowflake e suas variações, (2) dimensão tempo e como modelá-la, (3) dimensões que podem ter múltiplos papéis e (4) dimensões que evoluem no tempo (slowly changing dimensions).
1) O documento discute sistemas de apoio à inteligência de negócios e modelagem dimensional para OLAP.
2) Apresenta conceitos como visão multidimensional de dados, agregados, hierarquias de dimensões e operações OLAP.
3) Discutem os tipos de ferramentas OLAP, como MOLAP, ROLAP e HOLAP, e a modelagem dimensional com esquema estrela.
O documento discute conceitos básicos de modelagem multidimensional, incluindo tomada de decisão gerencial, sistemas de apoio à decisão, data warehouse, data mart, granularidade e ETL. É apresentado o processo de extração, transformação e carga de dados, além de exemplos de questões e modelos de negócios multidimensionais.
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseJulio Pari
El documento describe los pasos para el diseño de un almacén de datos, incluyendo la recopilación de requisitos, diseño conceptual, diseño lógico, diseño físico e implementación. Explica que el diseño lógico implica el modelado multidimensional con esquemas estrella y describe los pasos clave como elegir un proceso de negocio, decidir el nivel de detalle de representación y identificar las dimensiones relevantes.
Este documento fornece uma introdução aos conceitos básicos de OLAP (On-Line Analytical Processing) e modelagem dimensional, incluindo:
1) A visão multidimensional de dados facilita o entendimento e visualização de problemas analíticos de negócios de forma mais intuitiva em comparação com a visão tabular;
2) A modelagem dimensional organiza os dados em fatos e dimensões, permitindo análises flexíveis sob diferentes perspectivas;
3) As ferramentas OLAP permitem navegar, agregar e analisar os dados arma
Este documento fornece um resumo dos principais conceitos de modelagem de dados, modelagem multidimensional e projeto de data warehouse. Ele aborda tópicos como modelo conceitual, lógico e físico; tipos de relacionamentos; formas normais; modelo estrela e modelo floco de neve para data warehouse.
O documento discute o uso de data warehouse (DW) e data mining (DM) para apoiar a tomada de decisões empresariais. Ele explica que um DW armazena e organiza dados de várias fontes para análise, enquanto o DM busca padrões nesses dados. O documento também descreve arquiteturas comuns de DW, como estrela e floco de neve, e técnicas como fatos, dimensões e medidas. Por fim, apresenta um caso prático sobre um DW para uma distribuidora de filmes.
A UML surgiu da unificação de três linguagens de modelagem orientadas a objetos no final dos anos 1990. Tornou-se uma norma para modelagem de sistemas orientados a objetos, adotada mundialmente. A UML possui diversos diagramas para representar diferentes aspectos de um sistema, como classes, casos de uso, atividades e estados.
1) O documento discute sistemas de apoio à inteligência de negócios e modelagem dimensional para OLAP.
2) Apresenta conceitos como visão multidimensional de dados, agregados, hierarquias de dimensões e operações OLAP.
3) Discutem os tipos de ferramentas OLAP, como MOLAP, ROLAP e HOLAP, e a modelagem dimensional com esquema estrela.
O documento discute conceitos básicos de modelagem multidimensional, incluindo tomada de decisão gerencial, sistemas de apoio à decisão, data warehouse, data mart, granularidade e ETL. É apresentado o processo de extração, transformação e carga de dados, além de exemplos de questões e modelos de negócios multidimensionais.
Construcción de un DataWareHouse - FISI - UNMSM - DataWareHouseJulio Pari
El documento describe los pasos para el diseño de un almacén de datos, incluyendo la recopilación de requisitos, diseño conceptual, diseño lógico, diseño físico e implementación. Explica que el diseño lógico implica el modelado multidimensional con esquemas estrella y describe los pasos clave como elegir un proceso de negocio, decidir el nivel de detalle de representación y identificar las dimensiones relevantes.
Este documento fornece uma introdução aos conceitos básicos de OLAP (On-Line Analytical Processing) e modelagem dimensional, incluindo:
1) A visão multidimensional de dados facilita o entendimento e visualização de problemas analíticos de negócios de forma mais intuitiva em comparação com a visão tabular;
2) A modelagem dimensional organiza os dados em fatos e dimensões, permitindo análises flexíveis sob diferentes perspectivas;
3) As ferramentas OLAP permitem navegar, agregar e analisar os dados arma
Este documento fornece um resumo dos principais conceitos de modelagem de dados, modelagem multidimensional e projeto de data warehouse. Ele aborda tópicos como modelo conceitual, lógico e físico; tipos de relacionamentos; formas normais; modelo estrela e modelo floco de neve para data warehouse.
O documento discute o uso de data warehouse (DW) e data mining (DM) para apoiar a tomada de decisões empresariais. Ele explica que um DW armazena e organiza dados de várias fontes para análise, enquanto o DM busca padrões nesses dados. O documento também descreve arquiteturas comuns de DW, como estrela e floco de neve, e técnicas como fatos, dimensões e medidas. Por fim, apresenta um caso prático sobre um DW para uma distribuidora de filmes.
A UML surgiu da unificação de três linguagens de modelagem orientadas a objetos no final dos anos 1990. Tornou-se uma norma para modelagem de sistemas orientados a objetos, adotada mundialmente. A UML possui diversos diagramas para representar diferentes aspectos de um sistema, como classes, casos de uso, atividades e estados.
OLTP systems are used for operational tasks like processing transactions, while OLAP systems are used for analysis of historical data extracted from OLTP systems. OLAP systems allow for complex queries and reporting on aggregated and multidimensional views of the data. Both systems are complementary, with OLTP housing and processing the source transactional data and OLAP leveraging that data for planning, problem solving, and decision making.
O documento discute os principais conceitos de banco de dados, incluindo: 1) Introdução aos bancos de dados, sua finalidade e tipos; 2) Modelagem e arquitetura de bancos de dados; 3) Linguagem SQL e desenvolvimento de projetos.
O documento descreve o processo de normalização de dados, que envolve transformar tabelas não normalizadas em tabelas normalizadas através de três formas normais, eliminando redundâncias. Apresenta os conceitos de dependência funcional e as etapas de passagem à primeira, segunda e terceira forma normal, ilustrando com um exemplo de normalização de um relatório de alocação de projetos.
Banco de Dados I Aula 06 - Generalização e EspecializaçãoLeinylson Fontinele
O documento discute generalização e especialização na modelagem de dados, onde uma entidade pode ter propriedades comuns e outras diferentes. Apresenta duas aplicações de generalização e especialização e explica especialização total e parcial. Fornece exemplos de veículos para ilustrar o conceito e um exercício sobre agenciamento de empregados.
O documento descreve a história e conceitos básicos de bancos de dados. Começa explicando como os dados eram armazenados antes dos computadores e como os sistemas de arquivos evoluíram para sistemas de banco de dados relacionais nos anos 70. Também discute como os SGBDs se tornaram onipresentes e a linguagem SQL foi adotada como padrão. Finalmente, define termos-chave como dados, informações, esquema e instância de banco de dados.
This document provides an overview of an Informatica training course offered by Edureka. The course covers topics such as ETL fundamentals, Informatica PowerCenter components, transformations, debugging techniques, and performance tuning. It aims to help students of varying experience levels learn skills for roles like ETL developer, data specialist, and Informatica administrator. The course contains modules on PowerCenter installation, administration, architecture, and best practices, along with hands-on labs and projects. Students will receive a certificate upon completion. More details on the course structure and registration are available on Edureka's website.
Gathering And Documenting Your Bi Business RequirementsWynyard Group
Business requirements are critical to any project. Recent studies show that 70% of organisations fail to gather business requirements well. What is worse is that poor requirements can lead a project to over spend its original budget by 95%.
Business Intelligence and Performance Management projects are no different. This session will provide a series of tips, techniques and ideas on how you can discover, analyse, understand and document your business requirements for your BI and PM projects. This session will also touch on specific issues, hurdles and obstacle that occur for a typical BI or PM project
• The importance of business requirements and a well defined business requirements process
• Understanding the difference between a “wish-list” or vision and business requirements
• The need and benefits of having a business traceability matrix
Start your BI projects on the right foot – understand your requirements
This document provides an overview of data warehousing concepts including dimensional modeling, online analytical processing (OLAP), and indexing techniques. It discusses the evolution of data warehousing, definitions of data warehouses, architectures, and common applications. Dimensional modeling concepts such as star schemas, snowflake schemas, and slowly changing dimensions are explained. The presentation concludes with references for further reading.
O documento apresenta uma introdução ao Power BI, ferramenta de self-service business intelligence da Microsoft. Apresenta a evolução do BI, desde arquiteturas tradicionais até modernas, e como o Power BI se encaixa nesse contexto ao permitir que usuários explorem dados de qualquer fonte. Também resume os principais benefícios do Power BI como dashboards e relatórios para soluções SaaS, integração com ambientes de TI existentes e conexão direta a bancos de dados on-premises de forma segura.
O documento descreve o modelo entidade-relacionamento para bancos de dados, incluindo conceitos como entidades, atributos, relacionamentos, cardinalidades, chaves, generalização e outros. É apresentado um exemplo detalhado de um modelo E-R para uma companhia com entidades como funcionário, departamento, projeto e seus relacionamentos.
El documento habla sobre los sistemas de bases de datos y sus conceptos básicos. Explica que una base de datos es una colección estructurada de datos y que un sistema de base de datos tiene como objetivo proveer información a una organización. También describe los diferentes tipos de bases de datos, modelos como el entidad-relación y relacional, y los sistemas de gestión de bases de datos.
O documento discute a importância da normalização de dados para evitar problemas de projeto de banco de dados, como repetição desnecessária e inconsistência de dados. Ele explica os processos de aplicar as três formas normais para dividir tabelas e simplificar atributos, resultando em um banco de dados mais estável e de fácil manutenção. Por fim, resume que a normalização projeta as estruturas de dados para eliminar inconsistências e redundâncias.
Este documento presenta una introducción al Análisis Estructurado y al Diagrama de Flujo de Datos (DFD). Explica que el Análisis Estructurado es un método clave para el desarrollo de sistemas de información que facilita la comunicación entre usuarios y analistas. Además, describe los elementos básicos de un DFD, incluyendo procesos, almacenes de datos, entidades externas y flujos de datos, y cómo estos se pueden descomponer en diferentes niveles de detalle para modelar un sistema de manera l
O documento discute conceitos e arquitetura de sistemas gerenciadores de banco de dados. Apresenta tópicos como modelos de dados, esquemas e instâncias, arquitetura de três esquemas e independência de dados, linguagens e interfaces do banco de dados. Descreve também arquiteturas centralizadas e cliente/servidor, além de classificar sistemas gerenciadores de banco de dados.
Sydney hyperion financial reporting top 10 tips and tricks 09-20-11Venkat Ramanareddy
The document provides tips for optimizing Hyperion Financial Reporting performance. It begins with 10 tips for faster report execution, such as using grid point of view instead of paging members, limiting conditional formatting and page members for PDF viewing, and pushing calculations to the Essbase server. It also discusses using expanded data segments and efficient calculations. The document concludes with tips for data query optimization and handling issues with reports hanging or crashing.
O documento discute diferentes abordagens para modelagem de data warehouse, comparando as metodologias de Kimball e Moody & Kortink. A metodologia de Moody & Kortink propõe derivar modelos dimensionais a partir de modelos ER, classificando entidades e identificando hierarquias para projetar esquemas estrela e constelação.
OLTP systems are used for operational tasks like processing transactions, while OLAP systems are used for analysis of historical data extracted from OLTP systems. OLAP systems allow for complex queries and reporting on aggregated and multidimensional views of the data. Both systems are complementary, with OLTP housing and processing the source transactional data and OLAP leveraging that data for planning, problem solving, and decision making.
O documento discute os principais conceitos de banco de dados, incluindo: 1) Introdução aos bancos de dados, sua finalidade e tipos; 2) Modelagem e arquitetura de bancos de dados; 3) Linguagem SQL e desenvolvimento de projetos.
O documento descreve o processo de normalização de dados, que envolve transformar tabelas não normalizadas em tabelas normalizadas através de três formas normais, eliminando redundâncias. Apresenta os conceitos de dependência funcional e as etapas de passagem à primeira, segunda e terceira forma normal, ilustrando com um exemplo de normalização de um relatório de alocação de projetos.
Banco de Dados I Aula 06 - Generalização e EspecializaçãoLeinylson Fontinele
O documento discute generalização e especialização na modelagem de dados, onde uma entidade pode ter propriedades comuns e outras diferentes. Apresenta duas aplicações de generalização e especialização e explica especialização total e parcial. Fornece exemplos de veículos para ilustrar o conceito e um exercício sobre agenciamento de empregados.
O documento descreve a história e conceitos básicos de bancos de dados. Começa explicando como os dados eram armazenados antes dos computadores e como os sistemas de arquivos evoluíram para sistemas de banco de dados relacionais nos anos 70. Também discute como os SGBDs se tornaram onipresentes e a linguagem SQL foi adotada como padrão. Finalmente, define termos-chave como dados, informações, esquema e instância de banco de dados.
This document provides an overview of an Informatica training course offered by Edureka. The course covers topics such as ETL fundamentals, Informatica PowerCenter components, transformations, debugging techniques, and performance tuning. It aims to help students of varying experience levels learn skills for roles like ETL developer, data specialist, and Informatica administrator. The course contains modules on PowerCenter installation, administration, architecture, and best practices, along with hands-on labs and projects. Students will receive a certificate upon completion. More details on the course structure and registration are available on Edureka's website.
Gathering And Documenting Your Bi Business RequirementsWynyard Group
Business requirements are critical to any project. Recent studies show that 70% of organisations fail to gather business requirements well. What is worse is that poor requirements can lead a project to over spend its original budget by 95%.
Business Intelligence and Performance Management projects are no different. This session will provide a series of tips, techniques and ideas on how you can discover, analyse, understand and document your business requirements for your BI and PM projects. This session will also touch on specific issues, hurdles and obstacle that occur for a typical BI or PM project
• The importance of business requirements and a well defined business requirements process
• Understanding the difference between a “wish-list” or vision and business requirements
• The need and benefits of having a business traceability matrix
Start your BI projects on the right foot – understand your requirements
This document provides an overview of data warehousing concepts including dimensional modeling, online analytical processing (OLAP), and indexing techniques. It discusses the evolution of data warehousing, definitions of data warehouses, architectures, and common applications. Dimensional modeling concepts such as star schemas, snowflake schemas, and slowly changing dimensions are explained. The presentation concludes with references for further reading.
O documento apresenta uma introdução ao Power BI, ferramenta de self-service business intelligence da Microsoft. Apresenta a evolução do BI, desde arquiteturas tradicionais até modernas, e como o Power BI se encaixa nesse contexto ao permitir que usuários explorem dados de qualquer fonte. Também resume os principais benefícios do Power BI como dashboards e relatórios para soluções SaaS, integração com ambientes de TI existentes e conexão direta a bancos de dados on-premises de forma segura.
O documento descreve o modelo entidade-relacionamento para bancos de dados, incluindo conceitos como entidades, atributos, relacionamentos, cardinalidades, chaves, generalização e outros. É apresentado um exemplo detalhado de um modelo E-R para uma companhia com entidades como funcionário, departamento, projeto e seus relacionamentos.
El documento habla sobre los sistemas de bases de datos y sus conceptos básicos. Explica que una base de datos es una colección estructurada de datos y que un sistema de base de datos tiene como objetivo proveer información a una organización. También describe los diferentes tipos de bases de datos, modelos como el entidad-relación y relacional, y los sistemas de gestión de bases de datos.
O documento discute a importância da normalização de dados para evitar problemas de projeto de banco de dados, como repetição desnecessária e inconsistência de dados. Ele explica os processos de aplicar as três formas normais para dividir tabelas e simplificar atributos, resultando em um banco de dados mais estável e de fácil manutenção. Por fim, resume que a normalização projeta as estruturas de dados para eliminar inconsistências e redundâncias.
Este documento presenta una introducción al Análisis Estructurado y al Diagrama de Flujo de Datos (DFD). Explica que el Análisis Estructurado es un método clave para el desarrollo de sistemas de información que facilita la comunicación entre usuarios y analistas. Además, describe los elementos básicos de un DFD, incluyendo procesos, almacenes de datos, entidades externas y flujos de datos, y cómo estos se pueden descomponer en diferentes niveles de detalle para modelar un sistema de manera l
O documento discute conceitos e arquitetura de sistemas gerenciadores de banco de dados. Apresenta tópicos como modelos de dados, esquemas e instâncias, arquitetura de três esquemas e independência de dados, linguagens e interfaces do banco de dados. Descreve também arquiteturas centralizadas e cliente/servidor, além de classificar sistemas gerenciadores de banco de dados.
Sydney hyperion financial reporting top 10 tips and tricks 09-20-11Venkat Ramanareddy
The document provides tips for optimizing Hyperion Financial Reporting performance. It begins with 10 tips for faster report execution, such as using grid point of view instead of paging members, limiting conditional formatting and page members for PDF viewing, and pushing calculations to the Essbase server. It also discusses using expanded data segments and efficient calculations. The document concludes with tips for data query optimization and handling issues with reports hanging or crashing.
O documento discute diferentes abordagens para modelagem de data warehouse, comparando as metodologias de Kimball e Moody & Kortink. A metodologia de Moody & Kortink propõe derivar modelos dimensionais a partir de modelos ER, classificando entidades e identificando hierarquias para projetar esquemas estrela e constelação.
1) O documento discute sistemas distribuídos, incluindo tipos como computação em cluster, grade e sistemas de informações distribuídas.
2) Middleware é software que facilita a comunicação entre aplicações em sistemas distribuídos através de serviços como autenticação e diretórios.
3) Sistemas distribuídos como bancos de dados utilizam transações para garantir a integridade dos dados através de regras como rollbacks.
Um Data Warehouse é um banco de dados com dados históricos usados para análise e decisões executivas, enquanto um Data Mart fornece suporte à decisão de um pequeno grupo de pessoas com dados focados em uma unidade de negócios específica. Os principais tipos de Data Warehouse incluem opções baseadas em servidor, virtuais e distribuídas.
Este documento fornece um tutorial sobre a instalação e utilização da plataforma Pentaho Open BI. O tutorial detalha a instalação do Pentaho 3.5, a criação de um modelo dimensional no banco de dados PostGreSQL, a geração de um schema XML para identificação dos cubos e dimensões, e o processo de ETL para carregar dados no modelo dimensional.
O documento discute soluções de Business Intelligence (BI) e Inteligência de Negócios de código aberto. Ele descreve os benefícios do BI para melhorar a tomada de decisão e desempenho organizacional e introduz ferramentas de código aberto como Talend e Pentaho para implementar soluções de BI.
O documento descreve os principais componentes e processos necessários para um sistema de comércio eletrônico bem-sucedido. Ele discute elementos como marketing, vendas, entrada de pedidos, processamento de pagamentos, entrega de pedidos e serviços ao cliente. O documento também aborda componentes genéricos, serviços da internet e infraestrutura de hardware necessários para suportar um sistema de comércio eletrônico.
Este documento apresenta um resumo sobre índices em bancos de dados, comparando as estruturas de hash e Btree. Apresenta as definições e propriedades básicas dessas estruturas, como distribuição uniforme de valores, tratamento de colisões, grau mínimo de nós e organização linear de elementos.
O documento descreve conceitos e estruturas de Business Intelligence. Define Data Warehouse como um banco de dados especial estruturado para facilitar análise de dados. Detalha que estruturas comuns são modelos multidimensionais Star Schema e Snowflake Schema, e que Data Marts são repositórios temáticos alimentados por Data Warehouse. Explica que modelos multidimensionais são compostos por tabelas Fato e Dimensão.
O documento descreve o software CA ERwin Data Modeler 7.3, que permite modelagem de dados e processos. Apresenta melhorias como novo formato de modelagem, análise de impacto aprimorada, geração e comparação de modelos e validação. Também descreve ferramentas relacionadas como o Model Manager para gerenciamento colaborativo e o Saphir Option para modelagem de sistemas ERP.
Modelando Banco de Dados Relacionais e Geográficos Utilizando a Ferramenta Ge...Carlos Eduardo Pantoja
Este documento apresenta a ferramenta GenDBM Tool, que permite modelagem de bancos de dados relacionais e geográficos utilizando MDA. A ferramenta possui um meta-modelo genérico e realiza transformações de modelos para código SQL e SFS através de mapeamentos. Dois exemplos demonstram a geração de código para bancos de dados relacionais e geográficos a partir de modelos conceituais.
O documento discute os conceitos e técnicas de análise de sistemas, incluindo:
1) A análise estruturada de sistemas apresenta um desenvolvimento do geral para o particular do sistema, começando com um diagrama geral de fluxo de informações e partindo depois por um refinamento sucessivo através da construção de diagrama de fluxo de informações detalhadas.
2) Os diagramas de fluxo de dados permitem representar graficamente os componentes de um sistema e as interfaces entre eles, mostrando fluxos de informações de
O BestPoint é o seu assistente personalizado para viagens e turismo. Com ele você pode descobrir a melhor época e o local para a viagem dos seus sonhos, construir planos e roteiros de viagens automatizados, otimizar todos os custos e obter as melhores experiências de acordo com seus gostos pessoais.
O documento apresenta a experiência de Mauricio C. Purificação como analista de Business Intelligence na Cárdio Pulmonar da Bahia, descrevendo seu percurso acadêmico e pesquisas relacionadas a BI, analytics e data warehousing. Também resume os principais conceitos e etapas para desenvolvimento de soluções de BI nas organizações.
Modelagem de dados e representação da informaçãoElvis Fusco
Palestra ministrada no Fórum Permanente de Ciência e Tecnologia da Unicamp: "Tecnologia Digital e Registros Informacionais: Novos Conceitos e Padrões de Entrada de Dados e suas perspectivas para o tratamento e acesso à Informação"
Este documento discute a arquitetura de dados e o fluxo de informações em um data warehouse. Ele explica como os dados são armazenados em sistemas OLTP e como eles são movidos para um data warehouse para análise. O documento também descreve os principais componentes de um data warehouse, incluindo ETL, cubos, dashboards e modelagem dimensional.
O documento fornece uma introdução sobre business intelligence (BI), descrevendo seus principais conceitos e benefícios, como a coleta e análise de dados para apoiar a tomada de decisão estratégica. Ele também discute tópicos como data warehouse, modelagem dimensional, gestão de projetos e indicadores de desempenho que podem ser integrados ao BI.
1) O documento apresenta os principais conceitos e arquitetura de soluções de Business Intelligence e Data Warehouse, incluindo introdução aos tópicos de OLTP x OLAP, ciclo de vida de um sistema BI, conceitos de Data Warehouse, modelagem dimensional, ETL e ferramentas como SQL Server Integration Services.
2) São apresentados os principais conceitos de modelagem dimensional como dimensões, fatos, métricas, cubos e arquiteturas de Data Warehouse.
3) A ferramenta SSIS da Microsoft é descrita com foco na arquitetura, princip
Business Intelligence com o microsoft sql serverMilson
O documento discute a implementação de uma solução de Business Intelligence (BI) utilizando o Microsoft SQL Server 2005. Ele explica conceitos como sistemas OLTP e OLAP, data warehouse, data mart, modelagem multidimensional, ETL e visualização de dados. O artigo também apresenta um estudo de caso detalhando os requisitos e a modelagem de um data mart para armazenar e analisar dados de vendas de uma rede de lojas.
O documento descreve as principais etapas de um projeto de Business Intelligence utilizando a ferramenta Microsoft Integration Services para criar um data warehouse. Ele aborda conceitos como ETL, modelagem dimensional, carga de dimensões e fatos, e implementação de Slowly Changing Dimension.
1. O documento descreve um curso avançado de Excel que ensina técnicas como consolidar planilhas, criar cenários, definir metas e usar o Solver.
2. Os tópicos incluem como consolidar dados de múltiplas planilhas em uma única planilha, criar e aplicar diferentes cenários em uma planilha, usar a ferramenta "atingir meta" para determinar valores que atendam uma meta definida e explica como ativar e usar a ferramenta Solver.
3. O curso ensina essas té
O documento descreve o modelo dimensional, que organiza os dados em tabelas de fatos e dimensões para permitir visualizações intuitivas e alto desempenho em consultas. O modelo é composto por fatos, dimensões e medidas, onde os fatos representam eventos de negócios e são classificados pelas dimensões. O modelo pode ser representado por cubos de dados, esquema estrela ou esquema em floco de neve.
1) O que são ferramentas OLAP e seus tipos (ROLAP, MOLAP, HOLAP, DOLAP);
2) Operações básicas de OLAP como drill-down, roll-up, slice e dice;
3) Requisitos para ferramentas OLAP como rapidez, capacidade de análise, flexibilidade e suporte a múltiplos usuários.
Map-Reduce: Adquirindo informações de dados distribuidosJoão Farias
Map-Reduce é uma técnica para processar grandes quantidades de dados distribuídos. Ela envolve duas etapas, mapeamento e redução, onde os dados são reorganizados e agregados através de funções paralelas. Isso permite adquirir informações entre agregados de dados armazenados de forma distribuída. Frameworks como Hadoop e Spark implementam Map-Reduce para extrair insights de negócios de dados NoSQL.
Map-Reduce: Adquirindo informações de dados distribuidosJoão Farias
Map-Reduce é uma técnica para processar grandes quantidades de dados distribuídos através de duas fases: mapeamento (mapping) e redução (reducing). No mapeamento, os dados são organizados de forma a poderem ser processados em paralelo. Na redução, os resultados dos mapeamentos são agregados. Isso permite extrair informações complexas de dados armazenados de forma não-relacional.
O documento discute os conceitos fundamentais de Business Intelligence, incluindo Data Warehouse, ETL e tabelas de fatos e dimensões. É explicado que um Data Warehouse centraliza dados de várias fontes e os organiza para análise, enquanto ETL extrai, transforma e carrega esses dados. Tabelas de fatos contêm métricas e tabelas de dimensão fornecem atributos descritivos para filtrar e rotular os dados.
1) A modelagem dimensional é uma técnica amplamente utilizada no desenvolvimento de data warehouses, por unir dados compreensíveis para os usuários com consultas de melhor performance.
2) Essa técnica estrutura os dados em fatos e dimensões relacionadas por chaves primárias e estrangeiras, permitindo análises como "lucro por ano" ou "vendas por vendedor".
3) A modelagem dimensional pode ser implementada em bancos de dados relacionais ou multidimensionais, sendo esta última mais indicada para OLAP e relatórios.
O documento descreve os conceitos e ferramentas de Business Intelligence (BI) e como a suíte Pentaho pode ser usada para desenvolver soluções de BI. A suíte Pentaho inclui ferramentas para modelagem de dados, ETL, análise e visualização de dados que podem ser usadas para construir um sistema completo de BI.
Este documento fornece um resumo de um curso sobre a criação de dashboards no Excel. O curso ensina como usar gráficos, tabelas e outras ferramentas do Excel para criar dashboards dinâmicos que permitem visualizar informações de diferentes maneiras. O curso é dividido em módulos que cobrem tópicos como design de dashboards, funções, gráficos dinâmicos e interfaces interativas. O documento também inclui exemplos de dashboards dinâmicos criados no Excel.
1) O documento é um curso avançado de Excel que ensina como criar mapas, minigráficos e barras de progresso no Excel.
2) Inclui introduções sobre como o Excel pode ser usado para organizar a vida pessoal e profissional.
3) Fornece instruções detalhadas sobre como inserir mapas, criar e personalizar minigráficos, e mostrar barras de progresso no Excel.
O documento discute como melhorar o desempenho do SQL Server abordando tópicos como: 1) otimizar o design do banco de dados escolhendo tipos de dados e normalização apropriados; 2) configurar corretamente o SQL Server; 3) usar ferramentas como Profiler, DTA e DMVs para identificar e corrigir problemas de consulta e índices. O documento enfatiza a importância de considerar a performance desde o início do desenvolvimento.
1) O documento descreve os modelos dimensionais OLTP e OLAP, que são usados para armazenar dados operacionais e de análise respectivamente.
2) O modelo dimensional facilita a investigação e organização de dados para análise de negócios, representando fatos e dimensões.
3) O documento explica as características e objetivos dos modelos estrela, floco de neve e data warehouse no contexto de armazenamento e análise de dados.
Um artigo que dá o fio da meada para profissionais de TI começarem a pensar em como melhorar o desempenho de seus SGBDs
An article that gives to IT professionals the end of the thread to start increasing the performance of yours DBMS
O documento descreve um estudo que simula demonstrações de resultado (DRE) de uma empresa usando o software Arena. Os autores ajustaram funções matemáticas aos dados reais da DRE de 2009-2010 e simularam a DRE de 2010. A simulação mostrou potencial para prever resultados, mas precisa de melhorias nos ajustes de função considerando mais dados históricos.
Este documento discute se a formatação e concatenação de dados em relatórios constituem "dados derivados" segundo as regras da Análise de Pontos de Função (APF). Também discute casos em que dados são convertidos para extenso ou com formatação específica. Geralmente essas ações não são consideradas geração de dados derivados, a menos que envolvam etapas complexas de processamento além da mera formatação ou concatenação.
Semelhante a Aula - Aspectos Avançados em Modelagem Multidimensional (20)
Este documento discute a evolução da inteligência de negócios, descoberta, análise de dados e ciência de dados, destacando os desafios e oportunidades de carreira. Apresenta uma linha do tempo das tecnologias de BI e discute conceitos como big data e data science, além de ferramentas como Hadoop, Spark e Kafka.
1. O documento apresenta uma introdução ao R, incluindo sua história, características e vantagens.
2. Discute conceitos básicos de programação no R como variáveis, tipos de dados, funções e pacotes.
3. Fornece exemplos de comandos básicos para importar e manipular dados, criar objetos, acessar ajuda e gerenciar o ambiente de trabalho.
Este documento apresenta informações sobre um curso de aprendizado de R, incluindo o cronograma de eventos SQL Saturday, uma breve biografia do instrutor, e conceitos básicos sobre R como ambiente de trabalho estatístico, história, características, tipos de objetos, funções básicas e estatística descritiva.
O documento discute como a análise de dados pode transformar informações em valor para as organizações, mencionando a evolução da Business Intelligence (BI) e conceitos como Big Data, Data Science e novas arquiteturas como Data Lake. A análise de grandes volumes de dados rápidos e não estruturados pode ajudar as pessoas a encontrarem padrões e causas para embasar decisões.
O documento discute Big Data Analytics e fornece um resumo histórico do assunto. Apresenta Mauricio Purificação e seu trabalho com Business Intelligence, Data Warehousing e Business Analytics. Explora conceitos como Business Intelligence, os 3 V's do Big Data e oportunidades trazidas pela análise de grandes volumes de dados.
Quem nunca parou para olhar milhares de sites e blogs para planejar uma viagem seja ela de negócios ou a lazer, seja sozinho ou com sua família? Ou quem fica perdido sempre que precisa buscar um lugar ou um evento para ir em sua própria cidade com um grupo de amigos, com a namorada/esposa ou só.
Pensando nessas dificuldades estamos desenvolvendo a aplicação BestPoint que além de integrar informações sobre oferta turística, eventos e opções de lazer e entretenimento oferece recomendações personalizadas pra você e seus grupos de amigos, colegas de trabalho, família e outros facilitando o acesso às informações desejadas em um curso espaço de tempo.
Através do BestPoint você pode descobrir o melhor lugar para ir com poucos cliques e de uma maneira muito fácil e rápida tendo também as opções de rotas, trajetos, meios de transporte e estacionamentos. Tudo isso graças à inteligência artificial da plataforma que realiza recomendações baseadas no perfil do usuário/grupo, da disponibilidade financeira, da localização geográfica e também das avaliações e recomendações de outros usuários.
Para mais informações acesse: www.bestpoint.com.br
O documento discute a profissão de cientista de dados e se ela será a profissão do futuro. Apresenta as habilidades necessárias para o cargo, como conhecimentos em TI, estatística e negócios. Também discute as diferenças entre análise de dados tradicional e ciência de dados, e prevê uma escassez futura destes profissionais.
O documento descreve a história da empresa OxenTI, especializada em soluções de tecnologia da informação. Começou com 7 estudantes que queriam fazer a diferença e hoje é formada por 3 sócios e uma equipe de consultores experientes em desenvolvimento de sistemas e business intelligence. A empresa conquistou recursos por meio de editais e hoje oferece produtos inovadores para apoiar a gestão de negócios.
O documento fornece o endereço de uma empresa chamada Oxenti localizada no Parque Tecnológico da Bahia em Salvador, com três números de telefone e um endereço de e-mail para contato, além do endereço do seu site.
Este documento discute o Big Data, Business Intelligence, análise de dados sociais e a função do cientista de dados. Resume que o volume de dados disponíveis está crescendo rapidamente e novas tecnologias como Hadoop permitem extrair insights valiosos desses dados. Também explora como análise de mídia social pode fornecer informações úteis sobre clientes e mercados.
O documento discute a profissão de cientista de dados e como a análise de grandes volumes de dados se tornou essencial para os negócios. Apresenta o histórico da Business Intelligence e como a era do Big Data criou novas oportunidades para explorar dados e tomar melhores decisões com base em evidências. Também define o papel do cientista de dados e as habilidades necessárias para esta profissão em ascensão.
1) O documento descreve Mauricio Purificação, sócio da OxenTI, e sua experiência com Business Intelligence, QlikView e desenvolvimento de soluções.
2) A OxenTI é uma empresa de tecnologia da informação especializada no desenvolvimento de soluções e sistemas de gestão.
3) O documento explica os conceitos e benefícios de Business Intelligence e como o QlikView se diferencia do BI tradicional através de sua abordagem associativa em memória.
O documento discute a transição da era do Business Intelligence (BI) para a era do Business Analytics. Apresenta as diferenças entre BI e Business Analytics e como novas tecnologias como big data, armazenamento em nuvem e análise de dados em grande escala estão impulsionando essa mudança. Também descreve as soluções em Business Analytics da empresa OxenTI, incluindo o uso da plataforma open source Pentaho.
O documento discute a transição da era do Business Intelligence (BI) para a era do Business Analytics (BA) devido aos avanços tecnológicos e ao volume massivo de dados. O BI tradicional está sendo substituído por soluções de BA abertas e baseadas na nuvem que permitem análises mais rápidas e autoatendidas. A empresa OxenTI oferece treinamentos e soluções com Pentaho para apoiar as organizações nesta transição.
O documento discute Business Intelligence e Business Analytics, apresentando Mauricio Purificação, um especialista na área. Aborda como o BI pode melhorar a tomada de decisão, medição de desempenho e antecipação de problemas por meio da análise de indicadores e dados. Também discute como o BI e análises preditivas podem identificar padrões e tendências para prever cenários futuros.
Este documento fornece uma introdução sobre mineração de dados. Resume as seguintes informações essenciais:
1) Apresenta o contexto e motivação para mineração de dados, como a capacidade crescente de coletar e armazenar grandes quantidades de dados.
2) Explica os conceitos centrais de KDD, data warehousing e as principais tarefas de mineração de dados, como classificação, clusterização e detecção de padrões.
3) Apresenta brevemente algumas técnicas comuns de minera
O documento discute a aplicação de práticas ágeis na construção de data warehouses evolutivos. Apresenta os princípios ágeis e como eles podem ser aplicados para entregar valor rapidamente aos usuários de business intelligence através de entregas incrementais frequentes de funcionalidades. Também propõe o framework FDWS para desenvolvimento ágil de data warehouses baseado em features de negócio.
O documento discute métodos ágeis de desenvolvimento de software. Apresenta os problemas do desenvolvimento tradicional e descreve princípios como o Manifesto Ágil. Detalha práticas como XP e Scrum e fornece links para recursos adicionais sobre os tópicos discutidos.
As classes de modelagem podem ser comparadas a moldes ou
formas que definem as características e os comportamentos dos
objetos criados a partir delas. Vale traçar um paralelo com o projeto de
um automóvel. Os engenheiros definem as medidas, a quantidade de
portas, a potência do motor, a localização do estepe, dentre outras
descrições necessárias para a fabricação de um veículo
Em um mundo cada vez mais digital, a segurança da informação tornou-se essencial para proteger dados pessoais e empresariais contra ameaças cibernéticas. Nesta apresentação, abordaremos os principais conceitos e práticas de segurança digital, incluindo o reconhecimento de ameaças comuns, como malware e phishing, e a implementação de medidas de proteção e mitigação para vazamento de senhas.
Este certificado confirma que Gabriel de Mattos Faustino concluiu com sucesso um curso de 42 horas de Gestão Estratégica de TI - ITIL na Escola Virtual entre 19 de fevereiro de 2014 a 20 de fevereiro de 2014.
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...Faga1939
Este artigo tem por objetivo apresentar como ocorreu a evolução do consumo e da produção de energia desde a pré-história até os tempos atuais, bem como propor o futuro da energia requerido para o mundo. Da pré-história até o século XVIII predominou o uso de fontes renováveis de energia como a madeira, o vento e a energia hidráulica. Do século XVIII até a era contemporânea, os combustíveis fósseis predominaram com o carvão e o petróleo, mas seu uso chegará ao fim provavelmente a partir do século XXI para evitar a mudança climática catastrófica global resultante de sua utilização ao emitir gases do efeito estufa responsáveis pelo aquecimento global. Com o fim da era dos combustíveis fósseis virá a era das fontes renováveis de energia quando prevalecerá a utilização da energia hidrelétrica, energia solar, energia eólica, energia das marés, energia das ondas, energia geotérmica, energia da biomassa e energia do hidrogênio. Não existem dúvidas de que as atividades humanas sobre a Terra provocam alterações no meio ambiente em que vivemos. Muitos destes impactos ambientais são provenientes da geração, manuseio e uso da energia com o uso de combustíveis fósseis. A principal razão para a existência desses impactos ambientais reside no fato de que o consumo mundial de energia primária proveniente de fontes não renováveis (petróleo, carvão, gás natural e nuclear) corresponde a aproximadamente 88% do total, cabendo apenas 12% às fontes renováveis. Independentemente das várias soluções que venham a ser adotadas para eliminar ou mitigar as causas do efeito estufa, a mais importante ação é, sem dúvidas, a adoção de medidas que contribuam para a eliminação ou redução do consumo de combustíveis fósseis na produção de energia, bem como para seu uso mais eficiente nos transportes, na indústria, na agropecuária e nas cidades (residências e comércio), haja vista que o uso e a produção de energia são responsáveis por 57% dos gases de estufa emitidos pela atividade humana. Neste sentido, é imprescindível a implantação de um sistema de energia sustentável no mundo. Em um sistema de energia sustentável, a matriz energética mundial só deveria contar com fontes de energia limpa e renováveis (hidroelétrica, solar, eólica, hidrogênio, geotérmica, das marés, das ondas e biomassa), não devendo contar, portanto, com o uso dos combustíveis fósseis (petróleo, carvão e gás natural).
2. Agenda
I. Esquema Estrela e Variações
II. Esquema Snowflake e Variações
III.Dimensão Tempo
IV. Role Playing Dimensions
V. Slowly Changing Dimensions
VI. Dimensões Degeneradas
VII.Campos Chaves de Tabelas de Dimensões
VIII.Fatos Aditivos * Semi-Aditivos * Não-Aditivos
IX. Tabelas de Fatos Sem Fatos
X. Dez Erros Comuns a Evitar em Modelagem Dimensional
2
4. Esquema Estrela e Variações
A Figura ilustra uma tabela para a dimensão “Geografia”, com os pontos acima
representados. Note que a coluna “nível” determina a hierarquia (Região/Estado/Cidade)
4
7. Modelo Estrela Parcial
Os pontos positivos deste modelo são a maior economia de espaço,
eliminando redundâncias e colunas que não têm sentido para
determinado nível de agregação e o melhor desempenho para consultas
de nível específico de agregação.
Por outro lado, a complexidade do modelo é maior e as consultas que
combinam níveis de agregação distintos são mais elaboradas, podendo
resultar em queda de desempenho.
7
8. Modelo Estrela com Particionamento de Fatos
(ou Modelo Constelação de Fatos)
8
Modelo Particionamento de Fatos
9. Modelo Estrela com Particionamento de
Dimensões
Modelo Particionamento de Dimensões, para local e tempo. Note a granularidade da 9
tabela de fatos.
10. Snowflake e Suas Variações
10
Modelo Snowflake, Após Normalização Do Modelo Estrela
11. Modelo Snowflake Lookup
Note que a tabela de
dimensão
“PrincipalClientes”
possui apenas os dados
de cada cliente e
chaves estrangeiras
para outros elementos,
sendo que a
manutenção destes é
feita de modo mais
consistente ao
promover alterações
apenas nas tabelas de
busca (lookup).
11
Parte Do Modelo Snowflake Lookup, Mostrando A Normalização Da Tabela Clientes
13. Modelo Snowflake Chain
A recomendação de uso deste modelo ocorre quando o nível de detalhe mais
baixo está armazenado na tabela de fatos.
A contra-indicação, por sua vez, é para os casos em que a pesquisa requer
vários níveis de sumarização da informação, já que são necessários vários
passos para recuperar as informações.
A fim de melhorar o desempenho, uma sugestão é desnormalizar a cadeia,
inserindo as chaves de níveis mais altos nos níveis mais baixos.
13
14. Modelo Snowflake Attribute
Com o objetivo de reduzir o número de informações referentes a atributos nas
tabelas de fatos, geralmente utilizados para obtenção de detalhes
(drillthrough), inserimos todos eles em uma tabela de atributos:
Modelo Snowflake, Antes De Separar Os Atributos
14
15. Modelo Snowflake Attribute
Outra utilidade
deste modelo é a
consolidação de
informações
sobre diversas
pequenas
dimensões que
possuam poucos
campos (muitas
vezes apenas a
descrição) em uma
única tabela.
Desse modo, o
número de tabelas
em junções pode
ser reduzido,
melhorando o
desempenho.
Modelo Snowflake Attribute 15
16. Dimensão Tempo
A dimensão tempo é muito poderosa e importante em todo data
mart e data warehouse corporativo. Como tal deve ser tratada de
forma diferenciada em relação às outras dimensões.
(Ralph Kimball)
16
17. Importância da Dimensão Tempo
A Dimensão Tempo costuma ser complexa no mundo real:
• Dia, Mês, Trimestre, Semestre, Ano
• Acumulado no Mês
• Período Fiscal, Semana de Cinco Dias
• Feriados
Qual a granularidade ideal? É claro, depende do projeto
Exemplo: Granuralidade Diária
Com granularidade diária, podemos organizar os dados por dias,
meses, anos, por periodos fiscais (artificiais) da empresa, etc. Essa
modelagem, é mais flexível a mudanças nos requisitos do negócio.
17
18. Dimensão Tempo
• Diferente das outras dimensões, a tabela pode ser
carregada antecipadamente, de uma só vez e não
requer fonte de dados.
• É razoável que carreguemos 5 ou 10 anos de dias
válidos Ex: De 1995 a 2005.
Temos que cobrir dias passados devido a
análises históricas e os dias futuros
18
19. Exemplo de Dimensão Tempo
time_key
full_date
day_of_week
day_number_in_month
day_number_overall
week_number_in_year
week_number_overall
month
month_number_overall
quarter
fiscal_period
weekday_flag
last_day_in_month_flag
19
20. Detalhe da Dimensão Tempo
week
day day day week week week begin month
date day of num in num day abbre weekday num in num begin date num month month
key full date week month overall name v flag year overall date key month overall name abbrev
1 1/1/96 1 1 1 Monday Mon y 1 1 1/1/96 1 1 1 January Jan
2 1/2/96 2 2 2 Tuesday Tue y 1 1 1/1/96 1 1 1 January Jan
3 1/3/96 3 3 3 WednesdayWed y 1 1 1/1/96 1 1 1 January Jan
4 1/4/96 4 4 4 Thursday Thu y 1 1 1/1/96 1 1 1 January Jan
5 1/5/96 5 5 5 Friday Fri y 1 1 1/1/96 1 1 1 January Jan
6 1/6/96 6 6 6 Saturday Sat n 1 1 1/1/96 1 1 1 January Jan
7 1/7/96 7 7 7 Sunday Sun n 1 1 1/1/96 1 1 1 January Jan
8 1/8/96 1 8 8 Monday Mon y 2 2 1/8/96 8 1 1 January Jan
9 1/9/96 2 9 9 Tuesday Tue y 2 2 1/8/96 8 1 1 January Jan
20
21. Detalhe da Dimensão Tempo
• O campo day_of_week contém o nome do dia. Ex: terça.
• Pode ser usado em relatórios comparando negócios de terça
com sábado
• O campo day_number_in_month começa com 1 e vai até 28, 29,
30 ou 31 dependendo do mês
• O campo last_day_in_month_flag é usado para selecionar o último
dia do mês
• O campo day_number_overall é o dia no calendário juliano
• Permite aritmética simples entre dias no ano ou no mês
• Os campos quarter e fiscal_period são campos textos que contém
uma designação para qual quinzena ou período fiscal que o dia cai
21
22. Dimensão Tempo
Porque não acrescentar um atributo data na tabela de fatos ao invés
de criar uma dimensão tempo, aproveitando os recursos oferecidos
pelo SQL?
As tabelas de dimensões servem como fonte para filtros e
cabeçalhos de relatórios.
Apesar do SQL oferecer assistência razoável para navegar através
de datas, as suas funcionalidades não são suficientes para atender as
necessidades típicas de uma organização, tal como: calendário
corporativo, período fiscal ou de estações.
Se você não possui bons atributos descritivos você não pode
construir os relatórios que precisa
22
23. Como Guardar Horas e Minutos ?
1ª Alternativa: Colocar a “hora do dia” na Tabela de
Fatos
Time Fact
time_key time_key
...
time_of_day
23
24. Como Guardar Horas e Minutos ?
2ª Alternativa: Criar uma Dimensão Hora (24 h
X 60 min = 1440 valores)
Time Fact
time_key time_key
minute_key
Minute
minute_key
hour Agrupamentos úteis de minutos:
minute (nomes de horas, nomes de turnos )
24
25. Como Guardar Horas e Minutos ?
3ª Alternativa : Na mesma tabela de dimensão
que as datas
Time
time_key Fact
day time_key
...
month time_of_day
hour
minute
Tabela muito grande
25
26. Questões Avançadas Envolvendo o Tempo
• “Time alignment of similar events”
Aplicação onde você quer analisar grupos de
registros que são classificados juntos por um
determinado evento.
Como cruzar informações relativas a um
determinado evento?
26
27. Questões Avançadas Envolvendo o Tempo
Ex: Data mart de compras de clientes. Os clientes
com limite de crédito > 1000 reais pertencem ao
mesmo grupo de análise
– O que acontece com um cliente quando seu
limite de crédito é aumentado para 1.000 reais?
– Qual a média de tempo que clientes alcançam um
crédito default ?
27
28. Questões Avançadas Envolvendo o Tempo
• “Progressive Subsetting”
– Como cruzar informações sobre conjuntos de
dados no tempo?
– Caso típico em diagnóstico
• Ex:
– Quais pacientes sentiram dor, e que depois
foram tratados durante um mês com a droga A
ou B, e que não sofreram operação subsequente,
e que tiveram dores 3 meses depois, e que ainda
estão vivos?
28
29. Role Playing Dimensions
“Role Playing” ou dimensões com papéis em Data
Warehouse é uma situação na qual uma única
dimensão aparece várias vezes na mesma tabela de
fatos
29
30. Dimensão Tempo Com Vários Papéis
Inventário de Entrega
Chave do Produto
Dimensão Chave do Armazém Dimensão
Chave de Venda
Armazém Produto
Data do Pedido
Data da Entrega
Dimensão Data do Pagamento Dimensão
Tempo Data da Devolução Venda
Status do Pedido
...
30
31. Role Playing Dimensions
PROBLEMA:
Os itens Data de Pedido, Data da Entrega, Data do Pagamento e
Data da Devolução referem-se a uma única tabela de dimensão, a
Dimensão Tempo.
Não podemos associar estes campos a uma única tabela, pois o SQL
poderia interpretar tal associação simultânea como exigência para
que todas as datas fossem iguais, o que não parece muito provável.
Precisamos “enganar” o SQL para que ele acredite que existem
quatro tabelas independentes na Dimensão Tempo. Assim, temos que
rotular todas as colunas de cada uma das tabelas de forma exclusiva.
Se não fizermos isso, não conseguirmos separar as colunas quando
várias delas forem arrastadas para um relatório.
31
32. Soluções SQL para Dimensões com Papéis
Cada um dos papéis da dimensão é representado por uma tabela lógica
separada com nomes de coluna únicos através de visões.
CREATE VIEW order_date (order_date_key, order_day_of_week,
order_month...)
AS SELECT date_key, day_of_week, month, . . . FROM Date
CREATE VIEW req_ship_date (req_ship_date_key, req_ship_day_of_week,
req_ship_month ...)
AS SELECT date_key, day_of_week, month, . . . FROM Date
32
33. Dimensão Aeroporto Com Vários Papéis
Dimensão Cliente
Data do Vôo
Dimensão Aeroporto
Origem do Segmento
Destino do Segmento
Dimensão Vôo
Origem da Viagem Dimensão Tarifa
Destino da Viagem
Vôo
Dimensão Data Tarifa
Classe
33
Cliente …
34. Mais De Uma Dimensão Com Vários Papéis
Tráfego Tarifado de Comutação
Dimensão Tempo Data da Chamada
Data da Tarifação
Data do Faturamento
Data do Pagamento
Provedor do Sistema de Origem
Dimensão Provedor Provedor da Comutação Local
Provedor dos Interurbanos
Provedor do Serviço de Valor Agregado
Parte que Ligou
Parte que Recebeu a Ligação
Comutação Anterior
Dimensão Localização Comutação Subsequente
34
35. Dimensões que Evoluem no Tempo
• Chamadas de Slowly Changing Dimensions
• Dimensões que se mantém constantes durante a
maior parte do tempo, necessitando de algumas
pequenas adições para capturar as mudanças ao
longo do tempo
35
36. Dimensões que Evoluem no Tempo
Algumas dimensões não constantes ao longo do tempo, são as
dimensões de modificação lenta. Ex: produto, cliente...
Tornar as dimensões dependentes do tempo ou incluir
tudo na tabela de fatos....
Entidades altamente relacionadas, perda de consistência
e desempenho
A capacidade do data warehouse de mostrar corretamente os fatos
históricos pode ser afetada pelas dimensões de modificação lenta e
depende de como as mudanças nas dimensões são rastreadas.
36
37. Dimensões que Evoluem no Tempo
Existem basicamente três alternativas para lidarmos com essa
situação:
Tipo um :
Atualizar os valores antigos os registros da dimensão
Tipo dois:
Adicionar um novo registro à dimensão contendo os novos valores do atributo
Tipo três:
Criar novos campos “atuais” no registro original da dimensão
Consideremos como exemplo:
Mary Jones - tinha estado civil solteira até 15/01/1994.
Casou-se em 15/01/1994. Como refletir esta “evolução” no DW ?
37
38. Dimensões que Evoluem no Tempo
O atributo da dimensão é atualizado com o novo valor
Não é necessário mais nenhuma alteração no registro da dimensão
Nenhuma chave é afetada no banco de dados
Muito fácil de implementar mas os dados históricos ficam inconsistentes
Duas questões básicas devem ser feitas antes de decidir por esta solução:
Qual a importância desse valor para as análises do usuário final?
Qual a importância de se rastrear o histórico ?
Mary Jones teria seu atributo estado civil atualizado para casada.
38
39. Dimensões que Evoluem no Tempo
Inserção de um novo registro na mesma entidade dimensional, refletindo
a “mudança de estado”;
Uma “nova instância” da chave dimensional é a criada e referencia o novo
registro;
É necessário a criação de uma chave generalizada. Uma forrma simples
de fazê-lo é criar dígitos de versões no final da chave;
Todas essas chaves precisam ser criadas, mantidas e gerenciadas pela
equipe de DW. É necessário o uso de metadados para rastrear as chaves
já utilizadas
O banco de dados mantém sua consistência e as versões podem ser
chamadas “partition history”
Existirão dois registros de Mary Jones na dimensão cliente. O primeiro referente
ao seu estado civil até 15/01/1994 - solteira e o outro ao estado civil casada.
Na tabela de fatos vendas, o primeiro registro de Mary está vinculado as Vendas
anteriores a 15/01/94, e o segundo estará vinculado as vendas posteriores
a essa data
39
40. Dimensões que Evoluem no Tempo
• A dimensão de modificação lenta divide o histórico automaticamente,
através da associação de cada “versão” com seus registros de fatos
correspondentes
• É permitido também colocar uma data efetiva de início e fim em cada
registro, por exemplo, de uma dimensão produto, permitindo assim
rastrear a data de validade de determinada composição.
– Mas deve-se ter cuidado, pois estas datas neste caso não tem o
mesmo significado da chave de data na tabela de fatos: a chave na
tabela de fatos se refere, por exemplo, a data de venda do
produto, que não ecessariamente deve estar contida no intervalo de
tempo definido na tabela de dimensão.
• Mas o que fazer com esta data efetiva no caso de dimensões onde
diversos atributos podem ser modificados?
40
41. Dimensões que Evoluem no Tempo
• Caso de um data mart de recursos humanos, onde para cada empregado
tem-se um rico conjunto de atributos (digamos 100!): data de
contratação, função, nível, salário, plano de seguro, etc.
• Na verdade, há uma série de transações atuando sobre estes dados,
pois os empregados são promovidos, transferidos, etc.
• Pode-se querer fazer análises como:
– Status resumido da base de empregados a cada fechamento de mes
• Usa-se a tabela de fatos
– Status novamente, mas numa data em particular
• Uso a tabela de dimensão
– Histórico de transações de uma determinado empregado
• Uso a tabela de dimensão
41
42. Dimensões que Evoluem no Tempo
Emp Transaction Dimension
emp_trans_key (PK)
emp_Id
transaction_descriptiontt
ransaction_date_time
transaction_end_date_ti Human Resources Facts
me
last_transaction_flag emp_trans_key
name month_key
address Month Dimension organization_key
jog_grade salary_payed
education month_key (PK) overtime_payed
.... month_attributes ... vacation_taken
number_promotions
number_transfers
Organization Dimension ....
organization_key (PK)
organization_attributes
...
42
43. Dimensões que Evoluem no Tempo
Utiliza uma estrutura um pouco diferente. São necessários campos para
armazenar:
status original do atributo dimensional
status atual do atributo dimensional
data efetiva da ultima alteração do campo (status atual)
Apenas dois status podem ser rastreados: o atual e o original;
É possível fazer análises comparando com os resultados utilizando os
status original e atual
É usado para avaliações simultaneas ou tentativas
43
44. Dimensões que Evoluem no Tempo
O atributo estado civil, seria renomeado para estado civil original e seriam incluídos
os atributos estado civil atual e data efetiva do estado civil.Sempre que acontecer
uma mudança no estado civil de Mary, substituiremos o valor do campo estado civil
atual e mudaremos a data efetiva. O campo estado civil original nunca é modificado
44
45. Slowly Changing e o Tempo
Dimensões que mudam com o tempo tem um
relacionamento com a Dimensão Tempo?
Product Fact Time
product_key
product_key time_key
time_key
time_key
45
46. Slowly Changing e o Tempo
Dimensões que mudam com o tempo tem um
relacionamento com a Dimensão Tempo?
Product Fact Time
product_key
product_key time_key
time_key
time_key
46
47. Dimensões Degeneradas
• Também chamadas de descaracterizadas
• Existe um valor correspondente a algum objeto do
mundo real na tabela de fatos mas todos os seus
atributos já aparecem na própria tabela de fatos ou
em alguma outra dimensão
• Dimensões degeneradas geralmente se encontram nas
modelagens em que a granularidade da tabelas de
fatos é o item.
47
48. Dimensões Degeneradas
Número_faturaData_compraProdutoValor Desconto Loja
0312 12/09/1999 A 15,00 0,0% XYZ
0313 12/09/1999 B 25,00 10,0% XYZ
Necessário ou Não?
48
49. Dimensões Degeneradas
Número_fatura Data_compra Produto Valor Desconto Loja
0312 12/09/1999 A 15,00 0,0% XYZ
0313 12/09/1999 B 25,00 10,0% XYZ
Chave Produto
Tabela de Fatos
Chave Loja
1. Chaves das Dimensões
Outras chaves
2. Número_fatura
3. Fatos numéricos normais Dimensão
Degenerada
Não tem atributos
49
50. Dimensões Degeneradas
• Dimensões degeneradas normalmente ocorrem na criação de
tabelas de fatos de item orientado a linha.
• São dimensões normais, esperadas e úteis.
• A “chave degenerada” pode ser usada para se agrupar itens
de linha em uma única ordem.
• Exemplo de pedido: O número médio de itens de linha que
estão em uma ordem.
•Pedido
• Fatura
Usadas para:
• Conta
• Tiquete
50
52. Campos Chaves de Tabela de Dimensões
Regra básica: uso de surrogates ou chaves artificiais.
– Ajudam a manter a estabilidade, através da neutralidade.
– Evitam manutenção custosa de tabelas, especialmente das tabelas
fatos.
– Chaves naturais podem ter problemas de unicidade, ausência,
tamanhos
exagerados.
– Chaves artificiais podem ser especificadas como inteiros de 4
bytes, alcançando
até 232, isto é, mais de 2 bilhões de ocorrências (inteiros positivos),
o que é mais do
que necessário para qualquer tabela dimensão.
52
53. Campos Chaves de Tabela de Dimensões
– Chaves artificiais ficam transparentes (invisíveis) para os usuários,
servindo
apenas como ligação entre dimensões e fatos.
– Campos naturais não chave poderão ser indexados, tornando as
consultas
amistosas.
– Se produzidas automaticamente, deve-se ter cuidado no processo
de preparação
(ETL), especialmente nos reprocessamentos.
– A única desvantagem das chaves artificiais é que não faz sentido a
tabela fato ser
consultada diretamente, pois os campos descritivos de filtro estarão
armazenados
nas dimensões.
53
54. Fatos Aditivos x Semi-Aditivos x Não-
Aditivos
• Fatos Aditivos - podem sempre ser adicionados ao longo das
dimensões.
Ex: número de produtos vendidos.
• Fatos Semi-aditivos - podem ser adicionados ao longo de algumas
dimensões.
Ex: Níveis de estoque e medições de intensidade
(temperatura).
• Fatos Não-aditivos - não podem ser adicionados
Análise um a um dos registros do fato.
Ex: taxas.
54
55. Fatos Aditivos x Semi-Aditivos x Não-
Aditivos
Dimensão Loja Fato Venda Dimensão Tempo
chave_tempo
chave_produto
Dimensão Promoção chave_loja Dimensão Produto
chave_promocao
Chave_promocao chave_produto
qtde_vendida
nome_promocao descricao_sku
rendimento_dolar
tipo_reducao_preco numero_sku
custo_dolar
tipo_cupom categoria
numero_fregueses
custo_promocao departamento
data_inicio_prom peso
... ...
55
56. Fatos Aditivos x Semi-Aditivos x Não-
Aditivos
• Os três primeiros fatos são aditivos ao longo de todas
as dimensões. Podemos agrupar dados da tabela de
fatos sem problemas e toda soma desses três fatos é
válida e correta.
• O 4º fato, numero_fregueses, não é aditivo ao longo
da dimensão produto, caracterizando-o como semi-
aditivo. Se fizermos a pergunta, “Quantos foram os
fregueses que compraram o produto A ou B?”
poderemos ter uma resposta incorreta, pois um mesmo
cliente pode comprar mais de um produto ao mesmo
tempo. 56
57. Tabelas de Fatos Sem Fatos (Factless Fact
Tables)
Ocorre quando há ausência de fatos significativos na
tabela de fatos.
Existem duas variações principais:
• Tabelas de Rastreamento de Eventos
• Tabelas de Cobertura
57
58. Tabelas de Rastreamento de Eventos (Ex I)
Freqüência Diária em Faculdade
Modelar a freqüência diária a um curso de uma faculdade em uma
tabela de fatos com as dimensões:
• Data
• Aluno
• Curso
• Professor
• Instalação
58
60. Tabelas de Rastreamento de Eventos (Ex I)
Este esquema estrela permite visualizar questões tais
como:
• Freqüência consolidada dos cursos
• Desistência de cursos ao longo do tempo
• Freqüência de alunos por cursos
• Utilização de instalações por professores de outros
departamentos
• Taxa média de ocupação das instalações durante o
horário de atendimento
60
61. Tabelas de Rastreamento de Eventos (Ex I)
Visualizar freqüência consolidada dos cursos:
SELECT CURSO, COUNT(CH_CURSO)
... GROUP BY CURSO
ou
SELECT CURSO, COUNT(CH_PROFESSOR)
... GROUP BY CURSO
ou CH_INSTALAÇÃO, ou CH_PROFESSOR,
ou CH_TEMPO
61
65. Dez Erros Comuns a Evitar em
Modelagem Dimensional
•Erro 10: Colocar atributos de texto usados para restrições
e agrupamento numa tabela de fatos.
•Erro 9: Limitar atributos descritivos verbosos em
dimensões para economizar espaço.
•Erro 8: Separar hierarquias e níveis de hierarquia em
dimensões múltiplas.
•Erro 7: Ignorar a necessidade de cuidar de mudanças em
atributos de dimensões.
•Erro 6: Resolver todos os problemas de desempenho de
consultas adicionando mais hardware.
65
66. Dez Erros Comuns a Evitar em
Modelagem Dimensional
•Erro 5: Usar chaves operacionais ou “inteligentes” para
junções de tabelas de dimensão com tabela de fatos.
•Erro 4: Negligenciar a declaração e depois a consistência
com o grão da tabela de fatos.
•Erro 3: Projetar o modelo dimensional baseado em um
relatório específico.
•Erro 2: Esperar que usuários consultem dados de nível
atômico mais baixo num formato normalizado.
•Erro 1: Falhar em conformar fatos e dimensões através de
diferentes data marts.
66