Apresentando Data Vault 2.0 - Uma metodologia ágil para data warehouses: vantagens e desafios. Palestra realizada no TDC (The Developer's Conference) em Dez/2020, online.
O documento discute arquiteturas, ferramentas e padrões de desenvolvimento para integrar aplicações que usam múltiplos bancos de dados NoSQL e SQL. Apresenta os desafios de modelagem de dados nesse cenário e como frameworks como Spring Data podem facilitar o acesso a diversos bancos de dados no desenvolvimento. Também aborda técnicas como agregação, joins e sincronização para integrar dados armazenados em bancos diferentes.
DataOps: Estendendo as práticas de DevOps para BigDataEduardo Hahn
DataOps é uma abordagem que estende as práticas de DevOps para equipes de dados e análise, com o objetivo de melhorar a qualidade e reduzir o tempo de ciclo dos projetos de dados. DataOps envolve automatizar, monitorar e orquestrar pipelines de dados, ambientes de teste e implantações para permitir a entrega contínua de soluções analíticas. Implementar DataOps requer foco em cultura, processos e tecnologia para permitir a colaboração entre equipes multidisciplinares.
Passo a Passo para implementar DataOps em projetos de Big DataEduardo Hahn
DataOps é uma abordagem que visa melhorar a qualidade e reduzir o tempo de ciclo de análises de dados por meio da automação e monitoramento de pipelines de dados. O documento descreve 15 passos para implementar DataOps em projetos de Big Data, incluindo incrementar testes de dados e lógica, usar controle de versão, ambientes múltiplos e parâmetros, visando permitir que equipes trabalhem com confiança e evitem problemas de qualidade e interrupções.
1) O documento introduz conceitos sobre Business Intelligence, Data Warehouse, modelagem dimensional e técnicas para construção de um modelo dimensional.
2) É discutido o que é um Data Warehouse, suas características, objetivos e como ele se diferencia de sistemas transacionais.
3) São apresentadas as diferenças entre Data Warehouse e Data Mart.
T@rget trust business intelligence bi - etl - fundamentos e aplicaçõesTargettrust
O documento discute um curso de Business Intelligence (BI) que ensina conceitos e melhores práticas para desenvolvimento de projetos de BI. O curso é composto por 4 módulos e ensina sobre soluções de BI em nuvem, localização e análise em memória. Um dos módulos é sobre ETL e ensina sobre extração, transformação e carregamento de dados em data warehouses.
O documento fornece uma visão geral das principais ferramentas de machine learning, incluindo serviços de modelos treinados, frameworks e bibliotecas. Ele discute quando utilizar serviços de modelos treinados versus treinar seus próprios modelos e fornece exemplos de ferramentas populares como Watson, Cloud Vision API, Weka, Azure ML Studio, H2O, Scikit-Learn, MLLib e TensorFlow.
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Durotdc-globalcode
O documento fornece uma visão geral dos principais conceitos e ferramentas de machine learning, incluindo: 1) Uma explicação de modelos de machine learning treinados e como eles funcionam; 2) Uma discussão sobre quando utilizar serviços de modelos treinados versus treinar seus próprios modelos; 3) Uma comparação de populares ferramentas e bibliotecas de machine learning como Weka, H2O, Scikit-learn, TensorFlow e Spark MLLib.
InfluxDb: como monitorar milhares de dados por segundo em real time Umbler
Slides da Palestra apresentada na Trilha Banco de Dados do The Developers Conference 2016 - São Paulo.
A palestra aborda os principais conceitos sobre Time series database (TSDB), e demonstra como utilizar a stack TICK (Telegraf, InfluxDb, Conograph, Kapacitor) da InfluxData para resolver problemas de monitoria de dados em grande escala, gerando gráficos e alertas em tempo real.
O documento discute arquiteturas, ferramentas e padrões de desenvolvimento para integrar aplicações que usam múltiplos bancos de dados NoSQL e SQL. Apresenta os desafios de modelagem de dados nesse cenário e como frameworks como Spring Data podem facilitar o acesso a diversos bancos de dados no desenvolvimento. Também aborda técnicas como agregação, joins e sincronização para integrar dados armazenados em bancos diferentes.
DataOps: Estendendo as práticas de DevOps para BigDataEduardo Hahn
DataOps é uma abordagem que estende as práticas de DevOps para equipes de dados e análise, com o objetivo de melhorar a qualidade e reduzir o tempo de ciclo dos projetos de dados. DataOps envolve automatizar, monitorar e orquestrar pipelines de dados, ambientes de teste e implantações para permitir a entrega contínua de soluções analíticas. Implementar DataOps requer foco em cultura, processos e tecnologia para permitir a colaboração entre equipes multidisciplinares.
Passo a Passo para implementar DataOps em projetos de Big DataEduardo Hahn
DataOps é uma abordagem que visa melhorar a qualidade e reduzir o tempo de ciclo de análises de dados por meio da automação e monitoramento de pipelines de dados. O documento descreve 15 passos para implementar DataOps em projetos de Big Data, incluindo incrementar testes de dados e lógica, usar controle de versão, ambientes múltiplos e parâmetros, visando permitir que equipes trabalhem com confiança e evitem problemas de qualidade e interrupções.
1) O documento introduz conceitos sobre Business Intelligence, Data Warehouse, modelagem dimensional e técnicas para construção de um modelo dimensional.
2) É discutido o que é um Data Warehouse, suas características, objetivos e como ele se diferencia de sistemas transacionais.
3) São apresentadas as diferenças entre Data Warehouse e Data Mart.
T@rget trust business intelligence bi - etl - fundamentos e aplicaçõesTargettrust
O documento discute um curso de Business Intelligence (BI) que ensina conceitos e melhores práticas para desenvolvimento de projetos de BI. O curso é composto por 4 módulos e ensina sobre soluções de BI em nuvem, localização e análise em memória. Um dos módulos é sobre ETL e ensina sobre extração, transformação e carregamento de dados em data warehouses.
O documento fornece uma visão geral das principais ferramentas de machine learning, incluindo serviços de modelos treinados, frameworks e bibliotecas. Ele discute quando utilizar serviços de modelos treinados versus treinar seus próprios modelos e fornece exemplos de ferramentas populares como Watson, Cloud Vision API, Weka, Azure ML Studio, H2O, Scikit-Learn, MLLib e TensorFlow.
TDC2016SP - Machine Learning Black Boxes - Terceirizando o Trabalho Durotdc-globalcode
O documento fornece uma visão geral dos principais conceitos e ferramentas de machine learning, incluindo: 1) Uma explicação de modelos de machine learning treinados e como eles funcionam; 2) Uma discussão sobre quando utilizar serviços de modelos treinados versus treinar seus próprios modelos; 3) Uma comparação de populares ferramentas e bibliotecas de machine learning como Weka, H2O, Scikit-learn, TensorFlow e Spark MLLib.
InfluxDb: como monitorar milhares de dados por segundo em real time Umbler
Slides da Palestra apresentada na Trilha Banco de Dados do The Developers Conference 2016 - São Paulo.
A palestra aborda os principais conceitos sobre Time series database (TSDB), e demonstra como utilizar a stack TICK (Telegraf, InfluxDb, Conograph, Kapacitor) da InfluxData para resolver problemas de monitoria de dados em grande escala, gerando gráficos e alertas em tempo real.
O documento discute bancos de dados de séries temporais (TSDB), apresentando o InfluxDB como um exemplo de TSDB open source. Ele descreve como escrever e consultar dados no InfluxDB, incluindo funções, agregações e consultas contínuas. Também discute a stack TICK da InfluxData para coleta, armazenamento e análise de dados de séries temporais.
O documento discute bancos de dados de séries temporais e apresenta o InfluxDB como uma opção popular para armazenar e consultar dados de séries temporais. O InfluxDB oferece alta performance para gravação e leitura de dados, consultas simples e agregação de dados. Ele é usado comumente para monitoramento, análise de métricas e detecção de anomalias.
O documento discute o conceito de data warehouse, sua arquitetura e diferenças em relação ao operational data store. Apresenta as abordagens top-down e bottom-up para a construção de um data warehouse e fatores importantes para o sucesso de um projeto de data warehouse.
Internet das coisas - A revolução já começouJose Wilker
O documento discute a Internet das Coisas, definindo-a como objetos equipados com sensores, softwares e conectividade que possuem acesso à internet. Ele explora os aspectos físicos, de conectividade e virtuais envolvidos, com foco nos aspectos virtuais que fornecem inteligência ao sistema, incluindo bancos de dados, serviços de dados e sockets como ZMQ. Apresenta casos de uso e dicas para desenvolvimento de aplicações nessa área.
O documento discute a Internet das Coisas (IoT) e sua revolução. Apresenta o conceito de IoT, seu objetivo de conectar dispositivos para coletar dados e melhorar tomadas de decisão, e seu potencial para transformar indústrias como monitoramento ambiental e infraestrutura. Também aborda aspectos envolvidos como hardware, software e comunicação, além de profissões relacionadas.
TDC SP 2016 - Dos requisitos à implantação em uma palestraRafael Chaves
O palestrante propõe uma abordagem para desenvolvimento de software baseada em modelagem conceitual e geração de código. A abordagem separa entendimento de negócio de decisões arquitetônicas e permite que requisitos sejam testados e documentação gerada automaticamente antes da implementação. A demonstração mostra como a solução conceitual de um sistema de gerenciamento de tarefas é traduzida em código funcional em poucas horas.
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...Eduardo Hahn
O documento discute três práticas relacionadas a arquitetura de dados: DataOps, Data Mesh e Data Fabric. DataOps busca eliminar ineficiências no processo de gerenciamento e entrega de dados. Data Mesh propõe uma arquitetura descentralizada e orientada a domínios para dados. Data Fabric fornece pipelines, serviços e semântica de integração de dados flexíveis. Essas práticas influenciam na construção de arquiteturas de dados modernas ao promover a governança, automação e descentralização dos dados.
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...fabiolagrijo
40º CONGRESSO BRASILEIRO DE PATOLOGIA CLÍNICA
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta para tomada de decisão
Fabíola Azevedo Grijó
Curitiba - PR
21/09/2006
1) O documento descreve Mauricio Purificação, sócio da OxenTI, e sua experiência com Business Intelligence, QlikView e desenvolvimento de soluções.
2) A OxenTI é uma empresa de tecnologia da informação especializada no desenvolvimento de soluções e sistemas de gestão.
3) O documento explica os conceitos e benefícios de Business Intelligence e como o QlikView se diferencia do BI tradicional através de sua abordagem associativa em memória.
TDC - Técnicas e recursos para desenvolvimento web em cenários de grande escalaCleber Dantas
O documento discute técnicas e recursos para desenvolvimento web em grandes escalas, incluindo: (1) otimizações no front-end para melhorar o desempenho; (2) entrega de conteúdo usando CDNs e NGINX para distribuição; e (3) implementação de aplicações em tempo real usando web sockets e long pooling.
Flavio Roberto: Monitorando Serviços e NegóciosZabbix BR
O documento discute como o Zabbix pode ser usado para monitorar serviços e negócios através de: 1) Monitoramento de bancos de dados Oracle e SQL Server, links e recursos; 2) Criação de dashboards e perguntas técnicas e de negócios; 3) Integração com sistemas de ticket para mapear incidentes a causas raiz.
O documento apresenta DynamoDB, um banco de dados NoSQL da Amazon Web Services. Explica que cada chave é distribuída e replicada em vários nós e que buscas sequenciais não são uma boa ideia. Também discute o custo de acordo com a quantidade de leituras e gravações por segundo e apresenta um estudo de caso de um sistema para armazenamento de tweets usando DynamoDB.
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...tdc-globalcode
O documento discute estratégias para modernizar sistemas legados ("sistemas antigos") na empresa Globalcode. Apresenta os desafios de sistemas legados e a estratégia adotada para separar as camadas de front-end e back-end, adotar novas tecnologias e adaptar os sistemas legados para comunicação via API REST. Também discute resultados como padronização, produtos na nuvem, projetos colaborativos e maior reaproveitamento de código.
TDCSP - 2018 - Possibilidades com o REDIS no DelphiMario Guedes
O documento apresenta o Redis, um banco de dados chave-valor orientado a memória. Redis pode ser usado para armazenamento de sessão, cache de dados e mensageria. Ele suporta vários tipos de dados como strings, hashes, listas e conjuntos. No Delphi, a biblioteca DelphiRedisClient facilita o uso do Redis. Exemplos de uso estão disponíveis no GitHub do palestrante.
TDC2017 | São Paulo - Trilha Java EE How we figured out we had a SRE team at ...tdc-globalcode
O documento discute técnicas de troubleshooting, logging e monitoramento de desempenho para sistemas Java, incluindo identificação e mitigação de problemas, configuração de logs, testes de unidade e integração, log management, uso de Java agents como Perf4J e New Relic.
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions
O documento fornece uma introdução abrangente sobre a plataforma de inteligência de negócios open source Pentaho. Em três frases:
1) A plataforma Pentaho é uma solução completa de BI que inclui ferramentas para ETL, análise OLAP, relatórios, dashboards e mineração de dados usando tecnologias como Kettle, Mondrian, Report Designer e Weka.
2) Ela é gratuita, de código aberto, multiplataforma e possui uma grande comunidade global de usuários em diversos set
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreCaio Moreno
O documento fornece uma introdução à inteligência de negócios (BI) utilizando a plataforma de código aberto Pentaho. Em menos de 3 frases, o documento descreve: 1) O que é BI e como pode ser usado para tomar melhores decisões de negócios; 2) A plataforma Pentaho é gratuita e pode ser usada para criar indicadores, relatórios, dashboards e análises para apoiar a tomada de decisões; 3) A comunidade global de usuários do Pentaho contribui para o desenvolvimento e compartilhamento de
O documento apresenta o serviço DocumentDB da Microsoft, um banco de dados NoSQL baseado em documentos hospedado na nuvem. O DocumentDB oferece suporte a transações ACID, foi projetado para a nuvem e utiliza JavaScript para programação e SQL para consultas. Exemplos de uso são demonstrados e referências para documentação e suporte são fornecidas no final.
O documento discute bancos de dados de séries temporais (TSDB), apresentando o InfluxDB como um exemplo de TSDB open source. Ele descreve como escrever e consultar dados no InfluxDB, incluindo funções, agregações e consultas contínuas. Também discute a stack TICK da InfluxData para coleta, armazenamento e análise de dados de séries temporais.
O documento discute bancos de dados de séries temporais e apresenta o InfluxDB como uma opção popular para armazenar e consultar dados de séries temporais. O InfluxDB oferece alta performance para gravação e leitura de dados, consultas simples e agregação de dados. Ele é usado comumente para monitoramento, análise de métricas e detecção de anomalias.
O documento discute o conceito de data warehouse, sua arquitetura e diferenças em relação ao operational data store. Apresenta as abordagens top-down e bottom-up para a construção de um data warehouse e fatores importantes para o sucesso de um projeto de data warehouse.
Internet das coisas - A revolução já começouJose Wilker
O documento discute a Internet das Coisas, definindo-a como objetos equipados com sensores, softwares e conectividade que possuem acesso à internet. Ele explora os aspectos físicos, de conectividade e virtuais envolvidos, com foco nos aspectos virtuais que fornecem inteligência ao sistema, incluindo bancos de dados, serviços de dados e sockets como ZMQ. Apresenta casos de uso e dicas para desenvolvimento de aplicações nessa área.
O documento discute a Internet das Coisas (IoT) e sua revolução. Apresenta o conceito de IoT, seu objetivo de conectar dispositivos para coletar dados e melhorar tomadas de decisão, e seu potencial para transformar indústrias como monitoramento ambiental e infraestrutura. Também aborda aspectos envolvidos como hardware, software e comunicação, além de profissões relacionadas.
TDC SP 2016 - Dos requisitos à implantação em uma palestraRafael Chaves
O palestrante propõe uma abordagem para desenvolvimento de software baseada em modelagem conceitual e geração de código. A abordagem separa entendimento de negócio de decisões arquitetônicas e permite que requisitos sejam testados e documentação gerada automaticamente antes da implementação. A demonstração mostra como a solução conceitual de um sistema de gerenciamento de tarefas é traduzida em código funcional em poucas horas.
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...Eduardo Hahn
O documento discute três práticas relacionadas a arquitetura de dados: DataOps, Data Mesh e Data Fabric. DataOps busca eliminar ineficiências no processo de gerenciamento e entrega de dados. Data Mesh propõe uma arquitetura descentralizada e orientada a domínios para dados. Data Fabric fornece pipelines, serviços e semântica de integração de dados flexíveis. Essas práticas influenciam na construção de arquiteturas de dados modernas ao promover a governança, automação e descentralização dos dados.
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...fabiolagrijo
40º CONGRESSO BRASILEIRO DE PATOLOGIA CLÍNICA
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta para tomada de decisão
Fabíola Azevedo Grijó
Curitiba - PR
21/09/2006
1) O documento descreve Mauricio Purificação, sócio da OxenTI, e sua experiência com Business Intelligence, QlikView e desenvolvimento de soluções.
2) A OxenTI é uma empresa de tecnologia da informação especializada no desenvolvimento de soluções e sistemas de gestão.
3) O documento explica os conceitos e benefícios de Business Intelligence e como o QlikView se diferencia do BI tradicional através de sua abordagem associativa em memória.
TDC - Técnicas e recursos para desenvolvimento web em cenários de grande escalaCleber Dantas
O documento discute técnicas e recursos para desenvolvimento web em grandes escalas, incluindo: (1) otimizações no front-end para melhorar o desempenho; (2) entrega de conteúdo usando CDNs e NGINX para distribuição; e (3) implementação de aplicações em tempo real usando web sockets e long pooling.
Flavio Roberto: Monitorando Serviços e NegóciosZabbix BR
O documento discute como o Zabbix pode ser usado para monitorar serviços e negócios através de: 1) Monitoramento de bancos de dados Oracle e SQL Server, links e recursos; 2) Criação de dashboards e perguntas técnicas e de negócios; 3) Integração com sistemas de ticket para mapear incidentes a causas raiz.
O documento apresenta DynamoDB, um banco de dados NoSQL da Amazon Web Services. Explica que cada chave é distribuída e replicada em vários nós e que buscas sequenciais não são uma boa ideia. Também discute o custo de acordo com a quantidade de leituras e gravações por segundo e apresenta um estudo de caso de um sistema para armazenamento de tweets usando DynamoDB.
TDC2017 | Florianopolis - Trilha DevOps How we figured out we had a SRE team ...tdc-globalcode
O documento discute estratégias para modernizar sistemas legados ("sistemas antigos") na empresa Globalcode. Apresenta os desafios de sistemas legados e a estratégia adotada para separar as camadas de front-end e back-end, adotar novas tecnologias e adaptar os sistemas legados para comunicação via API REST. Também discute resultados como padronização, produtos na nuvem, projetos colaborativos e maior reaproveitamento de código.
TDCSP - 2018 - Possibilidades com o REDIS no DelphiMario Guedes
O documento apresenta o Redis, um banco de dados chave-valor orientado a memória. Redis pode ser usado para armazenamento de sessão, cache de dados e mensageria. Ele suporta vários tipos de dados como strings, hashes, listas e conjuntos. No Delphi, a biblioteca DelphiRedisClient facilita o uso do Redis. Exemplos de uso estão disponíveis no GitHub do palestrante.
TDC2017 | São Paulo - Trilha Java EE How we figured out we had a SRE team at ...tdc-globalcode
O documento discute técnicas de troubleshooting, logging e monitoramento de desempenho para sistemas Java, incluindo identificação e mitigação de problemas, configuração de logs, testes de unidade e integração, log management, uso de Java agents como Perf4J e New Relic.
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreIT4biz IT Solutions
O documento fornece uma introdução abrangente sobre a plataforma de inteligência de negócios open source Pentaho. Em três frases:
1) A plataforma Pentaho é uma solução completa de BI que inclui ferramentas para ETL, análise OLAP, relatórios, dashboards e mineração de dados usando tecnologias como Kettle, Mondrian, Report Designer e Weka.
2) Ela é gratuita, de código aberto, multiplataforma e possui uma grande comunidade global de usuários em diversos set
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto AlegreCaio Moreno
O documento fornece uma introdução à inteligência de negócios (BI) utilizando a plataforma de código aberto Pentaho. Em menos de 3 frases, o documento descreve: 1) O que é BI e como pode ser usado para tomar melhores decisões de negócios; 2) A plataforma Pentaho é gratuita e pode ser usada para criar indicadores, relatórios, dashboards e análises para apoiar a tomada de decisões; 3) A comunidade global de usuários do Pentaho contribui para o desenvolvimento e compartilhamento de
O documento apresenta o serviço DocumentDB da Microsoft, um banco de dados NoSQL baseado em documentos hospedado na nuvem. O DocumentDB oferece suporte a transações ACID, foi projetado para a nuvem e utiliza JavaScript para programação e SQL para consultas. Exemplos de uso são demonstrados e referências para documentação e suporte são fornecidas no final.
2. Globalcode – Open4education
Apresentando Data Vault 2.0
por SERGIO LIMA
ORACLE DEVELOPER / BI CONSULTANT
Uma metodologia ágil para data
warehouses: vantagens e desafios.
6. Globalcode – Open4education
Agenda
Objetivo e Motivação da Palestra.
Minha experiência com Data Vault.
Data Vault, o que é isso?
Rever conceitos OLTP e OLAP.
Como funciona?
Que problemas o Data Vault resolve?
Desafios.
Perguntas.
12. Globalcode – Open4education
Objetivo e Motivação da Palestra.
Divulgação
Ampliar
escolhas
de
tecnologias
Permitir
Melhorias
em
projetos
Benefício
para
todos
16. Globalcode – Open4education
Blogs, cursos, vídeos
• https://geekbi.wordpress.com/
• Fábio de Salles
• https://danlinstedt.com/
• Dan Linstedt (@dlinstedt)
• https://learndatavault.com/
• Learn Data Vault (free course)
17. Globalcode – Open4education
Blogs, cursos, vídeos
• https://kentgraziano.com/
• Kent Graziano (@KentGraziano)
• https://www.linkedin.com/groups/44926/
• Grupo para discussões sobre Data Vault
• https://www.datavaultacademy.com/
• Curso pago (@DataVault)
18. Globalcode – Open4education
Blogs, cursos, vídeos
• https://geekbi.wordpress.com/
• Curso sobre Data Vault
• Fábio de Salles
• fabio.dsalles@gmail.com
19. Globalcode – Open4education
Blogs, cursos, vídeos
• https://www.youtube.com/watch?v=l5UcUEt1IzM
• What is a Data Vault ? | 3NF vs Dimensional model vs
Data Vault | Quick Starter Guide in 2020
• https://www.youtube.com/channel/UCdhSsZWTwkX1-
v8EX84WLYg/playlists
• A Brief Introduction to Data Vault (série de 7 vídeos)
21. Globalcode – Open4education
Data Vault, o que é isso?
• Data Vault (DV)
• Tecnologia apropriada para armazenar dados
• Adequada para acumular dados.
• Preparada para armazenagem através do tempo.
22. Globalcode – Open4education
Data Vault, o que é isso?
• Compreende:
• Técnicas de modelagem de dados.
• DV tem um novo conceito de modelagem de dados.
• Processos de ETL.
• Construção de um EDW: Enterprise Data Warehouse.
• Tem sua própria metodologia.
• Repositório centralizado de diversas fontes de dados.
23. Globalcode – Open4education
Data Vault, o que é isso?
• Concebido e desenvolvido por Dan Linstedt
• 1990: criação.
• 2000: liberado como uma metodologia de modelagem de
domínio público.
• 2013: lançado Data Vault 2.0. Melhorias para Big Data e NoSQL.
Integrações para dados não estruturados e semiestruturados.
24. Globalcode – Open4education
Data Vault, o que é isso?
• Segundo o próprio Dan Linstedt
Tabelas normalizadas.
Suporte a áreas de negócio da empresa.
Flexível, escalável, consistente e adaptável.
Abordagem híbrida entre 3a. Forma Normal e Star Schema.
(http://en.wikipedia.org/wiki/Data_Vault_Modeling)
26. Globalcode – Open4education
Sistemas OLTP
• OLTP (Online Transaction Processing)
• Processamento de Transações em Tempo Real.
• Chamados Sistemas Transacionais.
• Registram dados de operações de empresas.
• Exemplo:
• Transações bancárias
• Lojas de Roupas, Calçados, Restaurantes, …
27. Globalcode – Open4education
Sistemas OLTP
• Características
• Método de armazenamento de dados:
• Registro rápido de dados (fast writes)
• Modelagem das estruturas de dados:
• 3a. Forma Normal (Abordagem entidade-relacionamento)
• Estruturas normalizadas
• Exige junção de tabelas (multiple joins)
34. Globalcode – Open4education
Sistemas OLAP
• OLAP (On-line Analytical Processing)
• Processamento Analítico Online.
• É uma interface com o usuário.
• Não armazena, trabalha junto com DW (data warehouse)
• OLAP se utiliza do armazenamento de dados:
• Pode apresentar informações para análise.
35. Globalcode – Open4education
Sistemas OLAP
• OLAP (On-line Analytical Processing)
• São sistemas para tomada de decisão
• Direcionados para direção, gerência da empresa
• OLAP apresenta dados armazenados num DW
• Exemplos:
• Relatórios com totais resumidos, agrupados.
• Gráficos mostrando resultados por períodos.
• Dashboards (painéis).
36. Globalcode – Open4education
Sistemas OLAP
• Características
• Método de armazenamento de dados:
• Leitura rápida de dados (fast reads)
• Modelagem das estruturas de dados:
• Star Schema (Abordagem dimensional)
• Estruturas desnormalizadas
• Exige pouca junção de tabelas
44. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
45. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
ETL
(Extract,
Transform,
Load)
46. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
ETL
(Extract,
Transform,
Load)
Precisamos de duas camadas de ETL.
1 = entrada de dados para o DV
2 = saida de dados do DV
O 1o. ETL pode ser automatizado.
47. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
EDW
ETL
(Extract,
Transform,
Load)
Data Vault
48. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
EDW
ETL
(Extract,
Transform,
Load)
Data Vault
Ideia fundamental:
• Disponibilizar um repositório
central de dados.
• Facilmente incluir ou remover
fontes de dados.
• Cada projeto de BI ou Data
Marts, explora os dados que
precisa do EDW (Enterprise
Data Warehouse).
49. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
EDW
ETL
(Extract,
Transform,
Load)
Data Vault
50. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
EDW
ETL
(Extract,
Transform,
Load)
Data Vault
Modelagem :
• DV tem três componentes
básicos:
• Hub (Tabelas em Azul)
• Link (Tabelas em
vermelho)
• Satellite (Tabelas em
Amarelo)
51. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
EDW
ETL
(Extract,
Transform,
Load)
Data Vault
ETL
(Extract,
Transform,
Load)
Esta é a 2a. camada
de ETL.
Origem = DV.
Destino = Data Marts.
Não permite
automatização, mas
a origem
está mais uniforme.
52. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
EDW
ETL
(Extract,
Transform,
Load)
Data Vault
ETL
(Extract,
Transform,
Load)
Data Marts
Data Marts, origem dos dados:
• Dimensões = Hubs e
Satellites.
• Fatos = Links
53. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
EDW
ETL
(Extract,
Transform,
Load)
Data Vault
ETL
(Extract,
Transform,
Load)
Data Marts
54. Globalcode – Open4education
Data Vault
venda
venda_i
tem
cliente
funcion
ario
loja
produto
Caixa supermercado
Outros sistemas
Diversas fontes de dados
EDW
ETL
(Extract,
Transform,
Load)
Data Vault
ETL
(Extract,
Transform,
Load)
Data Marts
Outros
serviços
56. Globalcode – Open4education
Como funciona?
• Modelagem (Três elementos fundamentais)
• Tabelas
• Hub: Armazena chaves de negócio.
57. Globalcode – Open4education
Como funciona?
• Modelagem (Três elementos fundamentais)
• Tabelas
• Hub: Armazena chaves de negócio.
• Link: Relaciona Hubs.
58. Globalcode – Open4education
Como funciona?
• Modelagem (Três elementos fundamentais)
• Tabelas
• Hub: Armazena chaves de negócio;
• Link: Relaciona Hubs;
• Satellite (Sat): Armazena descrições;
• Atributos que dão contexto ao negócio;
• Como se fossem as dimensões do Star Schema.
59. Globalcode – Open4education
Como funciona?
• Modelagem (Três elementos fundamentais)
• Hub: Armazena chaves de negócio.
• Colunas:
1. Business Key: chave primária;
2. Load Date/Timestamp: data e hora da inserção do registro;
3. Record Source: fonte da chave de negócios;
4. Source business key: chave de negócio no sistema de origem.
61. Globalcode – Open4education
Como funciona?
• Modelagem (Três elementos fundamentais)
• Link: Relaciona Hubs.
• Colunas:
1. Link Key: chave primária;
2. Load Date/Timestamp: data e hora da inserção do registro;
3. BK1: business key do hub 1;
4. BK2: business key do hub 2;
5. BKn: business key do hub n.
63. Globalcode – Open4education
Como funciona?
• Modelagem (Três elementos fundamentais)
• Satellite (Sat): Armazena descrições;
• Colunas:
1. Business Key/Link key: chave primária do hub/link;
2. Load Date/Timestamp: data e hora da inserção do registro;
3. Record Source: fonte dos atributos;
4. A1: atributo 1;
5. An: atributo n.
67. Globalcode – Open4education
Que problemas resolve?
• Modelos de dados podem ser criados de acordo
com os requisitos de uma organização.
• Modelo Ágil:
• Podem ser fracionados entre uma Sprint e outra;
• Implementação não impacta em soluções existentes;
• Ganho em flexibilidade e escalabilidade para o projeto.
70. Globalcode – Open4education
Que problemas resolve?
• Data Vault tem um forte foco no rastreamento
histórico de dados.
• Modelos de dados auditáveis com facilidade e
eficiência.
• LGPD: regulamentos de segurança de dados em vigor
para proteger os dados das pessoas.
• Suporte à conformidade com os requisitos.
71. Globalcode – Open4education
Que problemas resolve?
LGPD: Cliente
reclama que em
determinada data,
recebeu
propaganda da
empresa, mas
não havia dado
permissão em seu
cadastro, naquela
época.
72. Globalcode – Open4education
Que problemas resolve?
• Em resumo, principais benefícios
• Flexibilidade
• Escalabilidade
• Eficiência
• Auditabilidade
78. Globalcode – Open4education
Quem usa Data Vault?
Banco Semear
https://www.bancosemear.com.br/
DoD – Department of Defense
https://datavaultalliance.com/success-
stories/department-of-defense/
79. Globalcode – Open4education
Quem usa Data Vault?
JP Morgan Chase (Instituição Financeira)
https://www.jpmorganchase.com/
https://datavaultalliance.com/success-stories/jp-
morgan-chase/
FinWise Bank
https://datavaultalliance.com/success-stories/finwise-
bank/
80. Globalcode – Open4education
Quem usa Data Vault?
Lockheed Martin (fabricante de produtos
aeroespaciais)
https://www.lockheedmartin.com/
https://datavaultalliance.com/tag/lockheed-martin/
81. Globalcode – Open4education
Quem usa Data Vault?
Cendant Timeshare Resource Group
https://www.canceletimeshare.com.br
https://datavaultalliance.com/tag/cendant-timeshare-
resource-group/
QSuper Australia (App para smartphones)
https://qsuper.qld.gov.au/
https://datavaultalliance.com/success-stories/qsuper-
australia/
82. Globalcode – Open4education
Quem usa Data Vault?
Talisman Energy Canada (Petróleo e Gás – Canadá)
https://www.repsol.com/en/repsol-worldwide/the-
americas/canada/index.cshtml
https://datavaultalliance.com/success-stories/talisman-
energy/