SlideShare uma empresa Scribd logo
1 de 11
INTRO
Tempo Real Batch
DATA LAKE
Zona 2
Dados de trabalho
para Advanced Analytics
Zona 3
Dados de informação estruturada,
com base em domínios de negócio
Zona 1
Dados RAW
LANDING
Zona 4
Dados semi e não-estruturados
Dados Estruturados
Dados
Semi-Estruturados
Dados
Não-Estruturados
Processamento Batch
Fluxo de Dados em
Batch
Processamento de
Eventos
Fluxo de Dados em
Tempo Real
Dados Refined
Visões de
Negócio
Data
Marts
DWH
Dados Trusted
Dados
Transformados
Dados de
Referência
Dados
Limpos
Exploração/
Transformação
(Sandboxes)
NoSQL store
(chave/valor, grafos, etc.)
Metadados
Classificação, linhagem, acessos, regras de negócio, relacionamentos entre dados
Inputs
para
Modelos
 O Data Lake deverá ser
organizado em
diferentes zonas, de
acordo com tipos de
dados e finalidade,
facilitando governança e
localização dos mesmos
para uso pela Natura
 Essa estrutura permitirá
à Natura que seus dados
sirvam todas as
operações.
O Data Lake deve ser estruturado em zonas de acordo com os requisitos de usabilidade, segurança,
performance e qualidade de dados
Cada seção do Data Lake orienta o armazenamento dos dados, facilitando o gerenciamento e
consumo dos mesmos
Área
Landing
Zona 1 - Raw
Zona 3 - Trusted
Zona 3 - Refined
Zona 2 - Advanced
Analytics
Zona 4 - Semi e não-
estruturados
Descrição
Zona transiente que recebe/requisita dados de sistemas ou APIs de origem
como ponto único de entrada do Data Lake.
Zona comum de persistência de todo o dado na sua forma original em que foi
recebido.
Dados para fins corporativos, em que processos de qualidade de dados e
padronização de formatos já foram aplicados.
Área em que armazena dados manipulados e enriquecidos, criados e
transformados com orientação a casos de usos e otimizada para consumo
Zona de descoberta de dados, para fins exploratórios e de teste e
desenvolvimento de modelos analíticos
Área utilizada para armazenamento de objetos que não seguem a tradicional
estrutura relacional, normalmente demandando tecnologia noSQL para
processamento e consumo
Exemplos
Dados incrementais de vendas, atualizações de
chamados do call center
Tabelas contend todas as transações de
vendas, todos os chamados do call center até o
presente momento
Tabelas de negócio transacionais e de
referência, com nomenclatura amigável
DW, DataMarts por assunto, bibliotecas de
variáveis já usadas em modelos
Criação de novas variáveis, criação de modelos,
sandboxes
Documentos, textos, informações orientadas a
grafos
Metadados Área contendo informações necessárias para funções de operação e suporte
da governança de dados no ambiente do data lake
Tabelas contendo catálogo de dados,
taxonomias, linhagem, acesso e retenção
Publicação
(Self-service Analytics)
Publicação (Apps)
Armazenamento
Processamento
Captura
Containers
Data
Visualization
Flat Files
Databases
Apps
NiFi
Apache
SQOOP
Object Store
Big Data Cluster
Databases
Flat Files
Origens de Dados
SQL Engine
Governança Apache
Atlas
Ingestão
Data Engine
Orquestração
Apache
Airflow
Publicação
(Self-service Analytics)
Publicação (Apps)
Armazenamento
Processamento
Captura
Containers
Data
Visualization
Flat Files
Databases
Apps
NiFi
Apache
SQOOP
Amazon S3
Amazon EMR
Databases
Flat Files
Origens de Dados
SQL Engine
Governança Apache
Atlas
Ingestão
Data Engine
Orquestração
Apache
Airflow
Publicação
(Self-service Analytics)
Publicação (Apps)
Armazenamento
Processamento
Captura
Containers
Data
Visualization
Flat Files
Databases
Apps
NiFi
Apache
SQOOP
GCP Storage
GCP Dataproc
Databases
Flat Files
Origens de Dados
SQL Engine
Governança Apache
Atlas
Ingestão
Data Engine
Orquestração
Apache
Airflow
Publicação
(Self-service Analytics)
Publicação (Apps)
Armazenamento
Processamento
Captura
Containers
Data
Visualization
Flat Files
Databases
Apps
NiFi
Apache
SQOOP
ADL v2
Databricks / HDI
Databases
Flat Files
Origens de Dados
SQL Engine
Governança Apache
Atlas
Ingestão
Data Engine
Orquestração
Apache
Airflow
On-Premises
Azure SQL DW
Express Route
Site-to-Site VPN
CSV, TXT
Excel
Databases
SQL Data Warehouse
Power BI
AD
3rd Party
Tools
Data Catalog
Analysis Services
(BI Semantic Model)
HDInsight &
Databricks| Data Lake
Analytics
OData
Data Lake
Store
Polybase
Usuário
Machine
Learning
Event Hubs Stream Analytics
Site
Navigation
Streaming
Cloud Apps
Compute Engine
Streaming
Batch
Push to Devices
App Engine
Rules Engine
Cloud Dataflow Data Analysis
Cloud Datalab
Mobile Devices
Push Notifications
Report &
Share
Business Analysis
Cloud Apps
Compute
Engine
On-Premises
Databases
On-Premises
Applications
Processed Events
Cloud Bigtable
Events Time Series
Data
Warehouse
BigQuery
Execution Results
Streaming
Cloud Pub/Sub
Transactions
Processing
Cloud Dataflow
Transaction Streams
Messaging
Cloud Pub/Sub
Rules Actions
ETL
Cloud Dataflow
Transform Data
Cloud Data
Cloud Storage
Rules Engine
Cloud Dataproc
Refs.:
https://github.com/felipemoz/refs/blob/master/README.md
Frameworks:
https://beam.apache.org/
http://lambda-architecture.net/

Mais conteúdo relacionado

Semelhante a Estruturação de Data Lake em zonas

Data warehouse & olap
Data warehouse & olapData warehouse & olap
Data warehouse & olapBrian Supra
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Introdução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de DadosIntrodução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de Dadosinfo_cimol
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosMarcos Pessoa
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data WarehouseJeorgeCarmona
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisãoEcoplas
 
por_detras_dos_relatorios
por_detras_dos_relatoriospor_detras_dos_relatorios
por_detras_dos_relatoriosarthurjosemberg
 
Azure SQL DataWarehouse
Azure SQL DataWarehouseAzure SQL DataWarehouse
Azure SQL DataWarehouseVitor Fava
 
Aula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dadosAula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dadoswapiva
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Apositla sap curso_trainning
Apositla sap curso_trainningApositla sap curso_trainning
Apositla sap curso_trainningJohn Weverton
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 

Semelhante a Estruturação de Data Lake em zonas (20)

Data warehouse & olap
Data warehouse & olapData warehouse & olap
Data warehouse & olap
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Introdução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de DadosIntrodução a modelagem de dados parte II - Banco de Dados
Introdução a modelagem de dados parte II - Banco de Dados
 
DP-900-BR-01.pptx
DP-900-BR-01.pptxDP-900-BR-01.pptx
DP-900-BR-01.pptx
 
Data warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentosData warehousing - Técnicas e procedimentos
Data warehousing - Técnicas e procedimentos
 
Apostila Oracle 10g
Apostila Oracle 10gApostila Oracle 10g
Apostila Oracle 10g
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data Warehouse
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisão
 
por_detras_dos_relatorios
por_detras_dos_relatoriospor_detras_dos_relatorios
por_detras_dos_relatorios
 
Construindo um data lake na nuvem aws
Construindo um data lake na nuvem awsConstruindo um data lake na nuvem aws
Construindo um data lake na nuvem aws
 
Meetup - Data Lake
Meetup - Data LakeMeetup - Data Lake
Meetup - Data Lake
 
Azure SQL DataWarehouse
Azure SQL DataWarehouseAzure SQL DataWarehouse
Azure SQL DataWarehouse
 
Aula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dadosAula tecnologia da informacao 6 banco de dados
Aula tecnologia da informacao 6 banco de dados
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Apositla sap curso_trainning
Apositla sap curso_trainningApositla sap curso_trainning
Apositla sap curso_trainning
 
OLAP
OLAPOLAP
OLAP
 
Conceitos DW
Conceitos DWConceitos DW
Conceitos DW
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 

Estruturação de Data Lake em zonas

  • 2. Tempo Real Batch DATA LAKE Zona 2 Dados de trabalho para Advanced Analytics Zona 3 Dados de informação estruturada, com base em domínios de negócio Zona 1 Dados RAW LANDING Zona 4 Dados semi e não-estruturados Dados Estruturados Dados Semi-Estruturados Dados Não-Estruturados Processamento Batch Fluxo de Dados em Batch Processamento de Eventos Fluxo de Dados em Tempo Real Dados Refined Visões de Negócio Data Marts DWH Dados Trusted Dados Transformados Dados de Referência Dados Limpos Exploração/ Transformação (Sandboxes) NoSQL store (chave/valor, grafos, etc.) Metadados Classificação, linhagem, acessos, regras de negócio, relacionamentos entre dados Inputs para Modelos  O Data Lake deverá ser organizado em diferentes zonas, de acordo com tipos de dados e finalidade, facilitando governança e localização dos mesmos para uso pela Natura  Essa estrutura permitirá à Natura que seus dados sirvam todas as operações. O Data Lake deve ser estruturado em zonas de acordo com os requisitos de usabilidade, segurança, performance e qualidade de dados
  • 3. Cada seção do Data Lake orienta o armazenamento dos dados, facilitando o gerenciamento e consumo dos mesmos Área Landing Zona 1 - Raw Zona 3 - Trusted Zona 3 - Refined Zona 2 - Advanced Analytics Zona 4 - Semi e não- estruturados Descrição Zona transiente que recebe/requisita dados de sistemas ou APIs de origem como ponto único de entrada do Data Lake. Zona comum de persistência de todo o dado na sua forma original em que foi recebido. Dados para fins corporativos, em que processos de qualidade de dados e padronização de formatos já foram aplicados. Área em que armazena dados manipulados e enriquecidos, criados e transformados com orientação a casos de usos e otimizada para consumo Zona de descoberta de dados, para fins exploratórios e de teste e desenvolvimento de modelos analíticos Área utilizada para armazenamento de objetos que não seguem a tradicional estrutura relacional, normalmente demandando tecnologia noSQL para processamento e consumo Exemplos Dados incrementais de vendas, atualizações de chamados do call center Tabelas contend todas as transações de vendas, todos os chamados do call center até o presente momento Tabelas de negócio transacionais e de referência, com nomenclatura amigável DW, DataMarts por assunto, bibliotecas de variáveis já usadas em modelos Criação de novas variáveis, criação de modelos, sandboxes Documentos, textos, informações orientadas a grafos Metadados Área contendo informações necessárias para funções de operação e suporte da governança de dados no ambiente do data lake Tabelas contendo catálogo de dados, taxonomias, linhagem, acesso e retenção
  • 4. Publicação (Self-service Analytics) Publicação (Apps) Armazenamento Processamento Captura Containers Data Visualization Flat Files Databases Apps NiFi Apache SQOOP Object Store Big Data Cluster Databases Flat Files Origens de Dados SQL Engine Governança Apache Atlas Ingestão Data Engine Orquestração Apache Airflow
  • 5. Publicação (Self-service Analytics) Publicação (Apps) Armazenamento Processamento Captura Containers Data Visualization Flat Files Databases Apps NiFi Apache SQOOP Amazon S3 Amazon EMR Databases Flat Files Origens de Dados SQL Engine Governança Apache Atlas Ingestão Data Engine Orquestração Apache Airflow
  • 6. Publicação (Self-service Analytics) Publicação (Apps) Armazenamento Processamento Captura Containers Data Visualization Flat Files Databases Apps NiFi Apache SQOOP GCP Storage GCP Dataproc Databases Flat Files Origens de Dados SQL Engine Governança Apache Atlas Ingestão Data Engine Orquestração Apache Airflow
  • 7. Publicação (Self-service Analytics) Publicação (Apps) Armazenamento Processamento Captura Containers Data Visualization Flat Files Databases Apps NiFi Apache SQOOP ADL v2 Databricks / HDI Databases Flat Files Origens de Dados SQL Engine Governança Apache Atlas Ingestão Data Engine Orquestração Apache Airflow
  • 8. On-Premises Azure SQL DW Express Route Site-to-Site VPN CSV, TXT Excel Databases SQL Data Warehouse Power BI AD 3rd Party Tools Data Catalog Analysis Services (BI Semantic Model) HDInsight & Databricks| Data Lake Analytics OData Data Lake Store Polybase Usuário Machine Learning Event Hubs Stream Analytics Site Navigation
  • 9.
  • 10. Streaming Cloud Apps Compute Engine Streaming Batch Push to Devices App Engine Rules Engine Cloud Dataflow Data Analysis Cloud Datalab Mobile Devices Push Notifications Report & Share Business Analysis Cloud Apps Compute Engine On-Premises Databases On-Premises Applications Processed Events Cloud Bigtable Events Time Series Data Warehouse BigQuery Execution Results Streaming Cloud Pub/Sub Transactions Processing Cloud Dataflow Transaction Streams Messaging Cloud Pub/Sub Rules Actions ETL Cloud Dataflow Transform Data Cloud Data Cloud Storage Rules Engine Cloud Dataproc