2. Tempo Real Batch
DATA LAKE
Zona 2
Dados de trabalho
para Advanced Analytics
Zona 3
Dados de informação estruturada,
com base em domínios de negócio
Zona 1
Dados RAW
LANDING
Zona 4
Dados semi e não-estruturados
Dados Estruturados
Dados
Semi-Estruturados
Dados
Não-Estruturados
Processamento Batch
Fluxo de Dados em
Batch
Processamento de
Eventos
Fluxo de Dados em
Tempo Real
Dados Refined
Visões de
Negócio
Data
Marts
DWH
Dados Trusted
Dados
Transformados
Dados de
Referência
Dados
Limpos
Exploração/
Transformação
(Sandboxes)
NoSQL store
(chave/valor, grafos, etc.)
Metadados
Classificação, linhagem, acessos, regras de negócio, relacionamentos entre dados
Inputs
para
Modelos
O Data Lake deverá ser
organizado em
diferentes zonas, de
acordo com tipos de
dados e finalidade,
facilitando governança e
localização dos mesmos
para uso pela Natura
Essa estrutura permitirá
à Natura que seus dados
sirvam todas as
operações.
O Data Lake deve ser estruturado em zonas de acordo com os requisitos de usabilidade, segurança,
performance e qualidade de dados
3. Cada seção do Data Lake orienta o armazenamento dos dados, facilitando o gerenciamento e
consumo dos mesmos
Área
Landing
Zona 1 - Raw
Zona 3 - Trusted
Zona 3 - Refined
Zona 2 - Advanced
Analytics
Zona 4 - Semi e não-
estruturados
Descrição
Zona transiente que recebe/requisita dados de sistemas ou APIs de origem
como ponto único de entrada do Data Lake.
Zona comum de persistência de todo o dado na sua forma original em que foi
recebido.
Dados para fins corporativos, em que processos de qualidade de dados e
padronização de formatos já foram aplicados.
Área em que armazena dados manipulados e enriquecidos, criados e
transformados com orientação a casos de usos e otimizada para consumo
Zona de descoberta de dados, para fins exploratórios e de teste e
desenvolvimento de modelos analíticos
Área utilizada para armazenamento de objetos que não seguem a tradicional
estrutura relacional, normalmente demandando tecnologia noSQL para
processamento e consumo
Exemplos
Dados incrementais de vendas, atualizações de
chamados do call center
Tabelas contend todas as transações de
vendas, todos os chamados do call center até o
presente momento
Tabelas de negócio transacionais e de
referência, com nomenclatura amigável
DW, DataMarts por assunto, bibliotecas de
variáveis já usadas em modelos
Criação de novas variáveis, criação de modelos,
sandboxes
Documentos, textos, informações orientadas a
grafos
Metadados Área contendo informações necessárias para funções de operação e suporte
da governança de dados no ambiente do data lake
Tabelas contendo catálogo de dados,
taxonomias, linhagem, acesso e retenção
8. On-Premises
Azure SQL DW
Express Route
Site-to-Site VPN
CSV, TXT
Excel
Databases
SQL Data Warehouse
Power BI
AD
3rd Party
Tools
Data Catalog
Analysis Services
(BI Semantic Model)
HDInsight &
Databricks| Data Lake
Analytics
OData
Data Lake
Store
Polybase
Usuário
Machine
Learning
Event Hubs Stream Analytics
Site
Navigation
9.
10. Streaming
Cloud Apps
Compute Engine
Streaming
Batch
Push to Devices
App Engine
Rules Engine
Cloud Dataflow Data Analysis
Cloud Datalab
Mobile Devices
Push Notifications
Report &
Share
Business Analysis
Cloud Apps
Compute
Engine
On-Premises
Databases
On-Premises
Applications
Processed Events
Cloud Bigtable
Events Time Series
Data
Warehouse
BigQuery
Execution Results
Streaming
Cloud Pub/Sub
Transactions
Processing
Cloud Dataflow
Transaction Streams
Messaging
Cloud Pub/Sub
Rules Actions
ETL
Cloud Dataflow
Transform Data
Cloud Data
Cloud Storage
Rules Engine
Cloud Dataproc