Meetup - Data Lake

Data Lake
Meetup SQL Norte + FCamara São Paulo,06/02/2020
Luiz Henrique Garetti

Data Lake é
Uma prática de arquitetura implementada sob uma infraestrutura robusta que tem como objetivo suportar
o armazenamento e processaamento de grandes volumes de dados.
Centralizando o acesso e disponibilizando os dados para processamento, análise, consumo e distribuição
(democratizando) das informações para outros sistemas

Data Lake
• Arquitetura robusta para armazenamento e processamento de grandes volumes de dados;
• Ingestão de dados em diversas estruturas (Estruturados e não estruturados);
• Arquitetura com poder de escalabilidade (scale-out / scale-in) em processamento e armazenamento;
• Acesso a dados fundamentais para Data Science, Analytics, BI, etc;
• Democratização da informação/dados;
• Ponto unico (Data Hub) para consumo de dados;
• Arquitetura de referência para integração entre sistemas.
Habilita:

DW x Data Lake
No DW
É um “grande banco de dados” estruturado. Ou seja, os dados precisam ser “formatados” durante o processo
de carga (ETL).
Isso implica em:
• Existência prévia do schema (tabelas pré-definidas);
• Atendem a necessidades especificas;
• A mudança de estruturas impacta sistemas consumidores;
No Lake
Nao é necessário ter schemas pré-definidos;
Podemos armazenar qualquer tipo de arquivo;
Cada consumidor, consome da forma que precisa (Tempestividade, tratamento);

Porque e quando o Data Lake
(não) faz sentido

Pipeline de Dados
1) Captura dados dos sistemas (dados brutos);
2) Processa os dados (aplicando regras);
3) Distribuí / Consome os dados;
4) Resultado é capturado e ciclo é iniciado
novamente.

E.... Se nosso ambiente for MultiCloud?
Data Lake MultiCloud ?

Add
Data Gravity (Gravidade dos Dados)
Virtualização e Federação de Dados

Virtualização de Dados é
É qualquer abordagem que permite que um aplicativo acesse os dados sem exigir detalhes técnicos,
localização fisica e tecnologia, podendo fornecer um único canal de acesso ao dado.
Interface que fornece um único ponto de acesso aos dados oculta seus detalhes de
armazenamento distribuído e heterogêneo

Imagine
Um ambiente com vários sistemas, sendo estruturas de dados diferentes (SQL, NoSQL)
alocados em plataformas distintas (On-Premise, Azure, AWS, GCP, Alibabá)
Agora Imagine
A integração entre o produto A (SQL-Azure) que tem dados de pedido com o produto B
(MongoDB-Atlas) que tem dados de geolocalização dos clientes.
Alguns processos do Hadoop (on-Premise) também precisam desses dados como
premissa para alguns processos.
Como poderíamos resolver isso?
Movimentar (duplicar)
dados para uma stage
Criar um linked
server (jump server)
Expor uma API
E Os Ciêntistas precisam de todos esses dados para suas analises, ML, etc
Data Lake

Produto A
Produto B
Produto C
DATA SOURCE DATA CONSUMER
• Movimentação de dados
• Duplicação de dados
• Aumento de complexidade para rastreabilidade dos dados (LGPD)
DATA VIRTUALIZATION
DATA
VIRTUALIZATION

Big Data Clusters - Virtualização de Dados
• Virtualização via engine Polybase.
• PushDown – External Table.

Master
Compute
Data
Pool
Data
Pool
Storage
Pool
Storage
Pool
SQL Server
Shared
HDFS
Control Plane
Compute Plane
Data Plane
ComputeCompute
Data
Pool
BDC – Scale-out

Virtualização de Dados
PowerBI
Consumindo Dados
Cadastros de Clientes
(SQL Server)
Feedbacks Redes Sociais
(HDFS)
XML das Notas
Fiscais
Geolocalização
Cidades

Recapitulando...
• Data Lake é pratica de arquitetura para construir uma infra com grande capacidade de armazenamento e
processamento. Que tem o objetivo disponibilizar dados para n fontes e n diversos tipos de consumo
• Principal Diferença entre Data Lake e Data Warehouse?
• O que devemos levar em consideração durante a criação da Arquitetura do Data Lake?
• Pipeline de Dados...
• Tecnologias...
• Conceitos (Gravidade de Dados) / Governança / DDD...
• Big Data Clusters
• Infraestrutura para processamento MPP
• Virtualização de Dados
• Arquitetura de Data Lake
• Hub de Dados

Scripts
https://github.com/luizhgaretti
Slides
http://bit.ly/SlideShare-Garetti
@Luizhgaretti @luizhenriquegaretti luizh.rosario@gmail.com @luizhgaretti
https://dataisbig.com.br/
Luiz Henrique Garetti
Obrigado, flw, vlws
#bigdataclusters
#sqlbigdataclusters

Meetup - Data Lake

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Meetup - Data Lake

Semelhante a Meetup - Data Lake (20)

Mais de Luiz Henrique Garetti Rosário

Mais de Luiz Henrique Garetti Rosário (8)

Meetup - Data Lake

Notas do Editor