SQL SAT Salvador - Arquitetando Data Lake Multicloud

Arquitetando Data Lake
Multicloud
Luiz Henrique Garetti – Big Data Architect
@Itau-unibanco
@DataTuning

Explore
your PASS
community
Free online
webinar events
Connect with the
global data community
Local user groups
around the world
Online special
interest user groups
Learning on-demand
and delivered to you
Get involved
Own your career with interactive learning built
by community and guided by data experts.
Get involved. Get ahead.
.org

Missed PASS Summit 2019?
Get the Recordings
Download all PASS Summit sessions
on Data Management, Analytics, or
Architecture for only $399 USD
More options available at
PASSstuff.com

We are thrilled to say the first ever PASS Virtual Summit will be taking place this November!
We will be launching PASS Summit into a whole new world, and with that comes exciting opportunities
with what we can offer you. We will go beyond simply moving sessions online to fully embracing
everything a virtual environment can offer.
Find out more at PASS.org/summit

Thank you to
our Global
Sponsors and
Supporters

This event was sponsored by Microsoft
Learn more about SQL Server 2019 today:
-Get free training: aka.ms/sqlworkshops
-Download the SQL19 eBook: aka.ms/sql19_ebook

“Porque dar importância aos
dados ?!”

Mas com tantas fontes de dados, como vamos acessá-los ?
“Data Lake, fonte do Big Data”
Nem tudo é por grana… Big Data também ajuda em Saúde, Educação

Data Lake
É um repositório centralizado que permite armazenar dados estruturados e não estruturados em qualquer
escala.

Data Lake
2010, O fundador do Pentaho, James Dixon, surgiu com o termo “Data Lake”...
Como uma alternativa ao DW / Data Marts...
O fluxo de dados do Data Lake, vem de n fontes e formatos diferentes, onde vários usuários
podem vir “Examinar”, “Mergulhar” e “Coletar” dados para suas análise.

DW x Lake
No DW
É um “grande banco de dados” estruturado. Ou seja, os dados precisam ser “formatados” durante o processo
de carga (ETL).
Isso implica em:
• Existência prévia do schema (tabelas pré-definidas);
• Atendem a necessidades especificas;
• A mudança de estruturas impacta sistemas consumidores;
No Lake
Nao é necessário ter schemas pré-definidos;
Podemos armazenar qualquer tipo de arquivo;
Cada consumidor, consome da forma que precisa (Tempestividade, tratamento);

Arquitetando um Lake
• Captura dos Dados
• Como vamos capturar os dados das N fontes existentes? Quais, como, quando...
• LGPD*
• Processamento dos Dados
• Uma vez o dados no Data Lake, precisamos processar ?
• Consumo dos dados
• Por onde será o consumo, Batch, Streaming ?
• LGPD*
Governança de Dados

Poque precisamos
de Streaming de
Dados?
https://mapr.com/ebooks/streaming-architecture/chapter-01-why-event-streaming.html
Alguns insights são mais valiosos logo após a ocorrência.

Exemplo – Arquitetura OnPremise

Multicloud… quando essa abordagem se faz
necessária?
• Consumo de dados em multi-regiões / latência de acessos?
• Lockin?
• Estratégia de DR entre Cloud ?
• Estratégia comercial ?
• Necessidade sistêmica / técnica (aproveitar o melhor de cada cloud provider)
• TI querendo aplicar aprendizados da Udemy*

Arquitetando um Lake, Agora multicloud
• Captura dos Dados
• Como vamos capturar os dados das N fontes existentes? Quais, como, quando...
• LGPD*
• Processamento dos Dados
• Uma vez o dados no Data Lake, precisamos processar ?
• Consumo dos dados
• Por onde será o consumo, Batch, Streaming ?
• LGPD*
Governança de Dados
+ Estratégia de dados
+ Data out
+ Gravidade dos dados
+ Virtualização de dados

Virtualização de Dados
É qualquer abordagem que permite que um aplicativo acesse os dados sem
exigir detalhes técnicos, localização fisica e tecnologia, podendo fornecer um
único canal de acesso ao dado.

Data Lake A
Areas de Dados B
Areas de Dados C
Captura de Dados
Pipeline (Flow)
Estratégia de consumo
Data out
Gravidade dos Dados
Lake Consumo
Batch...Streaming

Data Lake A
Areas de Dados B
Areas de Dados C
DATA
CONSUMER
DATA VIRTUALIZATION
DATA
VIRTUALIZATION
Captura de Dados
Pipeline (Flow)

Gravidade/Atração dos Dados
O centro de gravidade dos dados está pendendo para a nuvem. Mas o que isso realmente
significa? E o mais importante: o que isso significa para você e para mim?
https://www.tableau.com/pt-br/about/blog/2017/3/what-data-gravity-anyway-67725

Gravidade dos Dados
OnPremis
e
Cloud
Data out
Aplicações Geradoras e
Consumidoras de Dados
Como Resolver?
Mudando a Gravidade dos Dados
E como mudamos a Gravidade dos Dados?
Gerando e consumindo dados na Cloud
(Modernização das Apps)
Captura
Processar
Consumo?
Data
Lake

Luiz Henrique Garetti
@luizhrosario www.dataisbig.com@luizhenriquegaretti
luizh.rosario@live.com
https://github.com/luizhgaretti
Arquitetando Data Lake Multicloud

SQL SAT Salvador - Arquitetando Data Lake Multicloud

Mais conteúdo relacionado

Mais procurados

Semelhante a SQL SAT Salvador - Arquitetando Data Lake Multicloud

Mais de Luiz Henrique Garetti Rosário

SQL SAT Salvador - Arquitetando Data Lake Multicloud

Notas do Editor