Arquitetando Data Lake
Multicloud
Luiz Henrique Garetti – Big Data Architect
@Itau-unibanco
@DataTuning
Explore
your PASS
community
Free online
webinar events
Connect with the
global data community
Local user groups
around the world
Online special
interest user groups
Learning on-demand
and delivered to you
Get involved
Own your career with interactive learning built
by community and guided by data experts.
Get involved. Get ahead.
.org
Missed PASS Summit 2019?
Get the Recordings
Download all PASS Summit sessions
on Data Management, Analytics, or
Architecture for only $399 USD
More options available at
PASSstuff.com
We are thrilled to say the first ever PASS Virtual Summit will be taking place this November!
We will be launching PASS Summit into a whole new world, and with that comes exciting opportunities
with what we can offer you. We will go beyond simply moving sessions online to fully embracing
everything a virtual environment can offer.
Find out more at PASS.org/summit
Thank you to
our Global
Sponsors and
Supporters
This event was sponsored by Microsoft
Learn more about SQL Server 2019 today:
-Get free training: aka.ms/sqlworkshops
-Download the SQL19 eBook: aka.ms/sql19_ebook
“Porque dar importância aos
dados ?!”
Mas com tantas fontes de dados, como vamos acessá-los ?
“Data Lake, fonte do Big Data”
Nem tudo é por grana… Big Data também ajuda em Saúde, Educação
Data Lake
É um repositório centralizado que permite armazenar dados estruturados e não estruturados em qualquer
escala.
Data Lake
2010, O fundador do Pentaho, James Dixon, surgiu com o termo “Data Lake”...
Como uma alternativa ao DW / Data Marts...
O fluxo de dados do Data Lake, vem de n fontes e formatos diferentes, onde vários usuários
podem vir “Examinar”, “Mergulhar” e “Coletar” dados para suas análise.
DW x Lake
No DW
É um “grande banco de dados” estruturado. Ou seja, os dados precisam ser “formatados” durante o processo
de carga (ETL).
Isso implica em:
• Existência prévia do schema (tabelas pré-definidas);
• Atendem a necessidades especificas;
• A mudança de estruturas impacta sistemas consumidores;
No Lake
Nao é necessário ter schemas pré-definidos;
Podemos armazenar qualquer tipo de arquivo;
Cada consumidor, consome da forma que precisa (Tempestividade, tratamento);
Arquitetando um Lake
• Captura dos Dados
• Como vamos capturar os dados das N fontes existentes? Quais, como, quando...
• LGPD*
• Processamento dos Dados
• Uma vez o dados no Data Lake, precisamos processar ?
• Consumo dos dados
• Por onde será o consumo, Batch, Streaming ?
• LGPD*
Governança de Dados
Pipeline de Dados
Poque precisamos
de Streaming de
Dados?
https://mapr.com/ebooks/streaming-architecture/chapter-01-why-event-streaming.html
Alguns insights são mais valiosos logo após a ocorrência.
Zones
Exemplo – Arquitetura OnPremise
Exemplo – Arquitetura Azure
Exemplo – Arquitetura AWS
Data Lake
MultiCloud
Multicloud....
Multicloud… quando essa abordagem se faz
necessária?
• Consumo de dados em multi-regiões / latência de acessos?
• Lockin?
• Estratégia de DR entre Cloud ?
• Estratégia comercial ?
• Necessidade sistêmica / técnica (aproveitar o melhor de cada cloud provider)
• TI querendo aplicar aprendizados da Udemy*
Arquitetando um Lake, Agora multicloud
• Captura dos Dados
• Como vamos capturar os dados das N fontes existentes? Quais, como, quando...
• LGPD*
• Processamento dos Dados
• Uma vez o dados no Data Lake, precisamos processar ?
• Consumo dos dados
• Por onde será o consumo, Batch, Streaming ?
• LGPD*
Governança de Dados
+ Estratégia de dados
+ Data out
+ Gravidade dos dados
+ Virtualização de dados
Virtualização de Dados
É qualquer abordagem que permite que um aplicativo acesse os dados sem
exigir detalhes técnicos, localização fisica e tecnologia, podendo fornecer um
único canal de acesso ao dado.
Data Lake A
Areas de Dados B
Areas de Dados C
Captura de Dados
Pipeline (Flow)
Estratégia de consumo
Data out
Gravidade dos Dados
Lake Consumo
Batch...Streaming
Data Lake A
Areas de Dados B
Areas de Dados C
DATA
CONSUMER
DATA VIRTUALIZATION
DATA
VIRTUALIZATION
Captura de Dados
Pipeline (Flow)
Gravidade/Atração dos Dados
O centro de gravidade dos dados está pendendo para a nuvem. Mas o que isso realmente
significa? E o mais importante: o que isso significa para você e para mim?
https://www.tableau.com/pt-br/about/blog/2017/3/what-data-gravity-anyway-67725
Gravidade dos Dados
OnPremis
e
Cloud
Data out
Aplicações Geradoras e
Consumidoras de Dados
Como Resolver?
Mudando a Gravidade dos Dados
E como mudamos a Gravidade dos Dados?
Gerando e consumindo dados na Cloud
(Modernização das Apps)
Captura
Processar
Consumo?
Data
Lake
Luiz Henrique Garetti
@luizhrosario www.dataisbig.com@luizhenriquegaretti
luizh.rosario@live.com
https://github.com/luizhgaretti
Arquitetando Data Lake Multicloud

SQL SAT Salvador - Arquitetando Data Lake Multicloud

  • 1.
    Arquitetando Data Lake Multicloud LuizHenrique Garetti – Big Data Architect @Itau-unibanco @DataTuning
  • 2.
    Explore your PASS community Free online webinarevents Connect with the global data community Local user groups around the world Online special interest user groups Learning on-demand and delivered to you Get involved Own your career with interactive learning built by community and guided by data experts. Get involved. Get ahead. .org
  • 3.
    Missed PASS Summit2019? Get the Recordings Download all PASS Summit sessions on Data Management, Analytics, or Architecture for only $399 USD More options available at PASSstuff.com
  • 4.
    We are thrilledto say the first ever PASS Virtual Summit will be taking place this November! We will be launching PASS Summit into a whole new world, and with that comes exciting opportunities with what we can offer you. We will go beyond simply moving sessions online to fully embracing everything a virtual environment can offer. Find out more at PASS.org/summit
  • 5.
    Thank you to ourGlobal Sponsors and Supporters
  • 6.
    This event wassponsored by Microsoft Learn more about SQL Server 2019 today: -Get free training: aka.ms/sqlworkshops -Download the SQL19 eBook: aka.ms/sql19_ebook
  • 7.
  • 8.
    Mas com tantasfontes de dados, como vamos acessá-los ? “Data Lake, fonte do Big Data” Nem tudo é por grana… Big Data também ajuda em Saúde, Educação
  • 9.
    Data Lake É umrepositório centralizado que permite armazenar dados estruturados e não estruturados em qualquer escala.
  • 10.
    Data Lake 2010, Ofundador do Pentaho, James Dixon, surgiu com o termo “Data Lake”... Como uma alternativa ao DW / Data Marts... O fluxo de dados do Data Lake, vem de n fontes e formatos diferentes, onde vários usuários podem vir “Examinar”, “Mergulhar” e “Coletar” dados para suas análise.
  • 11.
    DW x Lake NoDW É um “grande banco de dados” estruturado. Ou seja, os dados precisam ser “formatados” durante o processo de carga (ETL). Isso implica em: • Existência prévia do schema (tabelas pré-definidas); • Atendem a necessidades especificas; • A mudança de estruturas impacta sistemas consumidores; No Lake Nao é necessário ter schemas pré-definidos; Podemos armazenar qualquer tipo de arquivo; Cada consumidor, consome da forma que precisa (Tempestividade, tratamento);
  • 12.
    Arquitetando um Lake •Captura dos Dados • Como vamos capturar os dados das N fontes existentes? Quais, como, quando... • LGPD* • Processamento dos Dados • Uma vez o dados no Data Lake, precisamos processar ? • Consumo dos dados • Por onde será o consumo, Batch, Streaming ? • LGPD* Governança de Dados
  • 13.
  • 14.
    Poque precisamos de Streamingde Dados? https://mapr.com/ebooks/streaming-architecture/chapter-01-why-event-streaming.html Alguns insights são mais valiosos logo após a ocorrência.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
    Multicloud… quando essaabordagem se faz necessária? • Consumo de dados em multi-regiões / latência de acessos? • Lockin? • Estratégia de DR entre Cloud ? • Estratégia comercial ? • Necessidade sistêmica / técnica (aproveitar o melhor de cada cloud provider) • TI querendo aplicar aprendizados da Udemy*
  • 23.
    Arquitetando um Lake,Agora multicloud • Captura dos Dados • Como vamos capturar os dados das N fontes existentes? Quais, como, quando... • LGPD* • Processamento dos Dados • Uma vez o dados no Data Lake, precisamos processar ? • Consumo dos dados • Por onde será o consumo, Batch, Streaming ? • LGPD* Governança de Dados + Estratégia de dados + Data out + Gravidade dos dados + Virtualização de dados
  • 24.
    Virtualização de Dados Équalquer abordagem que permite que um aplicativo acesse os dados sem exigir detalhes técnicos, localização fisica e tecnologia, podendo fornecer um único canal de acesso ao dado.
  • 25.
    Data Lake A Areasde Dados B Areas de Dados C Captura de Dados Pipeline (Flow) Estratégia de consumo Data out Gravidade dos Dados Lake Consumo Batch...Streaming
  • 26.
    Data Lake A Areasde Dados B Areas de Dados C DATA CONSUMER DATA VIRTUALIZATION DATA VIRTUALIZATION Captura de Dados Pipeline (Flow)
  • 27.
    Gravidade/Atração dos Dados Ocentro de gravidade dos dados está pendendo para a nuvem. Mas o que isso realmente significa? E o mais importante: o que isso significa para você e para mim? https://www.tableau.com/pt-br/about/blog/2017/3/what-data-gravity-anyway-67725
  • 28.
    Gravidade dos Dados OnPremis e Cloud Dataout Aplicações Geradoras e Consumidoras de Dados Como Resolver? Mudando a Gravidade dos Dados E como mudamos a Gravidade dos Dados? Gerando e consumindo dados na Cloud (Modernização das Apps) Captura Processar Consumo? Data Lake
  • 29.
    Luiz Henrique Garetti @luizhrosariowww.dataisbig.com@luizhenriquegaretti luizh.rosario@live.com https://github.com/luizhgaretti Arquitetando Data Lake Multicloud

Notas do Editor

  • #12 As duas abordagens são verdadeiras e atendem tipos de problemas diferentes, muitas vezes, os dois são necessários na empresa. Um não mata o outro.. E também a existente de um, não depende da existencia do outro.