SlideShare uma empresa Scribd logo
1 de 29
Arquitetando Data Lake
Multicloud
Luiz Henrique Garetti – Big Data Architect
@Itau-unibanco
@DataTuning
Explore
your PASS
community
Free online
webinar events
Connect with the
global data community
Local user groups
around the world
Online special
interest user groups
Learning on-demand
and delivered to you
Get involved
Own your career with interactive learning built
by community and guided by data experts.
Get involved. Get ahead.
.org
Missed PASS Summit 2019?
Get the Recordings
Download all PASS Summit sessions
on Data Management, Analytics, or
Architecture for only $399 USD
More options available at
PASSstuff.com
We are thrilled to say the first ever PASS Virtual Summit will be taking place this November!
We will be launching PASS Summit into a whole new world, and with that comes exciting opportunities
with what we can offer you. We will go beyond simply moving sessions online to fully embracing
everything a virtual environment can offer.
Find out more at PASS.org/summit
Thank you to
our Global
Sponsors and
Supporters
This event was sponsored by Microsoft
Learn more about SQL Server 2019 today:
-Get free training: aka.ms/sqlworkshops
-Download the SQL19 eBook: aka.ms/sql19_ebook
“Porque dar importância aos
dados ?!”
Mas com tantas fontes de dados, como vamos acessá-los ?
“Data Lake, fonte do Big Data”
Nem tudo é por grana… Big Data também ajuda em Saúde, Educação
Data Lake
É um repositório centralizado que permite armazenar dados estruturados e não estruturados em qualquer
escala.
Data Lake
2010, O fundador do Pentaho, James Dixon, surgiu com o termo “Data Lake”...
Como uma alternativa ao DW / Data Marts...
O fluxo de dados do Data Lake, vem de n fontes e formatos diferentes, onde vários usuários
podem vir “Examinar”, “Mergulhar” e “Coletar” dados para suas análise.
DW x Lake
No DW
É um “grande banco de dados” estruturado. Ou seja, os dados precisam ser “formatados” durante o processo
de carga (ETL).
Isso implica em:
• Existência prévia do schema (tabelas pré-definidas);
• Atendem a necessidades especificas;
• A mudança de estruturas impacta sistemas consumidores;
No Lake
Nao é necessário ter schemas pré-definidos;
Podemos armazenar qualquer tipo de arquivo;
Cada consumidor, consome da forma que precisa (Tempestividade, tratamento);
Arquitetando um Lake
• Captura dos Dados
• Como vamos capturar os dados das N fontes existentes? Quais, como, quando...
• LGPD*
• Processamento dos Dados
• Uma vez o dados no Data Lake, precisamos processar ?
• Consumo dos dados
• Por onde será o consumo, Batch, Streaming ?
• LGPD*
Governança de Dados
Pipeline de Dados
Poque precisamos
de Streaming de
Dados?
https://mapr.com/ebooks/streaming-architecture/chapter-01-why-event-streaming.html
Alguns insights são mais valiosos logo após a ocorrência.
Zones
Exemplo – Arquitetura OnPremise
Exemplo – Arquitetura Azure
Exemplo – Arquitetura AWS
Data Lake
MultiCloud
Multicloud....
Multicloud… quando essa abordagem se faz
necessária?
• Consumo de dados em multi-regiões / latência de acessos?
• Lockin?
• Estratégia de DR entre Cloud ?
• Estratégia comercial ?
• Necessidade sistêmica / técnica (aproveitar o melhor de cada cloud provider)
• TI querendo aplicar aprendizados da Udemy*
Arquitetando um Lake, Agora multicloud
• Captura dos Dados
• Como vamos capturar os dados das N fontes existentes? Quais, como, quando...
• LGPD*
• Processamento dos Dados
• Uma vez o dados no Data Lake, precisamos processar ?
• Consumo dos dados
• Por onde será o consumo, Batch, Streaming ?
• LGPD*
Governança de Dados
+ Estratégia de dados
+ Data out
+ Gravidade dos dados
+ Virtualização de dados
Virtualização de Dados
É qualquer abordagem que permite que um aplicativo acesse os dados sem
exigir detalhes técnicos, localização fisica e tecnologia, podendo fornecer um
único canal de acesso ao dado.
Data Lake A
Areas de Dados B
Areas de Dados C
Captura de Dados
Pipeline (Flow)
Estratégia de consumo
Data out
Gravidade dos Dados
Lake Consumo
Batch...Streaming
Data Lake A
Areas de Dados B
Areas de Dados C
DATA
CONSUMER
DATA VIRTUALIZATION
DATA
VIRTUALIZATION
Captura de Dados
Pipeline (Flow)
Gravidade/Atração dos Dados
O centro de gravidade dos dados está pendendo para a nuvem. Mas o que isso realmente
significa? E o mais importante: o que isso significa para você e para mim?
https://www.tableau.com/pt-br/about/blog/2017/3/what-data-gravity-anyway-67725
Gravidade dos Dados
OnPremis
e
Cloud
Data out
Aplicações Geradoras e
Consumidoras de Dados
Como Resolver?
Mudando a Gravidade dos Dados
E como mudamos a Gravidade dos Dados?
Gerando e consumindo dados na Cloud
(Modernização das Apps)
Captura
Processar
Consumo?
Data
Lake
Luiz Henrique Garetti
@luizhrosario www.dataisbig.com@luizhenriquegaretti
luizh.rosario@live.com
https://github.com/luizhgaretti
Arquitetando Data Lake Multicloud

Mais conteúdo relacionado

Mais procurados

Case Moodle AWS
Case Moodle AWSCase Moodle AWS
Case Moodle AWSionatec
 
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso SalesforceCloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso SalesforceFernando Carvalho
 
Cloudster - Apresentação Comercial
Cloudster - Apresentação ComercialCloudster - Apresentação Comercial
Cloudster - Apresentação ComercialRicardo Zucolotto
 
STB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows AzureSTB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows AzureLuciano Condé
 
STB Tour - Cresça os seus negócios com Windows azure
STB Tour - Cresça os seus negócios com Windows azureSTB Tour - Cresça os seus negócios com Windows azure
STB Tour - Cresça os seus negócios com Windows azureLuciano Condé
 
Azure Fundamentals (Intensivão Azure)
Azure Fundamentals (Intensivão Azure)Azure Fundamentals (Intensivão Azure)
Azure Fundamentals (Intensivão Azure)Resource IT
 
Inove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com KafkaInove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com KafkaTechrom Tecnologia
 
CLOUD - O BackStage Entre Dispositivos e Usuários
CLOUD - O BackStage Entre Dispositivos e UsuáriosCLOUD - O BackStage Entre Dispositivos e Usuários
CLOUD - O BackStage Entre Dispositivos e UsuáriosVitor Meriat
 
Cloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows AzureCloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows AzureLuciano Condé
 
Azure Stack - O poder da nuvem em seu datacenter
Azure Stack - O poder da nuvem em seu datacenterAzure Stack - O poder da nuvem em seu datacenter
Azure Stack - O poder da nuvem em seu datacenterVitor Meriat
 
Power BI e Azure = Analisando dados em tempo real
Power BI e Azure = Analisando dados em tempo realPower BI e Azure = Analisando dados em tempo real
Power BI e Azure = Analisando dados em tempo realDirceu Resende
 
Transição para a nuvem: Desafios e Estratégias
Transição para a nuvem: Desafios e EstratégiasTransição para a nuvem: Desafios e Estratégias
Transição para a nuvem: Desafios e EstratégiasDenodo
 

Mais procurados (20)

Case Moodle AWS
Case Moodle AWSCase Moodle AWS
Case Moodle AWS
 
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso SalesforceCloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
 
Cloudster - Apresentação Comercial
Cloudster - Apresentação ComercialCloudster - Apresentação Comercial
Cloudster - Apresentação Comercial
 
STB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows AzureSTB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows Azure
 
Big data Workshop
Big data WorkshopBig data Workshop
Big data Workshop
 
STB Tour - Cresça os seus negócios com Windows azure
STB Tour - Cresça os seus negócios com Windows azureSTB Tour - Cresça os seus negócios com Windows azure
STB Tour - Cresça os seus negócios com Windows azure
 
Big data
Big dataBig data
Big data
 
Azure Fundamentals (Intensivão Azure)
Azure Fundamentals (Intensivão Azure)Azure Fundamentals (Intensivão Azure)
Azure Fundamentals (Intensivão Azure)
 
Inove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com KafkaInove simplificando a infraestrutura com Kafka
Inove simplificando a infraestrutura com Kafka
 
CLOUD - O BackStage Entre Dispositivos e Usuários
CLOUD - O BackStage Entre Dispositivos e UsuáriosCLOUD - O BackStage Entre Dispositivos e Usuários
CLOUD - O BackStage Entre Dispositivos e Usuários
 
Aws glue
Aws glueAws glue
Aws glue
 
Sybase
SybaseSybase
Sybase
 
Cloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows AzureCloud Day III - Modelos de licenciamento para parceiros com Windows Azure
Cloud Day III - Modelos de licenciamento para parceiros com Windows Azure
 
Azure Stack - O poder da nuvem em seu datacenter
Azure Stack - O poder da nuvem em seu datacenterAzure Stack - O poder da nuvem em seu datacenter
Azure Stack - O poder da nuvem em seu datacenter
 
Power BI e Azure = Analisando dados em tempo real
Power BI e Azure = Analisando dados em tempo realPower BI e Azure = Analisando dados em tempo real
Power BI e Azure = Analisando dados em tempo real
 
Fme e bigdata
Fme e bigdataFme e bigdata
Fme e bigdata
 
Transição para a nuvem: Desafios e Estratégias
Transição para a nuvem: Desafios e EstratégiasTransição para a nuvem: Desafios e Estratégias
Transição para a nuvem: Desafios e Estratégias
 
DynamoDB - Uma Introdução
DynamoDB - Uma IntroduçãoDynamoDB - Uma Introdução
DynamoDB - Uma Introdução
 
Azure Fundamentals
Azure FundamentalsAzure Fundamentals
Azure Fundamentals
 
Windows Azure: PaaS e IaaS
Windows Azure: PaaS e IaaSWindows Azure: PaaS e IaaS
Windows Azure: PaaS e IaaS
 

Semelhante a SQL SAT Salvador - Arquitetando Data Lake Multicloud

Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRCicero Joasyo Mateus de Moura
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dadosEdvaldo Castro
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricDenodo
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...Cicero Joasyo Mateus de Moura
 
Como Evitar que o seu Data Lake vire um Data Swamp
Como Evitar que o seu Data Lake vire um Data SwampComo Evitar que o seu Data Lake vire um Data Swamp
Como Evitar que o seu Data Lake vire um Data SwampThiago Chiarato
 
Data center MCSBRC2010-slides.pdf
Data center MCSBRC2010-slides.pdfData center MCSBRC2010-slides.pdf
Data center MCSBRC2010-slides.pdfssuser1198af
 
O Livro Completo da Engenharia de Dados.pdf
O Livro Completo da Engenharia de Dados.pdfO Livro Completo da Engenharia de Dados.pdf
O Livro Completo da Engenharia de Dados.pdfSergio Tavares Coutinho
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
 
Latinoware 2012 - Desenvolvendo Interfaces com Holy
Latinoware 2012 - Desenvolvendo Interfaces com HolyLatinoware 2012 - Desenvolvendo Interfaces com Holy
Latinoware 2012 - Desenvolvendo Interfaces com HolyDextra
 
Latinoware2012 - Desenvolvendo interfaces WEB com HOLY de forma prática e efi...
Latinoware2012 - Desenvolvendo interfaces WEB com HOLY de forma prática e efi...Latinoware2012 - Desenvolvendo interfaces WEB com HOLY de forma prática e efi...
Latinoware2012 - Desenvolvendo interfaces WEB com HOLY de forma prática e efi...Leandro Guimarães
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...Amazon Web Services LATAM
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 

Semelhante a SQL SAT Salvador - Arquitetando Data Lake Multicloud (20)

Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMRStream de dados e Data Lake com Debezium, Delta Lake e EMR
Stream de dados e Data Lake com Debezium, Delta Lake e EMR
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dados
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
 
Como Evitar que o seu Data Lake vire um Data Swamp
Como Evitar que o seu Data Lake vire um Data SwampComo Evitar que o seu Data Lake vire um Data Swamp
Como Evitar que o seu Data Lake vire um Data Swamp
 
Construindo um data lake na nuvem aws
Construindo um data lake na nuvem awsConstruindo um data lake na nuvem aws
Construindo um data lake na nuvem aws
 
Data center MCSBRC2010-slides.pdf
Data center MCSBRC2010-slides.pdfData center MCSBRC2010-slides.pdf
Data center MCSBRC2010-slides.pdf
 
Computação em Nuvem: conceitos básicos
Computação em Nuvem: conceitos básicosComputação em Nuvem: conceitos básicos
Computação em Nuvem: conceitos básicos
 
O Livro Completo da Engenharia de Dados.pdf
O Livro Completo da Engenharia de Dados.pdfO Livro Completo da Engenharia de Dados.pdf
O Livro Completo da Engenharia de Dados.pdf
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
Construindo um Data Lake na AWS
Construindo um Data Lake na AWSConstruindo um Data Lake na AWS
Construindo um Data Lake na AWS
 
Latinoware 2012 - Desenvolvendo Interfaces com Holy
Latinoware 2012 - Desenvolvendo Interfaces com HolyLatinoware 2012 - Desenvolvendo Interfaces com Holy
Latinoware 2012 - Desenvolvendo Interfaces com Holy
 
Latinoware2012 - Desenvolvendo interfaces WEB com HOLY de forma prática e efi...
Latinoware2012 - Desenvolvendo interfaces WEB com HOLY de forma prática e efi...Latinoware2012 - Desenvolvendo interfaces WEB com HOLY de forma prática e efi...
Latinoware2012 - Desenvolvendo interfaces WEB com HOLY de forma prática e efi...
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 

Mais de Luiz Henrique Garetti Rosário

Mais de Luiz Henrique Garetti Rosário (9)

Imasters - HA e DR como seguro de vida do DBA
Imasters - HA e DR como seguro de vida do DBAImasters - HA e DR como seguro de vida do DBA
Imasters - HA e DR como seguro de vida do DBA
 
Meetup Tivir - Big Data Clusters
Meetup Tivir - Big Data ClustersMeetup Tivir - Big Data Clusters
Meetup Tivir - Big Data Clusters
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 
Sql saturday joinville 2019 sql server 2019 Big Data Clustes
Sql saturday  joinville 2019   sql server 2019 Big Data ClustesSql saturday  joinville 2019   sql server 2019 Big Data Clustes
Sql saturday joinville 2019 sql server 2019 Big Data Clustes
 
Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016
 
High Availability and Disaster Recovery salvando vidas
High Availability and Disaster Recovery salvando vidasHigh Availability and Disaster Recovery salvando vidas
High Availability and Disaster Recovery salvando vidas
 
Otimizando a performance com in memory no sql 2016
Otimizando a performance com in memory no sql 2016Otimizando a performance com in memory no sql 2016
Otimizando a performance com in memory no sql 2016
 
High availability e Disaster Recovery é o seguro de vida de todo DBA
High availability e Disaster Recovery é o seguro de vida de todo DBAHigh availability e Disaster Recovery é o seguro de vida de todo DBA
High availability e Disaster Recovery é o seguro de vida de todo DBA
 
Escovando bit com alwayson sql server 2014
Escovando bit com alwayson sql server 2014Escovando bit com alwayson sql server 2014
Escovando bit com alwayson sql server 2014
 

SQL SAT Salvador - Arquitetando Data Lake Multicloud

  • 1. Arquitetando Data Lake Multicloud Luiz Henrique Garetti – Big Data Architect @Itau-unibanco @DataTuning
  • 2. Explore your PASS community Free online webinar events Connect with the global data community Local user groups around the world Online special interest user groups Learning on-demand and delivered to you Get involved Own your career with interactive learning built by community and guided by data experts. Get involved. Get ahead. .org
  • 3. Missed PASS Summit 2019? Get the Recordings Download all PASS Summit sessions on Data Management, Analytics, or Architecture for only $399 USD More options available at PASSstuff.com
  • 4. We are thrilled to say the first ever PASS Virtual Summit will be taking place this November! We will be launching PASS Summit into a whole new world, and with that comes exciting opportunities with what we can offer you. We will go beyond simply moving sessions online to fully embracing everything a virtual environment can offer. Find out more at PASS.org/summit
  • 5. Thank you to our Global Sponsors and Supporters
  • 6. This event was sponsored by Microsoft Learn more about SQL Server 2019 today: -Get free training: aka.ms/sqlworkshops -Download the SQL19 eBook: aka.ms/sql19_ebook
  • 7. “Porque dar importância aos dados ?!”
  • 8. Mas com tantas fontes de dados, como vamos acessá-los ? “Data Lake, fonte do Big Data” Nem tudo é por grana… Big Data também ajuda em Saúde, Educação
  • 9. Data Lake É um repositório centralizado que permite armazenar dados estruturados e não estruturados em qualquer escala.
  • 10. Data Lake 2010, O fundador do Pentaho, James Dixon, surgiu com o termo “Data Lake”... Como uma alternativa ao DW / Data Marts... O fluxo de dados do Data Lake, vem de n fontes e formatos diferentes, onde vários usuários podem vir “Examinar”, “Mergulhar” e “Coletar” dados para suas análise.
  • 11. DW x Lake No DW É um “grande banco de dados” estruturado. Ou seja, os dados precisam ser “formatados” durante o processo de carga (ETL). Isso implica em: • Existência prévia do schema (tabelas pré-definidas); • Atendem a necessidades especificas; • A mudança de estruturas impacta sistemas consumidores; No Lake Nao é necessário ter schemas pré-definidos; Podemos armazenar qualquer tipo de arquivo; Cada consumidor, consome da forma que precisa (Tempestividade, tratamento);
  • 12. Arquitetando um Lake • Captura dos Dados • Como vamos capturar os dados das N fontes existentes? Quais, como, quando... • LGPD* • Processamento dos Dados • Uma vez o dados no Data Lake, precisamos processar ? • Consumo dos dados • Por onde será o consumo, Batch, Streaming ? • LGPD* Governança de Dados
  • 14. Poque precisamos de Streaming de Dados? https://mapr.com/ebooks/streaming-architecture/chapter-01-why-event-streaming.html Alguns insights são mais valiosos logo após a ocorrência.
  • 15.
  • 16. Zones
  • 22. Multicloud… quando essa abordagem se faz necessária? • Consumo de dados em multi-regiões / latência de acessos? • Lockin? • Estratégia de DR entre Cloud ? • Estratégia comercial ? • Necessidade sistêmica / técnica (aproveitar o melhor de cada cloud provider) • TI querendo aplicar aprendizados da Udemy*
  • 23. Arquitetando um Lake, Agora multicloud • Captura dos Dados • Como vamos capturar os dados das N fontes existentes? Quais, como, quando... • LGPD* • Processamento dos Dados • Uma vez o dados no Data Lake, precisamos processar ? • Consumo dos dados • Por onde será o consumo, Batch, Streaming ? • LGPD* Governança de Dados + Estratégia de dados + Data out + Gravidade dos dados + Virtualização de dados
  • 24. Virtualização de Dados É qualquer abordagem que permite que um aplicativo acesse os dados sem exigir detalhes técnicos, localização fisica e tecnologia, podendo fornecer um único canal de acesso ao dado.
  • 25. Data Lake A Areas de Dados B Areas de Dados C Captura de Dados Pipeline (Flow) Estratégia de consumo Data out Gravidade dos Dados Lake Consumo Batch...Streaming
  • 26. Data Lake A Areas de Dados B Areas de Dados C DATA CONSUMER DATA VIRTUALIZATION DATA VIRTUALIZATION Captura de Dados Pipeline (Flow)
  • 27. Gravidade/Atração dos Dados O centro de gravidade dos dados está pendendo para a nuvem. Mas o que isso realmente significa? E o mais importante: o que isso significa para você e para mim? https://www.tableau.com/pt-br/about/blog/2017/3/what-data-gravity-anyway-67725
  • 28. Gravidade dos Dados OnPremis e Cloud Data out Aplicações Geradoras e Consumidoras de Dados Como Resolver? Mudando a Gravidade dos Dados E como mudamos a Gravidade dos Dados? Gerando e consumindo dados na Cloud (Modernização das Apps) Captura Processar Consumo? Data Lake
  • 29. Luiz Henrique Garetti @luizhrosario www.dataisbig.com@luizhenriquegaretti luizh.rosario@live.com https://github.com/luizhgaretti Arquitetando Data Lake Multicloud

Notas do Editor

  1. As duas abordagens são verdadeiras e atendem tipos de problemas diferentes, muitas vezes, os dois são necessários na empresa. Um não mata o outro.. E também a existente de um, não depende da existencia do outro.