Globalcode – Open4education
Planejando Data Lake com Big Data Clusters
Trilha – Big Data
Data Architect – @ItaúUnibanco
Luiz Henrique Garetti
Big Data_
“Grande conjunto de dados que
excedem a capacidade de processamento
convencional.”
Big Data
Os Vs do Big Data
Variedade de estrutura
de dados sendo
geradas e capturadas.
Variedade
Ter acesso a Big Data é
muito bom, mas isso só
é útil se pudermos
transformá-lo um valor
para o empresa
Valor
Confiabilidade e
confiança dos dados.
Veracidade
Velocidade na qual os dados
estão fluindo e as mudanças
estão ocorrendo entre os
conjuntos de dados.
Velocidade
Grande volume de dados
sendo gerados a cada
segundo.
Volume
Data Lake_
Data Lake
Uma prática de arquitetura implementada sob uma infraestrutura robusta que tem como objetivo
suportar o armazenamento e processaamento de grandes volumes de dados.
Centralizando o acesso e disponibilizando os dados para processamento, análise, consumo e
distribuição (democratizando) das informações para outros sistemas.
• Arquitetura robusta para armazenamento e processamento de grandes volumes de dados;
• Ingestão de dados em diversas estruturas (Estruturados e não estruturados);
• Arquitetura com poder de escalabilidade (scale-out / scale-in) em processamento e
armazenamento;
Data Lake | Principais características
Data Lake | Data flow
Data Lake | Zone
MultiCloud |Gravidade dos Dados
Descreve o efeito que, à medida que os dados se acumulam, há uma maior probabilidade de
que serviços e aplicativos sejam atraídos para esses dados,
MultiCloud |Gravidade dos Dados
OnPremis
e
Data Lake
Cloud
Data out
Aplicações Geradoras e
Consumidoras de Dados
Como
Resolver?
Mudando a Gravidade dos Dados
E como mudamos a Gravidade dos
Dados?
Gerando e consumindo dados na Cloud
(Modernização das Apps)
Captura
Processamento
Consumo*
Big Data Clusters_
SQL Server 2019 on Azure
BDC é:
• Plataforma de dados unificada para abranger dados estruturados e não estruturados, integrando várias
fontes de dados em uma arquitetura robusta e escalável.
• A flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando e
armazenando.
Fornece:
• Spark, HDFS e Notebooks
É aplicável para:
• Criação de Pipelines (olhar do Ciêntista de dados).
• Ambiente de dados para IA, ML
• Processamento escalável (contêineres) com T-SQL ou Spark (PySpark)
https://docs.microsoft.com/en-us/sql/big-data-cluster/big-data-cluster-overview?view=sql-server-ver15
• Data Lake (aplicável para todas as camadas)Leia mais aqui
BDC | Arquitetura
BDC | Arquitetura
BDC | External Table
BDC | Scale
Master
Compute
Data
Pool
Data
Pool
Storage
Pool
Storage
Pool
SQL Server
Shared
HDFS
Control Plane
Compute Plane
Data Plane
ComputeCompute
Data
Pool
BDC | Scale
BDC | Arquitetura
Origem Captura Armazenamento e Processamento Consumo
Master Instance
Query tables
Query HDFS
PySpark
Raw
Zone
Trusted
Zone
Refined
Zone
Raw
Zone
SQL Query
BDC | DataFlow
BDC + Você = Valor 
Luiz Henrique Garetti
@luizhrosario www.dataisbig.com@luizhenriquegaretti
luizh.rosario@gmail.com
luizh.rosario@live.com
https://github.com/luizhgaretti
Planejando Data Lake com Big Data Clusters

TDC - Planejando data Lake com big data clusters

  • 1.
    Globalcode – Open4education PlanejandoData Lake com Big Data Clusters Trilha – Big Data Data Architect – @ItaúUnibanco Luiz Henrique Garetti
  • 2.
    Big Data_ “Grande conjuntode dados que excedem a capacidade de processamento convencional.”
  • 3.
  • 4.
    Os Vs doBig Data Variedade de estrutura de dados sendo geradas e capturadas. Variedade Ter acesso a Big Data é muito bom, mas isso só é útil se pudermos transformá-lo um valor para o empresa Valor Confiabilidade e confiança dos dados. Veracidade Velocidade na qual os dados estão fluindo e as mudanças estão ocorrendo entre os conjuntos de dados. Velocidade Grande volume de dados sendo gerados a cada segundo. Volume
  • 6.
  • 7.
    Data Lake Uma práticade arquitetura implementada sob uma infraestrutura robusta que tem como objetivo suportar o armazenamento e processaamento de grandes volumes de dados. Centralizando o acesso e disponibilizando os dados para processamento, análise, consumo e distribuição (democratizando) das informações para outros sistemas.
  • 8.
    • Arquitetura robustapara armazenamento e processamento de grandes volumes de dados; • Ingestão de dados em diversas estruturas (Estruturados e não estruturados); • Arquitetura com poder de escalabilidade (scale-out / scale-in) em processamento e armazenamento; Data Lake | Principais características
  • 9.
    Data Lake |Data flow
  • 10.
  • 11.
    MultiCloud |Gravidade dosDados Descreve o efeito que, à medida que os dados se acumulam, há uma maior probabilidade de que serviços e aplicativos sejam atraídos para esses dados,
  • 12.
    MultiCloud |Gravidade dosDados OnPremis e Data Lake Cloud Data out Aplicações Geradoras e Consumidoras de Dados Como Resolver? Mudando a Gravidade dos Dados E como mudamos a Gravidade dos Dados? Gerando e consumindo dados na Cloud (Modernização das Apps) Captura Processamento Consumo*
  • 13.
    Big Data Clusters_ SQLServer 2019 on Azure
  • 14.
    BDC é: • Plataformade dados unificada para abranger dados estruturados e não estruturados, integrando várias fontes de dados em uma arquitetura robusta e escalável. • A flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando e armazenando. Fornece: • Spark, HDFS e Notebooks É aplicável para: • Criação de Pipelines (olhar do Ciêntista de dados). • Ambiente de dados para IA, ML • Processamento escalável (contêineres) com T-SQL ou Spark (PySpark) https://docs.microsoft.com/en-us/sql/big-data-cluster/big-data-cluster-overview?view=sql-server-ver15 • Data Lake (aplicável para todas as camadas)Leia mais aqui
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
    BDC | Arquitetura OrigemCaptura Armazenamento e Processamento Consumo Master Instance Query tables Query HDFS PySpark Raw Zone Trusted Zone Refined Zone Raw Zone SQL Query
  • 21.
  • 22.
    BDC + Você= Valor 
  • 23.
    Luiz Henrique Garetti @luizhrosariowww.dataisbig.com@luizhenriquegaretti luizh.rosario@gmail.com luizh.rosario@live.com https://github.com/luizhgaretti Planejando Data Lake com Big Data Clusters