SlideShare uma empresa Scribd logo
1 de 23
Globalcode – Open4education
Planejando Data Lake com Big Data Clusters
Trilha – Big Data
Data Architect – @ItaúUnibanco
Luiz Henrique Garetti
Big Data_
“Grande conjunto de dados que
excedem a capacidade de processamento
convencional.”
Big Data
Os Vs do Big Data
Variedade de estrutura
de dados sendo
geradas e capturadas.
Variedade
Ter acesso a Big Data é
muito bom, mas isso só
é útil se pudermos
transformá-lo um valor
para o empresa
Valor
Confiabilidade e
confiança dos dados.
Veracidade
Velocidade na qual os dados
estão fluindo e as mudanças
estão ocorrendo entre os
conjuntos de dados.
Velocidade
Grande volume de dados
sendo gerados a cada
segundo.
Volume
Data Lake_
Data Lake
Uma prática de arquitetura implementada sob uma infraestrutura robusta que tem como objetivo
suportar o armazenamento e processaamento de grandes volumes de dados.
Centralizando o acesso e disponibilizando os dados para processamento, análise, consumo e
distribuição (democratizando) das informações para outros sistemas.
• Arquitetura robusta para armazenamento e processamento de grandes volumes de dados;
• Ingestão de dados em diversas estruturas (Estruturados e não estruturados);
• Arquitetura com poder de escalabilidade (scale-out / scale-in) em processamento e
armazenamento;
Data Lake | Principais características
Data Lake | Data flow
Data Lake | Zone
MultiCloud |Gravidade dos Dados
Descreve o efeito que, à medida que os dados se acumulam, há uma maior probabilidade de
que serviços e aplicativos sejam atraídos para esses dados,
MultiCloud |Gravidade dos Dados
OnPremis
e
Data Lake
Cloud
Data out
Aplicações Geradoras e
Consumidoras de Dados
Como
Resolver?
Mudando a Gravidade dos Dados
E como mudamos a Gravidade dos
Dados?
Gerando e consumindo dados na Cloud
(Modernização das Apps)
Captura
Processamento
Consumo*
Big Data Clusters_
SQL Server 2019 on Azure
BDC é:
• Plataforma de dados unificada para abranger dados estruturados e não estruturados, integrando várias
fontes de dados em uma arquitetura robusta e escalável.
• A flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando e
armazenando.
Fornece:
• Spark, HDFS e Notebooks
É aplicável para:
• Criação de Pipelines (olhar do Ciêntista de dados).
• Ambiente de dados para IA, ML
• Processamento escalável (contêineres) com T-SQL ou Spark (PySpark)
https://docs.microsoft.com/en-us/sql/big-data-cluster/big-data-cluster-overview?view=sql-server-ver15
• Data Lake (aplicável para todas as camadas)Leia mais aqui
BDC | Arquitetura
BDC | Arquitetura
BDC | External Table
BDC | Scale
Master
Compute
Data
Pool
Data
Pool
Storage
Pool
Storage
Pool
SQL Server
Shared
HDFS
Control Plane
Compute Plane
Data Plane
ComputeCompute
Data
Pool
BDC | Scale
BDC | Arquitetura
Origem Captura Armazenamento e Processamento Consumo
Master Instance
Query tables
Query HDFS
PySpark
Raw
Zone
Trusted
Zone
Refined
Zone
Raw
Zone
SQL Query
BDC | DataFlow
BDC + Você = Valor 
Luiz Henrique Garetti
@luizhrosario www.dataisbig.com@luizhenriquegaretti
luizh.rosario@gmail.com
luizh.rosario@live.com
https://github.com/luizhgaretti
Planejando Data Lake com Big Data Clusters

Mais conteúdo relacionado

Mais procurados

Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosCicero Joasyo Mateus de Moura
 
Case Moodle AWS
Case Moodle AWSCase Moodle AWS
Case Moodle AWSionatec
 
Bancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft AzureBancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft AzureJoel Rodrigues
 
Cloudster - Apresentação Comercial
Cloudster - Apresentação ComercialCloudster - Apresentação Comercial
Cloudster - Apresentação ComercialRicardo Zucolotto
 
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso SalesforceCloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso SalesforceFernando Carvalho
 
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchProcessamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchCicero Joasyo Mateus de Moura
 
STB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows AzureSTB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows AzureLuciano Condé
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...Cicero Joasyo Mateus de Moura
 
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...Cicero Joasyo Mateus de Moura
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Cicero Joasyo Mateus de Moura
 
CLOUD - O BackStage Entre Dispositivos e Usuários
CLOUD - O BackStage Entre Dispositivos e UsuáriosCLOUD - O BackStage Entre Dispositivos e Usuários
CLOUD - O BackStage Entre Dispositivos e UsuáriosVitor Meriat
 
24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigDataDiego Nogare
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
STB Tour - Cresça os seus negócios com Windows azure
STB Tour - Cresça os seus negócios com Windows azureSTB Tour - Cresça os seus negócios com Windows azure
STB Tour - Cresça os seus negócios com Windows azureLuciano Condé
 
Azure Stack - O poder da nuvem em seu datacenter
Azure Stack - O poder da nuvem em seu datacenterAzure Stack - O poder da nuvem em seu datacenter
Azure Stack - O poder da nuvem em seu datacenterVitor Meriat
 

Mais procurados (20)

Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dados
 
Case Moodle AWS
Case Moodle AWSCase Moodle AWS
Case Moodle AWS
 
Big data
Big dataBig data
Big data
 
Bancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft AzureBancos NoSQL no Microsoft Azure
Bancos NoSQL no Microsoft Azure
 
Cloudster - Apresentação Comercial
Cloudster - Apresentação ComercialCloudster - Apresentação Comercial
Cloudster - Apresentação Comercial
 
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso SalesforceCloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
Cloud Computing: Desafios de Arquiteturas multitenantes e o Caso Salesforce
 
Big data
Big dataBig data
Big data
 
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchProcessamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
 
STB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows AzureSTB Tour - Visão Geral do Windows Azure
STB Tour - Visão Geral do Windows Azure
 
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...CPBSB 2022 - Big Data e  Machine Learning na Prática Construindo um Data Lake...
CPBSB 2022 - Big Data e Machine Learning na Prática Construindo um Data Lake...
 
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...TDC Connections 2022 - Segurança e Anonimização de Dados  em Larga Escala com...
TDC Connections 2022 - Segurança e Anonimização de Dados em Larga Escala com...
 
Microsoft Power BI
Microsoft Power BIMicrosoft Power BI
Microsoft Power BI
 
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
Processamento e Análise de Dados em Tempo Real com Kafka, ElasticSearch e PyS...
 
CLOUD - O BackStage Entre Dispositivos e Usuários
CLOUD - O BackStage Entre Dispositivos e UsuáriosCLOUD - O BackStage Entre Dispositivos e Usuários
CLOUD - O BackStage Entre Dispositivos e Usuários
 
24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData24HoP 2013 - Por Onde Começar no BigData
24HoP 2013 - Por Onde Começar no BigData
 
Sql server 2019 big data cluster
Sql server 2019 big data clusterSql server 2019 big data cluster
Sql server 2019 big data cluster
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
STB Tour - Cresça os seus negócios com Windows azure
STB Tour - Cresça os seus negócios com Windows azureSTB Tour - Cresça os seus negócios com Windows azure
STB Tour - Cresça os seus negócios com Windows azure
 
Azure Stack - O poder da nuvem em seu datacenter
Azure Stack - O poder da nuvem em seu datacenterAzure Stack - O poder da nuvem em seu datacenter
Azure Stack - O poder da nuvem em seu datacenter
 

Semelhante a Planejando Data Lake com SQL Server BDC

IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
 
Sql saturday joinville 2019 sql server 2019 Big Data Clustes
Sql saturday  joinville 2019   sql server 2019 Big Data ClustesSql saturday  joinville 2019   sql server 2019 Big Data Clustes
Sql saturday joinville 2019 sql server 2019 Big Data ClustesLuiz Henrique Garetti Rosário
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricDenodo
 
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisCarlo Pires
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...Eduardo Hahn
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaGlaucio Scheibel
 
Guia de compras - Microsoft Azure
Guia de compras - Microsoft AzureGuia de compras - Microsoft Azure
Guia de compras - Microsoft AzureRenato Grau
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisCicero Joasyo Mateus de Moura
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Big data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasBig data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasHumberto Moura
 
Dremio - Construção de Data Lake
Dremio - Construção de Data LakeDremio - Construção de Data Lake
Dremio - Construção de Data LakeGrimaldo de Oliveira
 

Semelhante a Planejando Data Lake com SQL Server BDC (20)

IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Sql saturday joinville 2019 sql server 2019 Big Data Clustes
Sql saturday  joinville 2019   sql server 2019 Big Data ClustesSql saturday  joinville 2019   sql server 2019 Big Data Clustes
Sql saturday joinville 2019 sql server 2019 Big Data Clustes
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
 
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais
 
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
DataOps, Data Mesh e Data Fabric. Melhores práticas para seu projeto de arqui...
 
Meetup Tivir - Big Data Clusters
Meetup Tivir - Big Data ClustersMeetup Tivir - Big Data Clusters
Meetup Tivir - Big Data Clusters
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
 
Guia de compras - Microsoft Azure
Guia de compras - Microsoft AzureGuia de compras - Microsoft Azure
Guia de compras - Microsoft Azure
 
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e MaisBig Data Analytics - Data Engineer, Arquitetura, AWS e Mais
Big Data Analytics - Data Engineer, Arquitetura, AWS e Mais
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Big data Workshop
Big data WorkshopBig data Workshop
Big data Workshop
 
Big data - Conhecendo as Tecnologias
Big data - Conhecendo as TecnologiasBig data - Conhecendo as Tecnologias
Big data - Conhecendo as Tecnologias
 
Dremio - Construção de Data Lake
Dremio - Construção de Data LakeDremio - Construção de Data Lake
Dremio - Construção de Data Lake
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 

Mais de Luiz Henrique Garetti Rosário

Mais de Luiz Henrique Garetti Rosário (6)

Imasters - HA e DR como seguro de vida do DBA
Imasters - HA e DR como seguro de vida do DBAImasters - HA e DR como seguro de vida do DBA
Imasters - HA e DR como seguro de vida do DBA
 
Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016
 
High Availability and Disaster Recovery salvando vidas
High Availability and Disaster Recovery salvando vidasHigh Availability and Disaster Recovery salvando vidas
High Availability and Disaster Recovery salvando vidas
 
Otimizando a performance com in memory no sql 2016
Otimizando a performance com in memory no sql 2016Otimizando a performance com in memory no sql 2016
Otimizando a performance com in memory no sql 2016
 
High availability e Disaster Recovery é o seguro de vida de todo DBA
High availability e Disaster Recovery é o seguro de vida de todo DBAHigh availability e Disaster Recovery é o seguro de vida de todo DBA
High availability e Disaster Recovery é o seguro de vida de todo DBA
 
Escovando bit com alwayson sql server 2014
Escovando bit com alwayson sql server 2014Escovando bit com alwayson sql server 2014
Escovando bit com alwayson sql server 2014
 

Planejando Data Lake com SQL Server BDC

  • 1. Globalcode – Open4education Planejando Data Lake com Big Data Clusters Trilha – Big Data Data Architect – @ItaúUnibanco Luiz Henrique Garetti
  • 2. Big Data_ “Grande conjunto de dados que excedem a capacidade de processamento convencional.”
  • 4. Os Vs do Big Data Variedade de estrutura de dados sendo geradas e capturadas. Variedade Ter acesso a Big Data é muito bom, mas isso só é útil se pudermos transformá-lo um valor para o empresa Valor Confiabilidade e confiança dos dados. Veracidade Velocidade na qual os dados estão fluindo e as mudanças estão ocorrendo entre os conjuntos de dados. Velocidade Grande volume de dados sendo gerados a cada segundo. Volume
  • 5.
  • 7. Data Lake Uma prática de arquitetura implementada sob uma infraestrutura robusta que tem como objetivo suportar o armazenamento e processaamento de grandes volumes de dados. Centralizando o acesso e disponibilizando os dados para processamento, análise, consumo e distribuição (democratizando) das informações para outros sistemas.
  • 8. • Arquitetura robusta para armazenamento e processamento de grandes volumes de dados; • Ingestão de dados em diversas estruturas (Estruturados e não estruturados); • Arquitetura com poder de escalabilidade (scale-out / scale-in) em processamento e armazenamento; Data Lake | Principais características
  • 9. Data Lake | Data flow
  • 10. Data Lake | Zone
  • 11. MultiCloud |Gravidade dos Dados Descreve o efeito que, à medida que os dados se acumulam, há uma maior probabilidade de que serviços e aplicativos sejam atraídos para esses dados,
  • 12. MultiCloud |Gravidade dos Dados OnPremis e Data Lake Cloud Data out Aplicações Geradoras e Consumidoras de Dados Como Resolver? Mudando a Gravidade dos Dados E como mudamos a Gravidade dos Dados? Gerando e consumindo dados na Cloud (Modernização das Apps) Captura Processamento Consumo*
  • 13. Big Data Clusters_ SQL Server 2019 on Azure
  • 14. BDC é: • Plataforma de dados unificada para abranger dados estruturados e não estruturados, integrando várias fontes de dados em uma arquitetura robusta e escalável. • A flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando e armazenando. Fornece: • Spark, HDFS e Notebooks É aplicável para: • Criação de Pipelines (olhar do Ciêntista de dados). • Ambiente de dados para IA, ML • Processamento escalável (contêineres) com T-SQL ou Spark (PySpark) https://docs.microsoft.com/en-us/sql/big-data-cluster/big-data-cluster-overview?view=sql-server-ver15 • Data Lake (aplicável para todas as camadas)Leia mais aqui
  • 17. BDC | External Table
  • 20. BDC | Arquitetura Origem Captura Armazenamento e Processamento Consumo Master Instance Query tables Query HDFS PySpark Raw Zone Trusted Zone Refined Zone Raw Zone SQL Query
  • 22. BDC + Você = Valor 
  • 23. Luiz Henrique Garetti @luizhrosario www.dataisbig.com@luizhenriquegaretti luizh.rosario@gmail.com luizh.rosario@live.com https://github.com/luizhgaretti Planejando Data Lake com Big Data Clusters