4. Os Vs do Big Data
Variedade de estrutura
de dados sendo
geradas e capturadas.
Variedade
Ter acesso a Big Data é
muito bom, mas isso só
é útil se pudermos
transformá-lo um valor
para o empresa
Valor
Confiabilidade e
confiança dos dados.
Veracidade
Velocidade na qual os dados
estão fluindo e as mudanças
estão ocorrendo entre os
conjuntos de dados.
Velocidade
Grande volume de dados
sendo gerados a cada
segundo.
Volume
7. Data Lake
Uma prática de arquitetura implementada sob uma infraestrutura robusta que tem como objetivo
suportar o armazenamento e processaamento de grandes volumes de dados.
Centralizando o acesso e disponibilizando os dados para processamento, análise, consumo e
distribuição (democratizando) das informações para outros sistemas.
8. • Arquitetura robusta para armazenamento e processamento de grandes volumes de dados;
• Ingestão de dados em diversas estruturas (Estruturados e não estruturados);
• Arquitetura com poder de escalabilidade (scale-out / scale-in) em processamento e
armazenamento;
Data Lake | Principais características
11. MultiCloud |Gravidade dos Dados
Descreve o efeito que, à medida que os dados se acumulam, há uma maior probabilidade de
que serviços e aplicativos sejam atraídos para esses dados,
12. MultiCloud |Gravidade dos Dados
OnPremis
e
Data Lake
Cloud
Data out
Aplicações Geradoras e
Consumidoras de Dados
Como
Resolver?
Mudando a Gravidade dos Dados
E como mudamos a Gravidade dos
Dados?
Gerando e consumindo dados na Cloud
(Modernização das Apps)
Captura
Processamento
Consumo*
14. BDC é:
• Plataforma de dados unificada para abranger dados estruturados e não estruturados, integrando várias
fontes de dados em uma arquitetura robusta e escalável.
• A flexibilidade para interagir com diversas fontes de dados (virtualizados/federados), processando e
armazenando.
Fornece:
• Spark, HDFS e Notebooks
É aplicável para:
• Criação de Pipelines (olhar do Ciêntista de dados).
• Ambiente de dados para IA, ML
• Processamento escalável (contêineres) com T-SQL ou Spark (PySpark)
https://docs.microsoft.com/en-us/sql/big-data-cluster/big-data-cluster-overview?view=sql-server-ver15
• Data Lake (aplicável para todas as camadas)Leia mais aqui
20. BDC | Arquitetura
Origem Captura Armazenamento e Processamento Consumo
Master Instance
Query tables
Query HDFS
PySpark
Raw
Zone
Trusted
Zone
Refined
Zone
Raw
Zone
SQL Query
23. Luiz Henrique Garetti
@luizhrosario www.dataisbig.com@luizhenriquegaretti
luizh.rosario@gmail.com
luizh.rosario@live.com
https://github.com/luizhgaretti
Planejando Data Lake com Big Data Clusters