Apresentação realizada no Meetup FCamara (06/02/2020)
Sobre Data Lake e suas implementações.
Conceitos e implementações utilizando Azure, AWS e Big Data Clusters com o SQL Server 2019.
4. Data Lake é
Uma prática de arquitetura implementada sob uma infraestrutura robusta que tem como objetivo suportar
o armazenamento e processaamento de grandes volumes de dados.
Centralizando o acesso e disponibilizando os dados para processamento, análise, consumo e distribuição
(democratizando) das informações para outros sistemas
5. Data Lake
• Arquitetura robusta para armazenamento e processamento de grandes volumes de dados;
• Ingestão de dados em diversas estruturas (Estruturados e não estruturados);
• Arquitetura com poder de escalabilidade (scale-out / scale-in) em processamento e armazenamento;
• Acesso a dados fundamentais para Data Science, Analytics, BI, etc;
• Democratização da informação/dados;
• Ponto unico (Data Hub) para consumo de dados;
• Arquitetura de referência para integração entre sistemas.
Habilita:
6. DW x Data Lake
No DW
É um “grande banco de dados” estruturado. Ou seja, os dados precisam ser “formatados” durante o processo
de carga (ETL).
Isso implica em:
• Existência prévia do schema (tabelas pré-definidas);
• Atendem a necessidades especificas;
• A mudança de estruturas impacta sistemas consumidores;
No Lake
Nao é necessário ter schemas pré-definidos;
Podemos armazenar qualquer tipo de arquivo;
Cada consumidor, consome da forma que precisa (Tempestividade, tratamento);
10. Pipeline de Dados
1) Captura dados dos sistemas (dados brutos);
2) Processa os dados (aplicando regras);
3) Distribuí / Consome os dados;
4) Resultado é capturado e ciclo é iniciado
novamente.
17. Virtualização de Dados é
É qualquer abordagem que permite que um aplicativo acesse os dados sem exigir detalhes técnicos,
localização fisica e tecnologia, podendo fornecer um único canal de acesso ao dado.
Interface que fornece um único ponto de acesso aos dados oculta seus detalhes de
armazenamento distribuído e heterogêneo
18. Imagine
Um ambiente com vários sistemas, sendo estruturas de dados diferentes (SQL, NoSQL)
alocados em plataformas distintas (On-Premise, Azure, AWS, GCP, Alibabá)
Agora Imagine
A integração entre o produto A (SQL-Azure) que tem dados de pedido com o produto B
(MongoDB-Atlas) que tem dados de geolocalização dos clientes.
Alguns processos do Hadoop (on-Premise) também precisam desses dados como
premissa para alguns processos.
Como poderíamos resolver isso?
Movimentar (duplicar)
dados para uma stage
Criar um linked
server (jump server)
Expor uma API
E Os Ciêntistas precisam de todos esses dados para suas analises, ML, etc
Data Lake
19. Produto A
Produto B
Produto C
DATA SOURCE DATA CONSUMER
• Movimentação de dados
• Duplicação de dados
• Aumento de complexidade para rastreabilidade dos dados (LGPD)
DATA VIRTUALIZATION
DATA
VIRTUALIZATION
27. Recapitulando...
• Data Lake é pratica de arquitetura para construir uma infra com grande capacidade de armazenamento e
processamento. Que tem o objetivo disponibilizar dados para n fontes e n diversos tipos de consumo
• Principal Diferença entre Data Lake e Data Warehouse?
• O que devemos levar em consideração durante a criação da Arquitetura do Data Lake?
• Pipeline de Dados...
• Tecnologias...
• Conceitos (Gravidade de Dados) / Governança / DDD...
• Big Data Clusters
• Infraestrutura para processamento MPP
• Virtualização de Dados
• Arquitetura de Data Lake
• Hub de Dados
Criar a sinergia com o Púbico
Apresentação Pessoal
Procurar entender o perfil do Público, (Com o que trabalham, conhecem do tema, querem entrar para a area de big data, se tivesse um curso de Big Data para DBAs...)
Fala sobre Big Data...
Big Data e os 5 Vs, as necessidades foram mudando conforme a evolução das tecnologias e etc.
-----
A recente necessidade das empresas de lidar com quantidades enormes de informação e o valor estratégico da análise sobre todos esses dados têm feito com que surjam novas ferramentas e conceitos todos os dias. Entre essas soluções está o Data Lake, uma nova visão acerca do armazenamento e processamento de informações. Neste post, vamos mostrar como essa tecnologia funciona. Fique conosco e boa leitura!
Uma arquitetura de big data foi projetada para lidar com a ingestão, processamento e análise de dados muito grandes ou complexos para os sistemas de banco de dados tradicionais. O limite em que as organizações entram no domínio de big data difere, dependendo dos recursos dos usuários e de suas ferramentas. Para alguns, pode significar centenas de gigabytes de dados, enquanto para outros significa centenas de terabytes. À medida que as ferramentas para trabalhar com conjuntos de big data avançam, o mesmo acontece com o significado de big data. Cada vez mais, esse termo está relacionado ao valor que você pode extrair de seus conjuntos de dados por meio de análises avançadas, em vez de estritamente o tamanho dos dados, embora, nesses casos, eles tendam a ser bastante grandes.
Ao longo dos anos, o cenário de dados mudou. O que você pode fazer, ou se espera que seja, com os dados mudou. O custo do armazenamento caiu drasticamente, enquanto os meios pelos quais os dados são coletados continuam crescendo. Alguns dados chegam rapidamente, exigindo constantemente serem coletados e observados. Outros dados chegam mais lentamente, mas em blocos muito grandes, geralmente na forma de décadas de dados históricos. Você pode estar enfrentando um problema de análise avançada ou um que requer aprendizado de máquina. Esses são os desafios que as arquiteturas de big data procuram resolver.
Não é um bicho de 7 cabeças.
Não é uma Tecnologia
Não é uma uma zona (Dark Lake).
Não é um grande banco de Dados
Não é o Hadoop.
Não é a solução para todos os problemas da sua empresa.
Não é a unica coisa que você precisa pensar e fazer para iniciar uma jornada Data Driven na sua empresa.
As duas abordagens são verdadeiras e atendem tipos de problemas diferentes, muitas vezes, os dois são necessários na empresa.
Um não mata o outro.. E também a existente de um, não depende da existencia do outro.