Watch full webinar here:https://bit.ly/3XolWHf
O conceito de Data Lake já foi um tema bastante debatido e de grande desejo de utilização por parte das organizações. Entretanto, hoje divide opiniões, pois embora possam ser incrivelmente úteis para uma organização, eles também podem ser uma fonte de grandes outros diversos problemas.
Sua facilidade de dimensionar o armazenamento a um custo mínimo abriu as portas para muitas novas soluções, mas também favoreceu os chamados "pântanos de dados": dados não estruturados, sem governança e não controlados.
Com a adição de um mecanismo MPP baseado em Presto à camada lógica gerenciada pelo Denodo, queremos reconsiderar o papel do Data Lake em sua estratégia geral de dados.
Participe deste webinar para aprender:
- Os novos recursos MPP que Denodo inclui.
- Como usá-los para melhorar a segurança e a governança do seu Data Lake.
- Novos cenários e soluções nos quais sua estratégia do Data Fabric pode evoluir.
GenAI y el futuro de la gestión de datos: mitos y realidades
Modernizando um Data Lake com Data Fabric e Object Storage
1. Modernizando a função de um Data Lake
em uma arquitetura de Data Fabric
WEBINAR
Rafael Paz
Customer Success Manager LATAM, Denodo
2. 2
A ascensão e queda do Hadoop Data Lake
• Os Data Lakes foram muitas vezes as principais iniciativas do
Projeto da era Hadoop.
• No entanto, poucos projetos Data Lakes atenderam às suas
expectativas, e muitos não conseguiram produzir os resultados
esperados.
• Em vez de Data Lakes, eles se tornaram “Data Swamps”
(“pântanos de dados”), onde dados sem controle ou governança
são usados indevidamente.
• Mas este primeiro também foi propício para importantes avanços
em tecnologia que sobrevivem nas novas gerações de Data
Lakes.
3. 3
O nascimento do Object Storage
• O Object Storage é uma forma de armazenamento de dados não
estruturados que elimina as limitações de dimensionamento das
formas tradicionais de armazenamento.
• Em outras palavras, armazenamento sem limites de capacidade.
• Ele decorre das iniciativas de Big Data do início da década de
2010, especialmente o Hadoop File System ou HDFS.
Sua popularidade cresceu com provedores de serviços em nuvem.
• Atualmente, o Amazon S3 (Simple Storage Service) e o Azure
ADLS (Azure Data Lake Storage) são os mais populares.
Entretanto existem muitas outras alternativas semelhantes de
outros fornecedores (Google, Oracle, IBM, etc.) e alternativas de
open-source, como MinIO.
4. 4
O Object Storage: o cimento dos dados na nuvem
• Os sistemas modernos de gerenciamento de dados em nuvem, como
EDWs em nuvem ou Lakehouses, evoluíram com base na premissa de
separação entre processamento e armazenamento.
• Ao contrário dos EDWs tradicionais, o poder de processamento
não está vinculado ao espaço em disco.
• As tecnologias de Object Storage forneceram a capacidade de
armazenamento ilimitada necessária, na nuvem e, o mais
importante, a um custo muito baixo.
• Formatos de arquivo de open-source, como Parquet e Avro,
especialmente projetados para interoperabilidade entre plataformas
analíticas e de ciência de dados, ajudaram seu crescimento e adoção.
5. 5
Sua versatilidade o fez tornar
ferramenta-chave, ao invés de
simplesmente oferecer um
armazenamento.
A nova era dos Data Lakes é agora
a era dos Object Storage
6. 6
✔ Data Science.
✔ Armazenamento de baixo custo para “dados frios”.
✔ Descarga de cargas não críticas de sistemas mais caros (por
exemplo, EDW).
✔ Infraestrutura para compartilhamento de dados com terceiros
(por exemplo, Parceiros).
✔ Reviva projetos antigos do Hadoop em uma infraestrutura mais
moderna.
✔ E muitos outros.
Novos usos para novos Data Lakes
7. 7
O Object Storage precisa de outras peças para ser útil
Para processar dados massivos de forma eficiente, precisamos de um mecanismo MPP (Massive
Parallel Processing) que seja capaz de trabalhar em paralelo com grandes volumes de dados.
▪ Mas só o motor não basta. Restou a primeira geração, fracassada, de Data Lakes.
Precisamos de uma funcionalidade de gerenciamento de dados mais ampla:
▪ Controle de acesso e segurança de dados de grão mais fino, incluindo as últimas
tendências na definição de segurança como políticas baseadas em atributos (ABAC).
▪ Documentação, classificação, pesquisa, controles de governança de dados, etc.
▪ Recursos de integração de dados externos, para carregar, modificar e expor informações
no formato apropriado.
Deve-se notar também que os dados no Object Storage são apenas uma pequena proporção de
todos os dados na organização.
▪ Todos os dados têm valor e devem ser acessíveis e utilizáveis.
▪ Todos os dados devem ser gerenciados, governados e "protegidos" com consistência,
independentemente de sua localização.
9. 9
Para se adaptar a essa nova
realidade, a Denodo inclui um
mecanismo MPP baseado em
Presto como parte da sua
Plataforma
10. 10
Por que escolhemos o Presto?
• Projetado para alto desempenho
• Criado originalmente pelo Facebook para fornecer uma plataforma interna
de auto-atendimento para análises.
• Endurecido pela batalha
• Uso em larga escala com big data em empresas como Facebook (100 PB,
30k consultas/dia) ou Uber (100M+ de consultas/dia, 8 mil nós).
• Código Aberto e Comunidade Aberta
• O Presto é gerenciado pela fundação Linux e um consórcio de vários
fornecedores, incluindo Meta (Facebook), HP, Uber, Intel, Twitter, AliBaba,
Ahana (IBM) e a Denodo.
• Isso garante uma evolução firme e estável, sem que um projeto
monopolize o desenvolvimento ou decida mudar a licença no futuro.
Growth of the Presto community, 2019-2022
11. 11
Por que escolhemos a Presto?
Dados críticos para análise de
negócios
__
Fortes capacidades transacionais
__
Formatos proprietários
Trabalhos em batch e de
grandes volumes
__
Uso para ML e IA
__
Integração com plataformas
de streaming
Consultas
Interativas
__
Alta concorrência
__
Dados em formatos
abertos
Denodo MPP
13. 13
Como funciona?
• Processamento eficiente e
altamente escalável de
conteúdo no Object Storage.
• Uso nativo como cache e para
recursos de aceleração de
consulta
• Segurança e governança
integradas com a Plataforma
Denodo
Logical Layer MPP Coordinator
MPP worker
MPP worker
MPP worker
MPP worker
Object
Storage
14. 14
Como funciona?
• Implantação automatizada usando gráficos Kubernetes e
Helm charts:
• Suporte para versões on-prem, OpenShift e cloud
(AKS no Azure, EKS na AWS, etc.).
• Suporte nativo para dimensionamento automático.
• Exploração gráfica do Object Storage da interface web do
Design Studio.
• Reconhecimento automático de arquivos de dados (por
exemplo, Parquet), partições, etc.
16. 16
Conclusões
1. As tecnologias de Object Storage, especialmente na nuvem (S3,
ADLS, etc.), oferecem uma solução flexível e atrativa para
armazenamento de grandes volumes de dados a baixo custo.
2. Os mecanismos MPP de última geração fornecem processamento
eficiente em larga escala de dados armazenados no Object Storage,
definindo uma nova geração de Data Lakes e Lakehouses.
3. Uma camada lógica, como o Denodo, fornece os recursos de
segurança, governança e integração de dados necessários para
introduzir o Object Storage como parte de uma estratégia geral de
gerenciamento de dados, como o Data Fabric.
18. DENODO DATAFEST EMEA 2023
The Agile Data Management
and Analytics Conference
OCTOBER 25-26 2023 | BARCELONA, SPAIN
REGISTER NOW
www.denododatafest.com/EMEA