SlideShare uma empresa Scribd logo
1 de 19
Baixar para ler offline
Modernizando a função de um Data Lake
em uma arquitetura de Data Fabric
WEBINAR
Rafael Paz
Customer Success Manager LATAM, Denodo
2
A ascensão e queda do Hadoop Data Lake
• Os Data Lakes foram muitas vezes as principais iniciativas do
Projeto da era Hadoop.
• No entanto, poucos projetos Data Lakes atenderam às suas
expectativas, e muitos não conseguiram produzir os resultados
esperados.
• Em vez de Data Lakes, eles se tornaram “Data Swamps”
(“pântanos de dados”), onde dados sem controle ou governança
são usados indevidamente.
• Mas este primeiro também foi propício para importantes avanços
em tecnologia que sobrevivem nas novas gerações de Data
Lakes.
3
O nascimento do Object Storage
• O Object Storage é uma forma de armazenamento de dados não
estruturados que elimina as limitações de dimensionamento das
formas tradicionais de armazenamento.
• Em outras palavras, armazenamento sem limites de capacidade.
• Ele decorre das iniciativas de Big Data do início da década de
2010, especialmente o Hadoop File System ou HDFS.
Sua popularidade cresceu com provedores de serviços em nuvem.
• Atualmente, o Amazon S3 (Simple Storage Service) e o Azure
ADLS (Azure Data Lake Storage) são os mais populares.
Entretanto existem muitas outras alternativas semelhantes de
outros fornecedores (Google, Oracle, IBM, etc.) e alternativas de
open-source, como MinIO.
4
O Object Storage: o cimento dos dados na nuvem
• Os sistemas modernos de gerenciamento de dados em nuvem, como
EDWs em nuvem ou Lakehouses, evoluíram com base na premissa de
separação entre processamento e armazenamento.
• Ao contrário dos EDWs tradicionais, o poder de processamento
não está vinculado ao espaço em disco.
• As tecnologias de Object Storage forneceram a capacidade de
armazenamento ilimitada necessária, na nuvem e, o mais
importante, a um custo muito baixo.
• Formatos de arquivo de open-source, como Parquet e Avro,
especialmente projetados para interoperabilidade entre plataformas
analíticas e de ciência de dados, ajudaram seu crescimento e adoção.
5
Sua versatilidade o fez tornar
ferramenta-chave, ao invés de
simplesmente oferecer um
armazenamento.
A nova era dos Data Lakes é agora
a era dos Object Storage
6
✔ Data Science.
✔ Armazenamento de baixo custo para “dados frios”.
✔ Descarga de cargas não críticas de sistemas mais caros (por
exemplo, EDW).
✔ Infraestrutura para compartilhamento de dados com terceiros
(por exemplo, Parceiros).
✔ Reviva projetos antigos do Hadoop em uma infraestrutura mais
moderna.
✔ E muitos outros.
Novos usos para novos Data Lakes
7
O Object Storage precisa de outras peças para ser útil
Para processar dados massivos de forma eficiente, precisamos de um mecanismo MPP (Massive
Parallel Processing) que seja capaz de trabalhar em paralelo com grandes volumes de dados.
▪ Mas só o motor não basta. Restou a primeira geração, fracassada, de Data Lakes.
Precisamos de uma funcionalidade de gerenciamento de dados mais ampla:
▪ Controle de acesso e segurança de dados de grão mais fino, incluindo as últimas
tendências na definição de segurança como políticas baseadas em atributos (ABAC).
▪ Documentação, classificação, pesquisa, controles de governança de dados, etc.
▪ Recursos de integração de dados externos, para carregar, modificar e expor informações
no formato apropriado.
Deve-se notar também que os dados no Object Storage são apenas uma pequena proporção de
todos os dados na organização.
▪ Todos os dados têm valor e devem ser acessíveis e utilizáveis.
▪ Todos os dados devem ser gerenciados, governados e "protegidos" com consistência,
independentemente de sua localização.
8
Notas - AWS re:Invent 2022
9
Para se adaptar a essa nova
realidade, a Denodo inclui um
mecanismo MPP baseado em
Presto como parte da sua
Plataforma
10
Por que escolhemos o Presto?
• Projetado para alto desempenho
• Criado originalmente pelo Facebook para fornecer uma plataforma interna
de auto-atendimento para análises.
• Endurecido pela batalha
• Uso em larga escala com big data em empresas como Facebook (100 PB,
30k consultas/dia) ou Uber (100M+ de consultas/dia, 8 mil nós).
• Código Aberto e Comunidade Aberta
• O Presto é gerenciado pela fundação Linux e um consórcio de vários
fornecedores, incluindo Meta (Facebook), HP, Uber, Intel, Twitter, AliBaba,
Ahana (IBM) e a Denodo.
• Isso garante uma evolução firme e estável, sem que um projeto
monopolize o desenvolvimento ou decida mudar a licença no futuro.
Growth of the Presto community, 2019-2022
11
Por que escolhemos a Presto?
Dados críticos para análise de
negócios
__
Fortes capacidades transacionais
__
Formatos proprietários
Trabalhos em batch e de
grandes volumes
__
Uso para ML e IA
__
Integração com plataformas
de streaming
Consultas
Interativas
__
Alta concorrência
__
Dados em formatos
abertos
Denodo MPP
12
Arquitetura de Referência
Denodo
Virtualizatio
n
Server
Denodo
Data Catalog
Denodo
Web
Services
On-prem
data
Other Apps
IdP
Denodo
MPP
Warehouse A
Warehouse B
AWS S3 bucket
AWS Aurora
13
Como funciona?
• Processamento eficiente e
altamente escalável de
conteúdo no Object Storage.
• Uso nativo como cache e para
recursos de aceleração de
consulta
• Segurança e governança
integradas com a Plataforma
Denodo
Logical Layer MPP Coordinator
MPP worker
MPP worker
MPP worker
MPP worker
Object
Storage
14
Como funciona?
• Implantação automatizada usando gráficos Kubernetes e
Helm charts:
• Suporte para versões on-prem, OpenShift e cloud
(AKS no Azure, EKS na AWS, etc.).
• Suporte nativo para dimensionamento automático.
• Exploração gráfica do Object Storage da interface web do
Design Studio.
• Reconhecimento automático de arquivos de dados (por
exemplo, Parquet), partições, etc.
Demo
16
Conclusões
1. As tecnologias de Object Storage, especialmente na nuvem (S3,
ADLS, etc.), oferecem uma solução flexível e atrativa para
armazenamento de grandes volumes de dados a baixo custo.
2. Os mecanismos MPP de última geração fornecem processamento
eficiente em larga escala de dados armazenados no Object Storage,
definindo uma nova geração de Data Lakes e Lakehouses.
3. Uma camada lógica, como o Denodo, fornece os recursos de
segurança, governança e integração de dados necessários para
introduzir o Object Storage como parte de uma estratégia geral de
gerenciamento de dados, como o Data Fabric.
Q&A
DENODO DATAFEST EMEA 2023
The Agile Data Management
and Analytics Conference
OCTOBER 25-26 2023 | BARCELONA, SPAIN
REGISTER NOW
www.denododatafest.com/EMEA
Thanks!
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and
microfilm, without prior the written authorization from Denodo Technologies.

Mais conteúdo relacionado

Semelhante a Modernizando um Data Lake com Data Fabric e Object Storage

Bancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemJoão Gabriel Lima
 
Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01Sugizo Akino
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Artigo sobre redes san e armazenamento em grande capacidade
Artigo sobre redes san e armazenamento em grande capacidadeArtigo sobre redes san e armazenamento em grande capacidade
Artigo sobre redes san e armazenamento em grande capacidadeAugusto Cezar Pinheiro
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Oracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da Oracle
Oracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da OracleOracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da Oracle
Oracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da OracleLuciano Condé
 

Semelhante a Modernizando um Data Lake com Data Fabric e Object Storage (20)

Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Bancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagem
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01
 
Big data
Big dataBig data
Big data
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Artigo sobre redes san e armazenamento em grande capacidade
Artigo sobre redes san e armazenamento em grande capacidadeArtigo sobre redes san e armazenamento em grande capacidade
Artigo sobre redes san e armazenamento em grande capacidade
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Modelos de Banco de dados e SGBDS
Modelos de Banco de dados e SGBDSModelos de Banco de dados e SGBDS
Modelos de Banco de dados e SGBDS
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Aula 4 - Introdução a aws
Aula 4 - Introdução a awsAula 4 - Introdução a aws
Aula 4 - Introdução a aws
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data
Big DataBig Data
Big Data
 
Material Seminário NoSQL
Material Seminário NoSQLMaterial Seminário NoSQL
Material Seminário NoSQL
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Oracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da Oracle
Oracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da OracleOracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da Oracle
Oracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da Oracle
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 

Mais de Denodo

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoDenodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachDenodo
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerDenodo
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?Denodo
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeDenodo
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Denodo
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDenodo
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationDenodo
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Denodo
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardDenodo
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Denodo
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Denodo
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?Denodo
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsDenodo
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityDenodo
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesDenodo
 

Mais de Denodo (20)

Enterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in DenodoEnterprise Monitoring and Auditing in Denodo
Enterprise Monitoring and Auditing in Denodo
 
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps ApproachLunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
Lunch and Learn ANZ: Mastering Cloud Data Cost Control: A FinOps Approach
 
Achieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services LayerAchieving Self-Service Analytics with a Governed Data Services Layer
Achieving Self-Service Analytics with a Governed Data Services Layer
 
What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?What you need to know about Generative AI and Data Management?
What you need to know about Generative AI and Data Management?
 
Mastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business LandscapeMastering Data Compliance in a Dynamic Business Landscape
Mastering Data Compliance in a Dynamic Business Landscape
 
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo LiteDenodo Partner Connect: Business Value Demo with Denodo Demo Lite
Denodo Partner Connect: Business Value Demo with Denodo Demo Lite
 
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
Expert Panel: Overcoming Challenges with Distributed Data to Maximize Busines...
 
Drive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory ComplianceDrive Data Privacy Regulatory Compliance
Drive Data Privacy Regulatory Compliance
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data FragmentationData Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
Data Democratization: A Secret Sauce to Say Goodbye to Data Fragmentation
 
Denodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me AnythingDenodo Partner Connect - Technical Webinar - Ask Me Anything
Denodo Partner Connect - Technical Webinar - Ask Me Anything
 
Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!Lunch and Learn ANZ: Key Takeaways for 2023!
Lunch and Learn ANZ: Key Takeaways for 2023!
 
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way ForwardIt’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
It’s a Wrap! 2023 – A Groundbreaking Year for AI and The Way Forward
 
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
Quels sont les facteurs-clés de succès pour appliquer au mieux le RGPD à votr...
 
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
Lunch and Learn ANZ: Achieving Self-Service Analytics with a Governed Data Se...
 
How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?How to Build Your Data Marketplace with Data Virtualization?
How to Build Your Data Marketplace with Data Virtualization?
 
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit UnionsWebinar #2 - Transforming Challenges into Opportunities for Credit Unions
Webinar #2 - Transforming Challenges into Opportunities for Credit Unions
 
Enabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usabilityEnabling Data Catalog users with advanced usability
Enabling Data Catalog users with advanced usability
 
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
Denodo Partner Connect: Technical Webinar - Architect Associate Certification...
 
GenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidadesGenAI y el futuro de la gestión de datos: mitos y realidades
GenAI y el futuro de la gestión de datos: mitos y realidades
 

Modernizando um Data Lake com Data Fabric e Object Storage

  • 1. Modernizando a função de um Data Lake em uma arquitetura de Data Fabric WEBINAR Rafael Paz Customer Success Manager LATAM, Denodo
  • 2. 2 A ascensão e queda do Hadoop Data Lake • Os Data Lakes foram muitas vezes as principais iniciativas do Projeto da era Hadoop. • No entanto, poucos projetos Data Lakes atenderam às suas expectativas, e muitos não conseguiram produzir os resultados esperados. • Em vez de Data Lakes, eles se tornaram “Data Swamps” (“pântanos de dados”), onde dados sem controle ou governança são usados indevidamente. • Mas este primeiro também foi propício para importantes avanços em tecnologia que sobrevivem nas novas gerações de Data Lakes.
  • 3. 3 O nascimento do Object Storage • O Object Storage é uma forma de armazenamento de dados não estruturados que elimina as limitações de dimensionamento das formas tradicionais de armazenamento. • Em outras palavras, armazenamento sem limites de capacidade. • Ele decorre das iniciativas de Big Data do início da década de 2010, especialmente o Hadoop File System ou HDFS. Sua popularidade cresceu com provedores de serviços em nuvem. • Atualmente, o Amazon S3 (Simple Storage Service) e o Azure ADLS (Azure Data Lake Storage) são os mais populares. Entretanto existem muitas outras alternativas semelhantes de outros fornecedores (Google, Oracle, IBM, etc.) e alternativas de open-source, como MinIO.
  • 4. 4 O Object Storage: o cimento dos dados na nuvem • Os sistemas modernos de gerenciamento de dados em nuvem, como EDWs em nuvem ou Lakehouses, evoluíram com base na premissa de separação entre processamento e armazenamento. • Ao contrário dos EDWs tradicionais, o poder de processamento não está vinculado ao espaço em disco. • As tecnologias de Object Storage forneceram a capacidade de armazenamento ilimitada necessária, na nuvem e, o mais importante, a um custo muito baixo. • Formatos de arquivo de open-source, como Parquet e Avro, especialmente projetados para interoperabilidade entre plataformas analíticas e de ciência de dados, ajudaram seu crescimento e adoção.
  • 5. 5 Sua versatilidade o fez tornar ferramenta-chave, ao invés de simplesmente oferecer um armazenamento. A nova era dos Data Lakes é agora a era dos Object Storage
  • 6. 6 ✔ Data Science. ✔ Armazenamento de baixo custo para “dados frios”. ✔ Descarga de cargas não críticas de sistemas mais caros (por exemplo, EDW). ✔ Infraestrutura para compartilhamento de dados com terceiros (por exemplo, Parceiros). ✔ Reviva projetos antigos do Hadoop em uma infraestrutura mais moderna. ✔ E muitos outros. Novos usos para novos Data Lakes
  • 7. 7 O Object Storage precisa de outras peças para ser útil Para processar dados massivos de forma eficiente, precisamos de um mecanismo MPP (Massive Parallel Processing) que seja capaz de trabalhar em paralelo com grandes volumes de dados. ▪ Mas só o motor não basta. Restou a primeira geração, fracassada, de Data Lakes. Precisamos de uma funcionalidade de gerenciamento de dados mais ampla: ▪ Controle de acesso e segurança de dados de grão mais fino, incluindo as últimas tendências na definição de segurança como políticas baseadas em atributos (ABAC). ▪ Documentação, classificação, pesquisa, controles de governança de dados, etc. ▪ Recursos de integração de dados externos, para carregar, modificar e expor informações no formato apropriado. Deve-se notar também que os dados no Object Storage são apenas uma pequena proporção de todos os dados na organização. ▪ Todos os dados têm valor e devem ser acessíveis e utilizáveis. ▪ Todos os dados devem ser gerenciados, governados e "protegidos" com consistência, independentemente de sua localização.
  • 8. 8 Notas - AWS re:Invent 2022
  • 9. 9 Para se adaptar a essa nova realidade, a Denodo inclui um mecanismo MPP baseado em Presto como parte da sua Plataforma
  • 10. 10 Por que escolhemos o Presto? • Projetado para alto desempenho • Criado originalmente pelo Facebook para fornecer uma plataforma interna de auto-atendimento para análises. • Endurecido pela batalha • Uso em larga escala com big data em empresas como Facebook (100 PB, 30k consultas/dia) ou Uber (100M+ de consultas/dia, 8 mil nós). • Código Aberto e Comunidade Aberta • O Presto é gerenciado pela fundação Linux e um consórcio de vários fornecedores, incluindo Meta (Facebook), HP, Uber, Intel, Twitter, AliBaba, Ahana (IBM) e a Denodo. • Isso garante uma evolução firme e estável, sem que um projeto monopolize o desenvolvimento ou decida mudar a licença no futuro. Growth of the Presto community, 2019-2022
  • 11. 11 Por que escolhemos a Presto? Dados críticos para análise de negócios __ Fortes capacidades transacionais __ Formatos proprietários Trabalhos em batch e de grandes volumes __ Uso para ML e IA __ Integração com plataformas de streaming Consultas Interativas __ Alta concorrência __ Dados em formatos abertos Denodo MPP
  • 12. 12 Arquitetura de Referência Denodo Virtualizatio n Server Denodo Data Catalog Denodo Web Services On-prem data Other Apps IdP Denodo MPP Warehouse A Warehouse B AWS S3 bucket AWS Aurora
  • 13. 13 Como funciona? • Processamento eficiente e altamente escalável de conteúdo no Object Storage. • Uso nativo como cache e para recursos de aceleração de consulta • Segurança e governança integradas com a Plataforma Denodo Logical Layer MPP Coordinator MPP worker MPP worker MPP worker MPP worker Object Storage
  • 14. 14 Como funciona? • Implantação automatizada usando gráficos Kubernetes e Helm charts: • Suporte para versões on-prem, OpenShift e cloud (AKS no Azure, EKS na AWS, etc.). • Suporte nativo para dimensionamento automático. • Exploração gráfica do Object Storage da interface web do Design Studio. • Reconhecimento automático de arquivos de dados (por exemplo, Parquet), partições, etc.
  • 15. Demo
  • 16. 16 Conclusões 1. As tecnologias de Object Storage, especialmente na nuvem (S3, ADLS, etc.), oferecem uma solução flexível e atrativa para armazenamento de grandes volumes de dados a baixo custo. 2. Os mecanismos MPP de última geração fornecem processamento eficiente em larga escala de dados armazenados no Object Storage, definindo uma nova geração de Data Lakes e Lakehouses. 3. Uma camada lógica, como o Denodo, fornece os recursos de segurança, governança e integração de dados necessários para introduzir o Object Storage como parte de uma estratégia geral de gerenciamento de dados, como o Data Fabric.
  • 17. Q&A
  • 18. DENODO DATAFEST EMEA 2023 The Agile Data Management and Analytics Conference OCTOBER 25-26 2023 | BARCELONA, SPAIN REGISTER NOW www.denododatafest.com/EMEA
  • 19. Thanks! www.denodo.com info@denodo.com © Copyright Denodo Technologies. All rights reserved Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm, without prior the written authorization from Denodo Technologies.