Modernizando o papel do Data Lake em uma arquitetura de Data Fabric

Denodo
Denodo Denodo
Modernizando a função de um Data Lake
em uma arquitetura de Data Fabric
WEBINAR
Rafael Paz
Customer Success Manager LATAM, Denodo
2
A ascensão e queda do Hadoop Data Lake
• Os Data Lakes foram muitas vezes as principais iniciativas do
Projeto da era Hadoop.
• No entanto, poucos projetos Data Lakes atenderam às suas
expectativas, e muitos não conseguiram produzir os resultados
esperados.
• Em vez de Data Lakes, eles se tornaram “Data Swamps”
(“pântanos de dados”), onde dados sem controle ou governança
são usados indevidamente.
• Mas este primeiro também foi propício para importantes avanços
em tecnologia que sobrevivem nas novas gerações de Data
Lakes.
3
O nascimento do Object Storage
• O Object Storage é uma forma de armazenamento de dados não
estruturados que elimina as limitações de dimensionamento das
formas tradicionais de armazenamento.
• Em outras palavras, armazenamento sem limites de capacidade.
• Ele decorre das iniciativas de Big Data do início da década de
2010, especialmente o Hadoop File System ou HDFS.
Sua popularidade cresceu com provedores de serviços em nuvem.
• Atualmente, o Amazon S3 (Simple Storage Service) e o Azure
ADLS (Azure Data Lake Storage) são os mais populares.
Entretanto existem muitas outras alternativas semelhantes de
outros fornecedores (Google, Oracle, IBM, etc.) e alternativas de
open-source, como MinIO.
4
O Object Storage: o cimento dos dados na nuvem
• Os sistemas modernos de gerenciamento de dados em nuvem, como
EDWs em nuvem ou Lakehouses, evoluíram com base na premissa de
separação entre processamento e armazenamento.
• Ao contrário dos EDWs tradicionais, o poder de processamento
não está vinculado ao espaço em disco.
• As tecnologias de Object Storage forneceram a capacidade de
armazenamento ilimitada necessária, na nuvem e, o mais
importante, a um custo muito baixo.
• Formatos de arquivo de open-source, como Parquet e Avro,
especialmente projetados para interoperabilidade entre plataformas
analíticas e de ciência de dados, ajudaram seu crescimento e adoção.
5
Sua versatilidade o fez tornar
ferramenta-chave, ao invés de
simplesmente oferecer um
armazenamento.
A nova era dos Data Lakes é agora
a era dos Object Storage
6
✔ Data Science.
✔ Armazenamento de baixo custo para “dados frios”.
✔ Descarga de cargas não críticas de sistemas mais caros (por
exemplo, EDW).
✔ Infraestrutura para compartilhamento de dados com terceiros
(por exemplo, Parceiros).
✔ Reviva projetos antigos do Hadoop em uma infraestrutura mais
moderna.
✔ E muitos outros.
Novos usos para novos Data Lakes
7
O Object Storage precisa de outras peças para ser útil
Para processar dados massivos de forma eficiente, precisamos de um mecanismo MPP (Massive
Parallel Processing) que seja capaz de trabalhar em paralelo com grandes volumes de dados.
▪ Mas só o motor não basta. Restou a primeira geração, fracassada, de Data Lakes.
Precisamos de uma funcionalidade de gerenciamento de dados mais ampla:
▪ Controle de acesso e segurança de dados de grão mais fino, incluindo as últimas
tendências na definição de segurança como políticas baseadas em atributos (ABAC).
▪ Documentação, classificação, pesquisa, controles de governança de dados, etc.
▪ Recursos de integração de dados externos, para carregar, modificar e expor informações
no formato apropriado.
Deve-se notar também que os dados no Object Storage são apenas uma pequena proporção de
todos os dados na organização.
▪ Todos os dados têm valor e devem ser acessíveis e utilizáveis.
▪ Todos os dados devem ser gerenciados, governados e "protegidos" com consistência,
independentemente de sua localização.
8
Notas - AWS re:Invent 2022
9
Para se adaptar a essa nova
realidade, a Denodo inclui um
mecanismo MPP baseado em
Presto como parte da sua
Plataforma
10
Por que escolhemos o Presto?
• Projetado para alto desempenho
• Criado originalmente pelo Facebook para fornecer uma plataforma interna
de auto-atendimento para análises.
• Endurecido pela batalha
• Uso em larga escala com big data em empresas como Facebook (100 PB,
30k consultas/dia) ou Uber (100M+ de consultas/dia, 8 mil nós).
• Código Aberto e Comunidade Aberta
• O Presto é gerenciado pela fundação Linux e um consórcio de vários
fornecedores, incluindo Meta (Facebook), HP, Uber, Intel, Twitter, AliBaba,
Ahana (IBM) e a Denodo.
• Isso garante uma evolução firme e estável, sem que um projeto
monopolize o desenvolvimento ou decida mudar a licença no futuro.
Growth of the Presto community, 2019-2022
11
Por que escolhemos a Presto?
Dados críticos para análise de
negócios
__
Fortes capacidades transacionais
__
Formatos proprietários
Trabalhos em batch e de
grandes volumes
__
Uso para ML e IA
__
Integração com plataformas
de streaming
Consultas
Interativas
__
Alta concorrência
__
Dados em formatos
abertos
Denodo MPP
12
Arquitetura de Referência
Denodo
Virtualizatio
n
Server
Denodo
Data Catalog
Denodo
Web
Services
On-prem
data
Other Apps
IdP
Denodo
MPP
Warehouse A
Warehouse B
AWS S3 bucket
AWS Aurora
13
Como funciona?
• Processamento eficiente e
altamente escalável de
conteúdo no Object Storage.
• Uso nativo como cache e para
recursos de aceleração de
consulta
• Segurança e governança
integradas com a Plataforma
Denodo
Logical Layer MPP Coordinator
MPP worker
MPP worker
MPP worker
MPP worker
Object
Storage
14
Como funciona?
• Implantação automatizada usando gráficos Kubernetes e
Helm charts:
• Suporte para versões on-prem, OpenShift e cloud
(AKS no Azure, EKS na AWS, etc.).
• Suporte nativo para dimensionamento automático.
• Exploração gráfica do Object Storage da interface web do
Design Studio.
• Reconhecimento automático de arquivos de dados (por
exemplo, Parquet), partições, etc.
Demo
16
Conclusões
1. As tecnologias de Object Storage, especialmente na nuvem (S3,
ADLS, etc.), oferecem uma solução flexível e atrativa para
armazenamento de grandes volumes de dados a baixo custo.
2. Os mecanismos MPP de última geração fornecem processamento
eficiente em larga escala de dados armazenados no Object Storage,
definindo uma nova geração de Data Lakes e Lakehouses.
3. Uma camada lógica, como o Denodo, fornece os recursos de
segurança, governança e integração de dados necessários para
introduzir o Object Storage como parte de uma estratégia geral de
gerenciamento de dados, como o Data Fabric.
Q&A
DENODO DATAFEST EMEA 2023
The Agile Data Management
and Analytics Conference
OCTOBER 25-26 2023 | BARCELONA, SPAIN
REGISTER NOW
www.denododatafest.com/EMEA
Thanks!
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and
microfilm, without prior the written authorization from Denodo Technologies.
1 de 19

Recomendados

MySQL do ISAM ao NoSQL por
MySQL do ISAM ao NoSQLMySQL do ISAM ao NoSQL
MySQL do ISAM ao NoSQLAirton Lastori
1.3K visualizações49 slides
NoSQL x SQL: Bancos de Dados em Nuvens Computacionais por
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisNoSQL x SQL: Bancos de Dados em Nuvens Computacionais
NoSQL x SQL: Bancos de Dados em Nuvens ComputacionaisCarlo Pires
3.3K visualizações6 slides
PostgreSQL por
PostgreSQLPostgreSQL
PostgreSQLMarlon Munhoz
2.1K visualizações16 slides
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data por
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
49 visualizações46 slides
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica por
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
248 visualizações46 slides
TDC - Planejando data Lake com big data clusters por
TDC - Planejando data Lake com big data clustersTDC - Planejando data Lake com big data clusters
TDC - Planejando data Lake com big data clustersLuiz Henrique Garetti Rosário
51 visualizações23 slides

Mais conteúdo relacionado

Similar a Modernizando o papel do Data Lake em uma arquitetura de Data Fabric

Bancos de dados no sql – uma nova abordagem por
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemJoão Gabriel Lima
714 visualizações30 slides
Datawarehouse por
DatawarehouseDatawarehouse
DatawarehouseAlana Souza
2.9K visualizações44 slides
Bancodedadosesgbds 140326151327-phpapp01 por
Bancodedadosesgbds 140326151327-phpapp01Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01Sugizo Akino
308 visualizações18 slides
Big data por
Big dataBig data
Big dataw_barros
230 visualizações10 slides
Big data e mineração de dados por
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
2K visualizações39 slides
[DTC21] André Marques - Jornada do Engenheiro de Dados por
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
42 visualizações35 slides

Similar a Modernizando o papel do Data Lake em uma arquitetura de Data Fabric(20)

Bancos de dados no sql – uma nova abordagem por João Gabriel Lima
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagem
João Gabriel Lima714 visualizações
Datawarehouse por Alana Souza
DatawarehouseDatawarehouse
Datawarehouse
Alana Souza2.9K visualizações
Bancodedadosesgbds 140326151327-phpapp01 por Sugizo Akino
Bancodedadosesgbds 140326151327-phpapp01Bancodedadosesgbds 140326151327-phpapp01
Bancodedadosesgbds 140326151327-phpapp01
Sugizo Akino308 visualizações
Big data por w_barros
Big dataBig data
Big data
w_barros230 visualizações
Big data e mineração de dados por Elton Meira
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
Elton Meira2K visualizações
[DTC21] André Marques - Jornada do Engenheiro de Dados por Deep Tech Brasil
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
Deep Tech Brasil42 visualizações
Artigo sobre redes san e armazenamento em grande capacidade por Augusto Cezar Pinheiro
Artigo sobre redes san e armazenamento em grande capacidadeArtigo sobre redes san e armazenamento em grande capacidade
Artigo sobre redes san e armazenamento em grande capacidade
Augusto Cezar Pinheiro1.2K visualizações
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para... por Denodo
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
Denodo 96 visualizações
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório... por Amazon Web Services LATAM
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
Amazon Web Services LATAM395 visualizações
Modelos de Banco de dados e SGBDS por Mahuan Capeletto Abdala
Modelos de Banco de dados e SGBDSModelos de Banco de dados e SGBDS
Modelos de Banco de dados e SGBDS
Mahuan Capeletto Abdala21.2K visualizações
Big Data, NoSQL e In Memory Databases por Caio Louro
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
Caio Louro933 visualizações
Cientista de Dados – Dominando o Big Data com Software Livre por Ambiente Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre2.2K visualizações
Material Seminário NoSQL por Lorran Pegoretti
Material Seminário NoSQLMaterial Seminário NoSQL
Material Seminário NoSQL
Lorran Pegoretti1.7K visualizações
Big data para programadores convencionais por Roberto Oliveira
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
Roberto Oliveira487 visualizações
OS CINCO Vs DO BIG DATA por Leonardo Dias
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
Leonardo Dias6.7K visualizações
Oracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da Oracle por Luciano Condé
Oracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da OracleOracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da Oracle
Oracle - Visão Geral de IaaS e PaaS dos serviços de Nuvem da Oracle
Luciano Condé544 visualizações

Mais de Denodo

Mastering Cloud Data Cost Control: A FinOps Approach por
Mastering Cloud Data Cost Control: A FinOps ApproachMastering Cloud Data Cost Control: A FinOps Approach
Mastering Cloud Data Cost Control: A FinOps ApproachDenodo
4 visualizações24 slides
Data Services and Data Mesh projects made easy using Top-Down Modeling por
Data Services and Data Mesh projects made easy using Top-Down ModelingData Services and Data Mesh projects made easy using Top-Down Modeling
Data Services and Data Mesh projects made easy using Top-Down ModelingDenodo
3 visualizações1 slide
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ... por
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...Denodo
3 visualizações38 slides
Top Five Strategies for Modernizing Your Data Architecture (ASEAN) por
Top Five Strategies for Modernizing Your Data Architecture (ASEAN)Top Five Strategies for Modernizing Your Data Architecture (ASEAN)
Top Five Strategies for Modernizing Your Data Architecture (ASEAN)Denodo
7 visualizações29 slides
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern... por
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...Denodo
2 visualizações22 slides
MasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization por
MasterClass Series: Unlocking Data Sharing Velocity with Data VirtualizationMasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization
MasterClass Series: Unlocking Data Sharing Velocity with Data VirtualizationDenodo
3 visualizações21 slides

Mais de Denodo (20)

Mastering Cloud Data Cost Control: A FinOps Approach por Denodo
Mastering Cloud Data Cost Control: A FinOps ApproachMastering Cloud Data Cost Control: A FinOps Approach
Mastering Cloud Data Cost Control: A FinOps Approach
Denodo 4 visualizações
Data Services and Data Mesh projects made easy using Top-Down Modeling por Denodo
Data Services and Data Mesh projects made easy using Top-Down ModelingData Services and Data Mesh projects made easy using Top-Down Modeling
Data Services and Data Mesh projects made easy using Top-Down Modeling
Denodo 3 visualizações
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ... por Denodo
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...
Denodo 3 visualizações
Top Five Strategies for Modernizing Your Data Architecture (ASEAN) por Denodo
Top Five Strategies for Modernizing Your Data Architecture (ASEAN)Top Five Strategies for Modernizing Your Data Architecture (ASEAN)
Top Five Strategies for Modernizing Your Data Architecture (ASEAN)
Denodo 7 visualizações
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern... por Denodo
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...
Denodo 2 visualizações
MasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization por Denodo
MasterClass Series: Unlocking Data Sharing Velocity with Data VirtualizationMasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization
MasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization
Denodo 3 visualizações
Data Fabric e Chat GPT - Unindo forças para a verdadeira democratização no ac... por Denodo
Data Fabric e Chat GPT - Unindo forças para a verdadeira democratização no ac...Data Fabric e Chat GPT - Unindo forças para a verdadeira democratização no ac...
Data Fabric e Chat GPT - Unindo forças para a verdadeira democratização no ac...
Denodo 7 visualizações
La gestione logica dei dati come chiave del successo per Data Scientist e Bus... por Denodo
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
Denodo 5 visualizações
Partner Engagement Webinar Series: Highlights from DataFest North America por Denodo
Partner Engagement Webinar Series: Highlights from DataFest North AmericaPartner Engagement Webinar Series: Highlights from DataFest North America
Partner Engagement Webinar Series: Highlights from DataFest North America
Denodo 3 visualizações
Построение Data Mesh на основе Виртуальных Данных por Denodo
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных Данных
Denodo 8 visualizações
Achieving Self-service Analytics with a Governed Data Services Layer por Denodo
Achieving Self-service Analytics with a Governed Data Services LayerAchieving Self-service Analytics with a Governed Data Services Layer
Achieving Self-service Analytics with a Governed Data Services Layer
Denodo 10 visualizações
Top Five Strategies for Modernizing Your Data Architecture por Denodo
Top Five Strategies for Modernizing Your Data ArchitectureTop Five Strategies for Modernizing Your Data Architecture
Top Five Strategies for Modernizing Your Data Architecture
Denodo 6 visualizações
Tackling Data Risks Head-On: The Potential of Data Virtualization por Denodo
Tackling Data Risks Head-On: The Potential of Data VirtualizationTackling Data Risks Head-On: The Potential of Data Virtualization
Tackling Data Risks Head-On: The Potential of Data Virtualization
Denodo 8 visualizações
Green Data : à l'ère de l'emballement digital, comment engager la transition ... por Denodo
Green Data : à l'ère de l'emballement digital, comment engager la transition ...Green Data : à l'ère de l'emballement digital, comment engager la transition ...
Green Data : à l'ère de l'emballement digital, comment engager la transition ...
Denodo 10 visualizações
Denodo & FIN Cockpit (application de la virtualisation des données à la Finan... por Denodo
Denodo & FIN Cockpit (application de la virtualisation des données à la Finan...Denodo & FIN Cockpit (application de la virtualisation des données à la Finan...
Denodo & FIN Cockpit (application de la virtualisation des données à la Finan...
Denodo 20 visualizações
How to build Virtual Data Products in Denodo por Denodo
How to build Virtual Data Products in DenodoHow to build Virtual Data Products in Denodo
How to build Virtual Data Products in Denodo
Denodo 21 visualizações
Démonstration Denodo 8 por Denodo
Démonstration Denodo 8Démonstration Denodo 8
Démonstration Denodo 8
Denodo 7 visualizações
Data Driven Advanced Analytics using Denodo Platform on AWS por Denodo
Data Driven Advanced Analytics using Denodo Platform on AWSData Driven Advanced Analytics using Denodo Platform on AWS
Data Driven Advanced Analytics using Denodo Platform on AWS
Denodo 36 visualizações
Importance of a Logical First Architecture in a Cloud First Data Landscape por Denodo
Importance of a Logical First Architecture in a Cloud First Data LandscapeImportance of a Logical First Architecture in a Cloud First Data Landscape
Importance of a Logical First Architecture in a Cloud First Data Landscape
Denodo 9 visualizações
Distributed Data Across Cloud and On-Premises: Opportunities and Challenges por Denodo
Distributed Data Across Cloud and On-Premises: Opportunities and ChallengesDistributed Data Across Cloud and On-Premises: Opportunities and Challenges
Distributed Data Across Cloud and On-Premises: Opportunities and Challenges
Denodo 13 visualizações

Último

Mudanças nas relações de trabalho no século XX Ao longo da história, ocorrera... por
Mudanças nas relações de trabalho no século XX Ao longo da história, ocorrera...Mudanças nas relações de trabalho no século XX Ao longo da história, ocorrera...
Mudanças nas relações de trabalho no século XX Ao longo da história, ocorrera...AcademicaDlaUnicesum
6 visualizações3 slides
Atividade de Estudo 01 Algo essencial no processo comunicacional, é a utiliza... por
Atividade de Estudo 01 Algo essencial no processo comunicacional, é a utiliza...Atividade de Estudo 01 Algo essencial no processo comunicacional, é a utiliza...
Atividade de Estudo 01 Algo essencial no processo comunicacional, é a utiliza...assedlmoi
11 visualizações3 slides
No ordenamento jurídico brasileiro as fontes do direito podem ser diretas ou ... por
No ordenamento jurídico brasileiro as fontes do direito podem ser diretas ou ...No ordenamento jurídico brasileiro as fontes do direito podem ser diretas ou ...
No ordenamento jurídico brasileiro as fontes do direito podem ser diretas ou ...pauladiasuni
10 visualizações2 slides
ATIVIDADE 1 - CCONT - TEORIA DA CONTABILIDADE E ÉTICA PROFISSIONAL - 54/2023 por
ATIVIDADE 1 - CCONT - TEORIA DA CONTABILIDADE E ÉTICA PROFISSIONAL - 54/2023ATIVIDADE 1 - CCONT - TEORIA DA CONTABILIDADE E ÉTICA PROFISSIONAL - 54/2023
ATIVIDADE 1 - CCONT - TEORIA DA CONTABILIDADE E ÉTICA PROFISSIONAL - 54/2023PrimeEducacional
23 visualizações2 slides
Ressonância Magnética, por definição, consiste em uma propriedade física exib... por
Ressonância Magnética, por definição, consiste em uma propriedade física exib...Ressonância Magnética, por definição, consiste em uma propriedade física exib...
Ressonância Magnética, por definição, consiste em uma propriedade física exib...anakarla099009
5 visualizações2 slides
Sassaki (1997) é um dos maiores pesquisadores no campo da Educação Inclusiva ... por
Sassaki (1997) é um dos maiores pesquisadores no campo da Educação Inclusiva ...Sassaki (1997) é um dos maiores pesquisadores no campo da Educação Inclusiva ...
Sassaki (1997) é um dos maiores pesquisadores no campo da Educação Inclusiva ...AcademiaDlassessoria
30 visualizações3 slides

Último(12)

Mudanças nas relações de trabalho no século XX Ao longo da história, ocorrera... por AcademicaDlaUnicesum
Mudanças nas relações de trabalho no século XX Ao longo da história, ocorrera...Mudanças nas relações de trabalho no século XX Ao longo da história, ocorrera...
Mudanças nas relações de trabalho no século XX Ao longo da história, ocorrera...
AcademicaDlaUnicesum6 visualizações
Atividade de Estudo 01 Algo essencial no processo comunicacional, é a utiliza... por assedlmoi
Atividade de Estudo 01 Algo essencial no processo comunicacional, é a utiliza...Atividade de Estudo 01 Algo essencial no processo comunicacional, é a utiliza...
Atividade de Estudo 01 Algo essencial no processo comunicacional, é a utiliza...
assedlmoi11 visualizações
No ordenamento jurídico brasileiro as fontes do direito podem ser diretas ou ... por pauladiasuni
No ordenamento jurídico brasileiro as fontes do direito podem ser diretas ou ...No ordenamento jurídico brasileiro as fontes do direito podem ser diretas ou ...
No ordenamento jurídico brasileiro as fontes do direito podem ser diretas ou ...
pauladiasuni10 visualizações
ATIVIDADE 1 - CCONT - TEORIA DA CONTABILIDADE E ÉTICA PROFISSIONAL - 54/2023 por PrimeEducacional
ATIVIDADE 1 - CCONT - TEORIA DA CONTABILIDADE E ÉTICA PROFISSIONAL - 54/2023ATIVIDADE 1 - CCONT - TEORIA DA CONTABILIDADE E ÉTICA PROFISSIONAL - 54/2023
ATIVIDADE 1 - CCONT - TEORIA DA CONTABILIDADE E ÉTICA PROFISSIONAL - 54/2023
PrimeEducacional23 visualizações
Ressonância Magnética, por definição, consiste em uma propriedade física exib... por anakarla099009
Ressonância Magnética, por definição, consiste em uma propriedade física exib...Ressonância Magnética, por definição, consiste em uma propriedade física exib...
Ressonância Magnética, por definição, consiste em uma propriedade física exib...
anakarla0990095 visualizações
Sassaki (1997) é um dos maiores pesquisadores no campo da Educação Inclusiva ... por AcademiaDlassessoria
Sassaki (1997) é um dos maiores pesquisadores no campo da Educação Inclusiva ...Sassaki (1997) é um dos maiores pesquisadores no campo da Educação Inclusiva ...
Sassaki (1997) é um dos maiores pesquisadores no campo da Educação Inclusiva ...
AcademiaDlassessoria30 visualizações
As projeções ortográficas são uma linguagem universal no mundo do desenho téc... por PrimeEducacional
As projeções ortográficas são uma linguagem universal no mundo do desenho téc...As projeções ortográficas são uma linguagem universal no mundo do desenho téc...
As projeções ortográficas são uma linguagem universal no mundo do desenho téc...
PrimeEducacional34 visualizações
Machine Learning with Python-2.pdf por mabrol23
Machine Learning with Python-2.pdfMachine Learning with Python-2.pdf
Machine Learning with Python-2.pdf
mabrol238 visualizações
Meu Nordeste Todo - Pesquisa sobre representatividade nordestina por Juliana Freitas
Meu Nordeste Todo - Pesquisa sobre representatividade nordestinaMeu Nordeste Todo - Pesquisa sobre representatividade nordestina
Meu Nordeste Todo - Pesquisa sobre representatividade nordestina
Juliana Freitas25 visualizações
MAPA - BEDU - ANATOMIA HUMANA APLICADA À EDUCAÇÃO FÍSICA - 54/2023 por AcademiaDL
MAPA - BEDU - ANATOMIA HUMANA APLICADA À EDUCAÇÃO FÍSICA - 54/2023MAPA - BEDU - ANATOMIA HUMANA APLICADA À EDUCAÇÃO FÍSICA - 54/2023
MAPA - BEDU - ANATOMIA HUMANA APLICADA À EDUCAÇÃO FÍSICA - 54/2023
AcademiaDL16 visualizações
O gestor ambiental é um profissional de suma importância. Ele atua atento ao ... por dlalicia08
O gestor ambiental é um profissional de suma importância. Ele atua atento ao ...O gestor ambiental é um profissional de suma importância. Ele atua atento ao ...
O gestor ambiental é um profissional de suma importância. Ele atua atento ao ...
dlalicia087 visualizações
Para elaborar a presente atividade MAPA desta disciplina, imagine a seguinte ... por AcademicaDlaUnicesum
Para elaborar a presente atividade MAPA desta disciplina, imagine a seguinte ...Para elaborar a presente atividade MAPA desta disciplina, imagine a seguinte ...
Para elaborar a presente atividade MAPA desta disciplina, imagine a seguinte ...
AcademicaDlaUnicesum6 visualizações

Modernizando o papel do Data Lake em uma arquitetura de Data Fabric

  • 1. Modernizando a função de um Data Lake em uma arquitetura de Data Fabric WEBINAR Rafael Paz Customer Success Manager LATAM, Denodo
  • 2. 2 A ascensão e queda do Hadoop Data Lake • Os Data Lakes foram muitas vezes as principais iniciativas do Projeto da era Hadoop. • No entanto, poucos projetos Data Lakes atenderam às suas expectativas, e muitos não conseguiram produzir os resultados esperados. • Em vez de Data Lakes, eles se tornaram “Data Swamps” (“pântanos de dados”), onde dados sem controle ou governança são usados indevidamente. • Mas este primeiro também foi propício para importantes avanços em tecnologia que sobrevivem nas novas gerações de Data Lakes.
  • 3. 3 O nascimento do Object Storage • O Object Storage é uma forma de armazenamento de dados não estruturados que elimina as limitações de dimensionamento das formas tradicionais de armazenamento. • Em outras palavras, armazenamento sem limites de capacidade. • Ele decorre das iniciativas de Big Data do início da década de 2010, especialmente o Hadoop File System ou HDFS. Sua popularidade cresceu com provedores de serviços em nuvem. • Atualmente, o Amazon S3 (Simple Storage Service) e o Azure ADLS (Azure Data Lake Storage) são os mais populares. Entretanto existem muitas outras alternativas semelhantes de outros fornecedores (Google, Oracle, IBM, etc.) e alternativas de open-source, como MinIO.
  • 4. 4 O Object Storage: o cimento dos dados na nuvem • Os sistemas modernos de gerenciamento de dados em nuvem, como EDWs em nuvem ou Lakehouses, evoluíram com base na premissa de separação entre processamento e armazenamento. • Ao contrário dos EDWs tradicionais, o poder de processamento não está vinculado ao espaço em disco. • As tecnologias de Object Storage forneceram a capacidade de armazenamento ilimitada necessária, na nuvem e, o mais importante, a um custo muito baixo. • Formatos de arquivo de open-source, como Parquet e Avro, especialmente projetados para interoperabilidade entre plataformas analíticas e de ciência de dados, ajudaram seu crescimento e adoção.
  • 5. 5 Sua versatilidade o fez tornar ferramenta-chave, ao invés de simplesmente oferecer um armazenamento. A nova era dos Data Lakes é agora a era dos Object Storage
  • 6. 6 ✔ Data Science. ✔ Armazenamento de baixo custo para “dados frios”. ✔ Descarga de cargas não críticas de sistemas mais caros (por exemplo, EDW). ✔ Infraestrutura para compartilhamento de dados com terceiros (por exemplo, Parceiros). ✔ Reviva projetos antigos do Hadoop em uma infraestrutura mais moderna. ✔ E muitos outros. Novos usos para novos Data Lakes
  • 7. 7 O Object Storage precisa de outras peças para ser útil Para processar dados massivos de forma eficiente, precisamos de um mecanismo MPP (Massive Parallel Processing) que seja capaz de trabalhar em paralelo com grandes volumes de dados. ▪ Mas só o motor não basta. Restou a primeira geração, fracassada, de Data Lakes. Precisamos de uma funcionalidade de gerenciamento de dados mais ampla: ▪ Controle de acesso e segurança de dados de grão mais fino, incluindo as últimas tendências na definição de segurança como políticas baseadas em atributos (ABAC). ▪ Documentação, classificação, pesquisa, controles de governança de dados, etc. ▪ Recursos de integração de dados externos, para carregar, modificar e expor informações no formato apropriado. Deve-se notar também que os dados no Object Storage são apenas uma pequena proporção de todos os dados na organização. ▪ Todos os dados têm valor e devem ser acessíveis e utilizáveis. ▪ Todos os dados devem ser gerenciados, governados e "protegidos" com consistência, independentemente de sua localização.
  • 8. 8 Notas - AWS re:Invent 2022
  • 9. 9 Para se adaptar a essa nova realidade, a Denodo inclui um mecanismo MPP baseado em Presto como parte da sua Plataforma
  • 10. 10 Por que escolhemos o Presto? • Projetado para alto desempenho • Criado originalmente pelo Facebook para fornecer uma plataforma interna de auto-atendimento para análises. • Endurecido pela batalha • Uso em larga escala com big data em empresas como Facebook (100 PB, 30k consultas/dia) ou Uber (100M+ de consultas/dia, 8 mil nós). • Código Aberto e Comunidade Aberta • O Presto é gerenciado pela fundação Linux e um consórcio de vários fornecedores, incluindo Meta (Facebook), HP, Uber, Intel, Twitter, AliBaba, Ahana (IBM) e a Denodo. • Isso garante uma evolução firme e estável, sem que um projeto monopolize o desenvolvimento ou decida mudar a licença no futuro. Growth of the Presto community, 2019-2022
  • 11. 11 Por que escolhemos a Presto? Dados críticos para análise de negócios __ Fortes capacidades transacionais __ Formatos proprietários Trabalhos em batch e de grandes volumes __ Uso para ML e IA __ Integração com plataformas de streaming Consultas Interativas __ Alta concorrência __ Dados em formatos abertos Denodo MPP
  • 12. 12 Arquitetura de Referência Denodo Virtualizatio n Server Denodo Data Catalog Denodo Web Services On-prem data Other Apps IdP Denodo MPP Warehouse A Warehouse B AWS S3 bucket AWS Aurora
  • 13. 13 Como funciona? • Processamento eficiente e altamente escalável de conteúdo no Object Storage. • Uso nativo como cache e para recursos de aceleração de consulta • Segurança e governança integradas com a Plataforma Denodo Logical Layer MPP Coordinator MPP worker MPP worker MPP worker MPP worker Object Storage
  • 14. 14 Como funciona? • Implantação automatizada usando gráficos Kubernetes e Helm charts: • Suporte para versões on-prem, OpenShift e cloud (AKS no Azure, EKS na AWS, etc.). • Suporte nativo para dimensionamento automático. • Exploração gráfica do Object Storage da interface web do Design Studio. • Reconhecimento automático de arquivos de dados (por exemplo, Parquet), partições, etc.
  • 15. Demo
  • 16. 16 Conclusões 1. As tecnologias de Object Storage, especialmente na nuvem (S3, ADLS, etc.), oferecem uma solução flexível e atrativa para armazenamento de grandes volumes de dados a baixo custo. 2. Os mecanismos MPP de última geração fornecem processamento eficiente em larga escala de dados armazenados no Object Storage, definindo uma nova geração de Data Lakes e Lakehouses. 3. Uma camada lógica, como o Denodo, fornece os recursos de segurança, governança e integração de dados necessários para introduzir o Object Storage como parte de uma estratégia geral de gerenciamento de dados, como o Data Fabric.
  • 17. Q&A
  • 18. DENODO DATAFEST EMEA 2023 The Agile Data Management and Analytics Conference OCTOBER 25-26 2023 | BARCELONA, SPAIN REGISTER NOW www.denododatafest.com/EMEA
  • 19. Thanks! www.denodo.com info@denodo.com © Copyright Denodo Technologies. All rights reserved Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm, without prior the written authorization from Denodo Technologies.