Modernizando el rol de un Data Lake en una arquitectura Data Fabric

Denodo
Denodo Denodo
Modernizando el rol de un
Data Lake en una
arquitectura Data Fabric
W E B I N A R
Pablo Alvarez Yanez
Director Global de Gestion de Producto | Denodo
2
El auge y caída del Hadoop Data Lake
• Los Data Lakes fueron a menudo las iniciativas principales
de los Proyecto de la era Hadoop
• Sin embargo, pocos proyectos de Data Lakes cumplieron
sus expectativas, y muchos fallaron en producir los
resultados esperados
• En lugar de Data Lakes, se convirtieron en “data swamps”,
donde datos sin control ni gobernanza hacia su uso
inapropiado
• Pero esta primera era también propicio importantes
avances en la tecnología que perviven en las nuevas
generaciones de Data Lakes
3
El nacimiento de los Object Storage
• Los Object Storage son una forma de almacenamiento de datos no
estructurados que elimina las limitaciones de escalado de las
formas de almacenamiento tradicionales
• En otras palabras, almacenamiento sin limites de
capacidad
• Se deriva de las iniciativas de Big Data de comienzos de los
2010’s, especialmente el Hadoop File System o HDFS
• Su popularidad creció con los proveedores de servicios en la nube
• Actualmente, Amazon S3 (Simple Storage Service) y Azure ADLS
(Azure Data Lake Storage) son los más populares
• Aunque hay muchas otras alternativas similares de otros
proveedores (Google, Oracle, IBM, etc.) y alternativas
open-source , como MinIO
4
Los Object Storage: los cimientos de los
datos en la nube
• Los Sistema de gestión de datos en la nube modernos, como los EDW
en la nube o los Lakehouse, han evolucionado basados en la premisa
de separación de procesado y almacenamiento
• Al contrario que los EDW tradicionales, la capacidad de
procesado no esta atada al espacio de disco
• Las tecnologías de Object storage proporcionaron la capacidad
de almacenamiento ilimitada que se necesitaba, en la nube y,
lo mas importante, con un coste muy reducido
• Formatos de ficheros open-source, como Parquet y Avro,
especialmente diseñados para interoperabilidad entre plataformas
analíticas y de data science, ayudo a su crecimiento y adopción
5
Su versatilidad los ha
convertido en herramientas
clave mas allá de simples
sistemas de almacenamiento
La nueva era de los Data
Lakes, es mas bien la era del
Object Storage
6
✓ Data science
✓ Almacenamiento de bajo coste para datos “fríos”
✓ Offloading de cargas no-criticas desde sistemas mas
caros (P. ej. EDW)
✓ Infraestructura para compartir datos con terceros (p. ej.
Partners)
✓ Revivir antiguos proyectos Hadoop en infraestructura
mas moderna
✓ Y muchos otros
Nuevos usos para nuevos Data Lakes
7
El Object Storage necesita de otras piezas
para ser útil
1. Para procesar datos masivos de forma eficiente, necesitamos un motor MPP (Massive
Parallel Processing) que se capaz de trabajar en paralelo con volúmenes grandes de
datos
1. Pero el motor solo no es suficiente. Ahí se quedo la primera generación,
fallida, de Data Lakes
2. Necesitamos funcionalidad de gestión de datos mas amplia:
• Control de acceso y seguridad de datos de grano mas fino, incluyendo las
ultimas tendencias de definición de seguridad como políticas basadas en
atributos (ABAC en Inglés)
• Documentación, clasificación, búsqueda, controles de gobierno de datos, etc.
• Capacidades de integración de datos externos, para cargar, modificar, y
exponer la información en el formato adecuado
3. También hay que tener en cuenta que los datos en el Object Sotrage solo son una
pequeña proporción de todos los datos de la organización
1. Todos los datos tienen valor y deben poder accederse y utilizarse
2. Todos los datos deben ser gestionados, gobernados y “securizados” con
consistencia, al margen de su localización
8
Notas de campo - AWS re:Invent 2022
9
Para adaptarse a esta
nueva realidad, Denodo
incluye un motor MPP
basado en Presto como
parte de su Plataforma
10
Por qué hemos elegido Presto?
• Diseñado para alto rendimiento
• Originariamente creado por Facebook para proporcionar
una plataforma interna de autoservicio para analíticas
• Curtido en batalla
• Uso a gran escala con datos masivos en compañías como
Facebook (100 PB, 30k queries/día) o Uber (100M+
queries/día, 8k nodos)
• Código abierto y Comunidad abierta
• Presto es gestionado por la Linux foundation y un
consorcio de múltiples proveedores incluyendo a Meta
(Facebook), HP, Uber, Intel, Twitter, AliBaba, Ahana y
Denodo
• Esto garantiza una evolución firme y estable, sin que un
Proyecto monopolice el desarrollo o decida cambiar la
licencia en el futuro
Growth of the Presto community, 2019-2022
11
Por qué hemos elegido Presto?
Datos críticos para analítica
empresarial
__
Fuertes capacidades
transaccionales
__
Formatos propietarios
Trabajos largos en batch
con grandes volúmenes
__
Uso para ML y IA
__
Integración con plataformas
de streaming
Queries interactivas
__
Alta concurrencia
__
Datos en formatos
abiertos
Denodo MPP
12
Arquitectura de Referencia
Denodo
Virtualization
Server
Denodo
Data Catalog
Denodo
Web Services
On-prem
data
Other Apps
IdP
Denodo
MPP
Warehouse A
Warehouse B
AWS S3 bucket
AWS Aurora
13
Cómo funciona?
• Procesado eficiente y
altamente escalable de
contenido en el Object
Sotrage
• Uso native como cache y para
capacidades de query
acceleration
• Seguridad y gobernanza
integrada con la Plataforma
Denodo
Logical Layer MPP Coordinator
MPP worker
MPP worker
MPP worker
MPP worker
Object
Storage
14
Cómo funciona?
• Despliegue automatizado utilizando Kubernetes y
Helm charts
• Soporte para versiones on-prem,
OpenShift, y en nube (AKS en Azure, EKS
en AWS, etc.)
• Soporte native para autoescalado
• Exploración grafica del Object Storage desde la
interfaz web del Design Studio
• Reconocimiento automático de archivos de datos
(P. ej. Parquet), particiones, etc.
Demo
16
Conclusiones
1. Las tecnologías de Object Storage, especialmente en la nube
(S3, ADLS, etc.), ofrecen una solución flexible y atractiva para
almacenamiento de grandes volúmenes de datos con bajo
costo
2. Los motores MPP de nueva generación proporcionan
procesado eficiente a gran escala sobre los datos
almacenados en el Object Storage, definiendo una nueva
generación de Data Lakes y Lakehouses
3. Una capa lógica, como Denodo, proporciona las capacidades
de seguridad, gobierno, e integración de datos necesarias
para introducir el Object Sotrage como parte de una
estrategia global de gestión de datos, como el Data Fabric
Q&A
DENODO DATAFEST EMEA 2023
The Agile Data Management
and Analytics Conference
OCTOBER 25-26 2023 | BARCELONA, SPAIN
REGISTER NOW
www.denododatafest.com/EMEA
Thanks!
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying
and microfilm, without prior the written authorization from Denodo Technologies.
1 de 19

Recomendados

Futuro bd por
Futuro bdFuturo bd
Futuro bdchavitoqui
100 visualizações2 slides
Presentación taller aplicaciones por
Presentación  taller aplicacionesPresentación  taller aplicaciones
Presentación taller aplicacionesAriel Inostroza Fariña
372 visualizações18 slides
Almacenamiento en la nube por
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nubeCarlos A. Gonzalez Hernandez
140 visualizações18 slides
Ajustes de privacidad Análisis de datos GRATIS Almacenamiento en la nube por
Ajustes de privacidad Análisis de datos GRATIS Almacenamiento en la nubeAjustes de privacidad Análisis de datos GRATIS Almacenamiento en la nube
Ajustes de privacidad Análisis de datos GRATIS Almacenamiento en la nubeCarlos A. Gonzalez Hernandez
92 visualizações18 slides
Actividad de aprendizaje 4 screencast y bases de datos.jltc por
Actividad de aprendizaje 4 screencast y bases de datos.jltcActividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcjhoselt
79 visualizações8 slides
Bases de datos por
Bases de datosBases de datos
Bases de datosBenito Duran
89 visualizações10 slides

Mais conteúdo relacionado

Similar a Modernizando el rol de un Data Lake en una arquitectura Data Fabric

Azure DataFactory por
Azure DataFactoryAzure DataFactory
Azure DataFactoryIvan Martinez
107 visualizações28 slides
Migrando mis datos a la nube con Azure Data Factory por
Migrando mis datos a la nube con Azure Data FactoryMigrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data FactoryRaul Martin Sarachaga Diaz
627 visualizações28 slides
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la... por
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...Denodo
428 visualizações20 slides
Almacenamiento en la nube por
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nubeSneider Sanabria
30 visualizações7 slides
Big Data - Desarrollando soluciones efectivas por
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
2.2K visualizações105 slides
Explorando los Sabores de Azure Data Factory por
Explorando los Sabores de Azure Data FactoryExplorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data FactoryRaul Martin Sarachaga Diaz
271 visualizações31 slides

Similar a Modernizando el rol de un Data Lake en una arquitectura Data Fabric(20)

Azure DataFactory por Ivan Martinez
Azure DataFactoryAzure DataFactory
Azure DataFactory
Ivan Martinez107 visualizações
Migrando mis datos a la nube con Azure Data Factory por Raul Martin Sarachaga Diaz
Migrando mis datos a la nube con Azure Data FactoryMigrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data Factory
Raul Martin Sarachaga Diaz627 visualizações
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la... por Denodo
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...
Caso Walmart y Denodo: ¿Cómo afrontar con éxito la transición a la nube de la...
Denodo 428 visualizações
Almacenamiento en la nube por Sneider Sanabria
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nube
Sneider Sanabria30 visualizações
Big Data - Desarrollando soluciones efectivas por Joseph Lopez
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
Joseph Lopez2.2K visualizações
Data warehouseing e inteligencia de negocios por Javier Benitez
Data warehouseing e inteligencia de negociosData warehouseing e inteligencia de negocios
Data warehouseing e inteligencia de negocios
Javier Benitez179 visualizações
Data warehouseing e inteligencia de negocios por Javier Benitez
Data warehouseing e inteligencia de negociosData warehouseing e inteligencia de negocios
Data warehouseing e inteligencia de negocios
Javier Benitez153 visualizações
02 base de datos hernandez_luis por luishernandez1576
02 base de datos hernandez_luis02 base de datos hernandez_luis
02 base de datos hernandez_luis
luishernandez157634 visualizações
Transición a la Nube: Retos y Estrategias por Denodo
Transición a la Nube: Retos y EstrategiasTransición a la Nube: Retos y Estrategias
Transición a la Nube: Retos y Estrategias
Denodo 126 visualizações
ALMACEN DE DATOS.pptx por CarlosRodrigo99
ALMACEN DE DATOS.pptxALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptx
CarlosRodrigo992 visualizações
Actividad4 garibay blanca por BLANCA ELIZABETH
Actividad4 garibay blancaActividad4 garibay blanca
Actividad4 garibay blanca
BLANCA ELIZABETH63 visualizações
Polybase por SolidQ
PolybasePolybase
Polybase
SolidQ2.7K visualizações
bases de datos por yuliana270901
bases de datosbases de datos
bases de datos
yuliana27090161 visualizações
Bases de datos por RoOxy DeSrosiers
Bases de datosBases de datos
Bases de datos
RoOxy DeSrosiers38 visualizações
Oracle Gsop por Felipe Neira
Oracle GsopOracle Gsop
Oracle Gsop
Felipe Neira812 visualizações
Base de datos por anggiemoreno
Base de datosBase de datos
Base de datos
anggiemoreno208 visualizações

Mais de Denodo

Mastering Cloud Data Cost Control: A FinOps Approach por
Mastering Cloud Data Cost Control: A FinOps ApproachMastering Cloud Data Cost Control: A FinOps Approach
Mastering Cloud Data Cost Control: A FinOps ApproachDenodo
4 visualizações24 slides
Data Services and Data Mesh projects made easy using Top-Down Modeling por
Data Services and Data Mesh projects made easy using Top-Down ModelingData Services and Data Mesh projects made easy using Top-Down Modeling
Data Services and Data Mesh projects made easy using Top-Down ModelingDenodo
3 visualizações1 slide
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ... por
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...Denodo
3 visualizações38 slides
Top Five Strategies for Modernizing Your Data Architecture (ASEAN) por
Top Five Strategies for Modernizing Your Data Architecture (ASEAN)Top Five Strategies for Modernizing Your Data Architecture (ASEAN)
Top Five Strategies for Modernizing Your Data Architecture (ASEAN)Denodo
8 visualizações29 slides
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern... por
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...Denodo
2 visualizações22 slides
MasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization por
MasterClass Series: Unlocking Data Sharing Velocity with Data VirtualizationMasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization
MasterClass Series: Unlocking Data Sharing Velocity with Data VirtualizationDenodo
3 visualizações21 slides

Mais de Denodo (20)

Mastering Cloud Data Cost Control: A FinOps Approach por Denodo
Mastering Cloud Data Cost Control: A FinOps ApproachMastering Cloud Data Cost Control: A FinOps Approach
Mastering Cloud Data Cost Control: A FinOps Approach
Denodo 4 visualizações
Data Services and Data Mesh projects made easy using Top-Down Modeling por Denodo
Data Services and Data Mesh projects made easy using Top-Down ModelingData Services and Data Mesh projects made easy using Top-Down Modeling
Data Services and Data Mesh projects made easy using Top-Down Modeling
Denodo 3 visualizações
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ... por Denodo
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...
Lunch and Learn ANZ: Data Accessibility: The key to Industrialising Decision ...
Denodo 3 visualizações
Top Five Strategies for Modernizing Your Data Architecture (ASEAN) por Denodo
Top Five Strategies for Modernizing Your Data Architecture (ASEAN)Top Five Strategies for Modernizing Your Data Architecture (ASEAN)
Top Five Strategies for Modernizing Your Data Architecture (ASEAN)
Denodo 8 visualizações
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern... por Denodo
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...
Mitigating Risk and Ensuring Compliance in Finance Using a Robust Data Govern...
Denodo 2 visualizações
MasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization por Denodo
MasterClass Series: Unlocking Data Sharing Velocity with Data VirtualizationMasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization
MasterClass Series: Unlocking Data Sharing Velocity with Data Virtualization
Denodo 3 visualizações
Data Fabric e Chat GPT - Unindo forças para a verdadeira democratização no ac... por Denodo
Data Fabric e Chat GPT - Unindo forças para a verdadeira democratização no ac...Data Fabric e Chat GPT - Unindo forças para a verdadeira democratização no ac...
Data Fabric e Chat GPT - Unindo forças para a verdadeira democratização no ac...
Denodo 7 visualizações
La gestione logica dei dati come chiave del successo per Data Scientist e Bus... por Denodo
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
Denodo 5 visualizações
Partner Engagement Webinar Series: Highlights from DataFest North America por Denodo
Partner Engagement Webinar Series: Highlights from DataFest North AmericaPartner Engagement Webinar Series: Highlights from DataFest North America
Partner Engagement Webinar Series: Highlights from DataFest North America
Denodo 3 visualizações
Построение Data Mesh на основе Виртуальных Данных por Denodo
Построение Data Mesh на основе Виртуальных ДанныхПостроение Data Mesh на основе Виртуальных Данных
Построение Data Mesh на основе Виртуальных Данных
Denodo 8 visualizações
Achieving Self-service Analytics with a Governed Data Services Layer por Denodo
Achieving Self-service Analytics with a Governed Data Services LayerAchieving Self-service Analytics with a Governed Data Services Layer
Achieving Self-service Analytics with a Governed Data Services Layer
Denodo 11 visualizações
Top Five Strategies for Modernizing Your Data Architecture por Denodo
Top Five Strategies for Modernizing Your Data ArchitectureTop Five Strategies for Modernizing Your Data Architecture
Top Five Strategies for Modernizing Your Data Architecture
Denodo 7 visualizações
Tackling Data Risks Head-On: The Potential of Data Virtualization por Denodo
Tackling Data Risks Head-On: The Potential of Data VirtualizationTackling Data Risks Head-On: The Potential of Data Virtualization
Tackling Data Risks Head-On: The Potential of Data Virtualization
Denodo 8 visualizações
Green Data : à l'ère de l'emballement digital, comment engager la transition ... por Denodo
Green Data : à l'ère de l'emballement digital, comment engager la transition ...Green Data : à l'ère de l'emballement digital, comment engager la transition ...
Green Data : à l'ère de l'emballement digital, comment engager la transition ...
Denodo 11 visualizações
Denodo & FIN Cockpit (application de la virtualisation des données à la Finan... por Denodo
Denodo & FIN Cockpit (application de la virtualisation des données à la Finan...Denodo & FIN Cockpit (application de la virtualisation des données à la Finan...
Denodo & FIN Cockpit (application de la virtualisation des données à la Finan...
Denodo 20 visualizações
How to build Virtual Data Products in Denodo por Denodo
How to build Virtual Data Products in DenodoHow to build Virtual Data Products in Denodo
How to build Virtual Data Products in Denodo
Denodo 21 visualizações
Démonstration Denodo 8 por Denodo
Démonstration Denodo 8Démonstration Denodo 8
Démonstration Denodo 8
Denodo 7 visualizações
Data Driven Advanced Analytics using Denodo Platform on AWS por Denodo
Data Driven Advanced Analytics using Denodo Platform on AWSData Driven Advanced Analytics using Denodo Platform on AWS
Data Driven Advanced Analytics using Denodo Platform on AWS
Denodo 36 visualizações
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric por Denodo
Modernizando o papel do Data Lake em uma arquitetura de Data FabricModernizando o papel do Data Lake em uma arquitetura de Data Fabric
Modernizando o papel do Data Lake em uma arquitetura de Data Fabric
Denodo 28 visualizações
Importance of a Logical First Architecture in a Cloud First Data Landscape por Denodo
Importance of a Logical First Architecture in a Cloud First Data LandscapeImportance of a Logical First Architecture in a Cloud First Data Landscape
Importance of a Logical First Architecture in a Cloud First Data Landscape
Denodo 9 visualizações

Último

Slideshare2023.docx por
Slideshare2023.docxSlideshare2023.docx
Slideshare2023.docxMerlín Josue Flores Linares
7 visualizações4 slides
HD-NOVIEMBRE-2023.pdf por
HD-NOVIEMBRE-2023.pdfHD-NOVIEMBRE-2023.pdf
HD-NOVIEMBRE-2023.pdfIrapuatoCmovamos
142 visualizações14 slides
Tranferenciaa de conocimiento.pptx por
Tranferenciaa de conocimiento.pptxTranferenciaa de conocimiento.pptx
Tranferenciaa de conocimiento.pptxJosDanielGirnu
6 visualizações8 slides
INDICE DE COMPETITIVIDAD URBANA.pdf por
INDICE DE COMPETITIVIDAD URBANA.pdfINDICE DE COMPETITIVIDAD URBANA.pdf
INDICE DE COMPETITIVIDAD URBANA.pdfIrapuatoCmovamos
7 visualizações2 slides
Encuesta de satisfacción comunicaciones 2023. por
Encuesta de satisfacción  comunicaciones 2023.Encuesta de satisfacción  comunicaciones 2023.
Encuesta de satisfacción comunicaciones 2023.Universidad del Chocò
5 visualizações21 slides
Bienes raices Santiago de Chile por
Bienes raices Santiago de ChileBienes raices Santiago de Chile
Bienes raices Santiago de ChileAlejandra Diaz
6 visualizações6 slides

Último(17)

HD-NOVIEMBRE-2023.pdf por IrapuatoCmovamos
HD-NOVIEMBRE-2023.pdfHD-NOVIEMBRE-2023.pdf
HD-NOVIEMBRE-2023.pdf
IrapuatoCmovamos142 visualizações
Tranferenciaa de conocimiento.pptx por JosDanielGirnu
Tranferenciaa de conocimiento.pptxTranferenciaa de conocimiento.pptx
Tranferenciaa de conocimiento.pptx
JosDanielGirnu6 visualizações
INDICE DE COMPETITIVIDAD URBANA.pdf por IrapuatoCmovamos
INDICE DE COMPETITIVIDAD URBANA.pdfINDICE DE COMPETITIVIDAD URBANA.pdf
INDICE DE COMPETITIVIDAD URBANA.pdf
IrapuatoCmovamos7 visualizações
Encuesta de satisfacción comunicaciones 2023. por Universidad del Chocò
Encuesta de satisfacción  comunicaciones 2023.Encuesta de satisfacción  comunicaciones 2023.
Encuesta de satisfacción comunicaciones 2023.
Universidad del Chocò5 visualizações
Bienes raices Santiago de Chile por Alejandra Diaz
Bienes raices Santiago de ChileBienes raices Santiago de Chile
Bienes raices Santiago de Chile
Alejandra Diaz6 visualizações
Epistemologia de la matematicas cuadro sinoptico.pptx por historiamatematicas0
Epistemologia de la matematicas cuadro sinoptico.pptxEpistemologia de la matematicas cuadro sinoptico.pptx
Epistemologia de la matematicas cuadro sinoptico.pptx
historiamatematicas05 visualizações
IM - Operatividad de las Variables.pptx por milennirv2806
IM - Operatividad de las Variables.pptxIM - Operatividad de las Variables.pptx
IM - Operatividad de las Variables.pptx
milennirv28065 visualizações
Presentación paso 4 colaborativo por ivonnemaritzacruzrey
Presentación paso 4 colaborativoPresentación paso 4 colaborativo
Presentación paso 4 colaborativo
ivonnemaritzacruzrey7 visualizações
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf por IrapuatoCmovamos
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdfREPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf
IrapuatoCmovamos190 visualizações
ESEQUIBO TIERRA VENEZOLANA POR DERECHO....docx por juliolinaresabogado
ESEQUIBO TIERRA VENEZOLANA POR DERECHO....docxESEQUIBO TIERRA VENEZOLANA POR DERECHO....docx
ESEQUIBO TIERRA VENEZOLANA POR DERECHO....docx
juliolinaresabogado8 visualizações
Tarea 4 Realizar transferencia del conocimiento.pptx por ValeriaMartelomoreno
Tarea 4 Realizar transferencia del conocimiento.pptxTarea 4 Realizar transferencia del conocimiento.pptx
Tarea 4 Realizar transferencia del conocimiento.pptx
ValeriaMartelomoreno12 visualizações
Tasa de Deserción por MaryAlejandraDiaz
Tasa de DeserciónTasa de Deserción
Tasa de Deserción
MaryAlejandraDiaz10 visualizações
Tranferenciaa de conocimiento.pptx por fanorimedinaipuana
Tranferenciaa de conocimiento.pptxTranferenciaa de conocimiento.pptx
Tranferenciaa de conocimiento.pptx
fanorimedinaipuana10 visualizações
El uso de las tic en la vida cotidiana.pptx por 231471214
El uso de las tic en la vida cotidiana.pptxEl uso de las tic en la vida cotidiana.pptx
El uso de las tic en la vida cotidiana.pptx
2314712145 visualizações

Modernizando el rol de un Data Lake en una arquitectura Data Fabric

  • 1. Modernizando el rol de un Data Lake en una arquitectura Data Fabric W E B I N A R Pablo Alvarez Yanez Director Global de Gestion de Producto | Denodo
  • 2. 2 El auge y caída del Hadoop Data Lake • Los Data Lakes fueron a menudo las iniciativas principales de los Proyecto de la era Hadoop • Sin embargo, pocos proyectos de Data Lakes cumplieron sus expectativas, y muchos fallaron en producir los resultados esperados • En lugar de Data Lakes, se convirtieron en “data swamps”, donde datos sin control ni gobernanza hacia su uso inapropiado • Pero esta primera era también propicio importantes avances en la tecnología que perviven en las nuevas generaciones de Data Lakes
  • 3. 3 El nacimiento de los Object Storage • Los Object Storage son una forma de almacenamiento de datos no estructurados que elimina las limitaciones de escalado de las formas de almacenamiento tradicionales • En otras palabras, almacenamiento sin limites de capacidad • Se deriva de las iniciativas de Big Data de comienzos de los 2010’s, especialmente el Hadoop File System o HDFS • Su popularidad creció con los proveedores de servicios en la nube • Actualmente, Amazon S3 (Simple Storage Service) y Azure ADLS (Azure Data Lake Storage) son los más populares • Aunque hay muchas otras alternativas similares de otros proveedores (Google, Oracle, IBM, etc.) y alternativas open-source , como MinIO
  • 4. 4 Los Object Storage: los cimientos de los datos en la nube • Los Sistema de gestión de datos en la nube modernos, como los EDW en la nube o los Lakehouse, han evolucionado basados en la premisa de separación de procesado y almacenamiento • Al contrario que los EDW tradicionales, la capacidad de procesado no esta atada al espacio de disco • Las tecnologías de Object storage proporcionaron la capacidad de almacenamiento ilimitada que se necesitaba, en la nube y, lo mas importante, con un coste muy reducido • Formatos de ficheros open-source, como Parquet y Avro, especialmente diseñados para interoperabilidad entre plataformas analíticas y de data science, ayudo a su crecimiento y adopción
  • 5. 5 Su versatilidad los ha convertido en herramientas clave mas allá de simples sistemas de almacenamiento La nueva era de los Data Lakes, es mas bien la era del Object Storage
  • 6. 6 ✓ Data science ✓ Almacenamiento de bajo coste para datos “fríos” ✓ Offloading de cargas no-criticas desde sistemas mas caros (P. ej. EDW) ✓ Infraestructura para compartir datos con terceros (p. ej. Partners) ✓ Revivir antiguos proyectos Hadoop en infraestructura mas moderna ✓ Y muchos otros Nuevos usos para nuevos Data Lakes
  • 7. 7 El Object Storage necesita de otras piezas para ser útil 1. Para procesar datos masivos de forma eficiente, necesitamos un motor MPP (Massive Parallel Processing) que se capaz de trabajar en paralelo con volúmenes grandes de datos 1. Pero el motor solo no es suficiente. Ahí se quedo la primera generación, fallida, de Data Lakes 2. Necesitamos funcionalidad de gestión de datos mas amplia: • Control de acceso y seguridad de datos de grano mas fino, incluyendo las ultimas tendencias de definición de seguridad como políticas basadas en atributos (ABAC en Inglés) • Documentación, clasificación, búsqueda, controles de gobierno de datos, etc. • Capacidades de integración de datos externos, para cargar, modificar, y exponer la información en el formato adecuado 3. También hay que tener en cuenta que los datos en el Object Sotrage solo son una pequeña proporción de todos los datos de la organización 1. Todos los datos tienen valor y deben poder accederse y utilizarse 2. Todos los datos deben ser gestionados, gobernados y “securizados” con consistencia, al margen de su localización
  • 8. 8 Notas de campo - AWS re:Invent 2022
  • 9. 9 Para adaptarse a esta nueva realidad, Denodo incluye un motor MPP basado en Presto como parte de su Plataforma
  • 10. 10 Por qué hemos elegido Presto? • Diseñado para alto rendimiento • Originariamente creado por Facebook para proporcionar una plataforma interna de autoservicio para analíticas • Curtido en batalla • Uso a gran escala con datos masivos en compañías como Facebook (100 PB, 30k queries/día) o Uber (100M+ queries/día, 8k nodos) • Código abierto y Comunidad abierta • Presto es gestionado por la Linux foundation y un consorcio de múltiples proveedores incluyendo a Meta (Facebook), HP, Uber, Intel, Twitter, AliBaba, Ahana y Denodo • Esto garantiza una evolución firme y estable, sin que un Proyecto monopolice el desarrollo o decida cambiar la licencia en el futuro Growth of the Presto community, 2019-2022
  • 11. 11 Por qué hemos elegido Presto? Datos críticos para analítica empresarial __ Fuertes capacidades transaccionales __ Formatos propietarios Trabajos largos en batch con grandes volúmenes __ Uso para ML y IA __ Integración con plataformas de streaming Queries interactivas __ Alta concurrencia __ Datos en formatos abiertos Denodo MPP
  • 12. 12 Arquitectura de Referencia Denodo Virtualization Server Denodo Data Catalog Denodo Web Services On-prem data Other Apps IdP Denodo MPP Warehouse A Warehouse B AWS S3 bucket AWS Aurora
  • 13. 13 Cómo funciona? • Procesado eficiente y altamente escalable de contenido en el Object Sotrage • Uso native como cache y para capacidades de query acceleration • Seguridad y gobernanza integrada con la Plataforma Denodo Logical Layer MPP Coordinator MPP worker MPP worker MPP worker MPP worker Object Storage
  • 14. 14 Cómo funciona? • Despliegue automatizado utilizando Kubernetes y Helm charts • Soporte para versiones on-prem, OpenShift, y en nube (AKS en Azure, EKS en AWS, etc.) • Soporte native para autoescalado • Exploración grafica del Object Storage desde la interfaz web del Design Studio • Reconocimiento automático de archivos de datos (P. ej. Parquet), particiones, etc.
  • 15. Demo
  • 16. 16 Conclusiones 1. Las tecnologías de Object Storage, especialmente en la nube (S3, ADLS, etc.), ofrecen una solución flexible y atractiva para almacenamiento de grandes volúmenes de datos con bajo costo 2. Los motores MPP de nueva generación proporcionan procesado eficiente a gran escala sobre los datos almacenados en el Object Storage, definiendo una nueva generación de Data Lakes y Lakehouses 3. Una capa lógica, como Denodo, proporciona las capacidades de seguridad, gobierno, e integración de datos necesarias para introducir el Object Sotrage como parte de una estrategia global de gestión de datos, como el Data Fabric
  • 17. Q&A
  • 18. DENODO DATAFEST EMEA 2023 The Agile Data Management and Analytics Conference OCTOBER 25-26 2023 | BARCELONA, SPAIN REGISTER NOW www.denododatafest.com/EMEA
  • 19. Thanks! www.denodo.com info@denodo.com © Copyright Denodo Technologies. All rights reserved Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm, without prior the written authorization from Denodo Technologies.