3. Presentación Speaker
Ing. Eduardo Castro, PhD
eduardo.castro@linchpinpeople.com
Microsoft Regional Director
Microsoft Data Platform MVP
Databricks Certified ADB
Databricks Spark Certification
Databricks ETL Certification
Databricks Machine Learning Certification
4. #GIRASPEAKERLATAM
Introducción a Azure Databricks
Ing. Eduardo Castro, PhD
Máster en Transformación Digital y Desarrollo de Negocio
Universidad de Barcelona
5. A PA C H E S PA R K
motor de procesamiento de datos a gran escala Unificado, distribuido, código abierto
Spark Core Engine
Spark SQL
Consultas
Interactivas
Yarn Mesos
Standalone
Scheduler
Spark MLlib
Aprendizaje
Máquina
Spark
Streaming
Procesamiento de
flujos
GraphX
Graph
11. #GIRASPEAKERLATAM
D ATA B R I C K S : L A P L ATA F O R M A
D E A N A L Í T I C A U N I F I C A D A
▪
▪
▪
▪
12. D A T A B R I C K S U N S P A R K M U Y V E L O Z
Los benchmarks han demostrado que Databricks tiene mejor rendimiento
FUENTE: Benchmarking de grandes plataformas de datos SQL en la nube
13. R E N D I M I E N T O D E S PA R K 3 . 0
• Mejora del rendimiento 2x en TPC-DS sobre Spark 2.4, habilitada por la
ejecución de consultas adaptables, la poda dinámica de particiones y otras
optimizaciones
• ANSI SQL compliance
• Mejoras significativas en las API de pandas, incluidas las sugerencias de tipo
Python y las UDF de pandas adicionales
• Mejor manejo de errores de Python, simplificando las excepciones de
PySpark
• Nueva interfaz de usuario para la transmisión por secuencias estructurada
• Aceleraciones de hasta 40x para llamar a funciones definidas por el usuario
de R
15. Optimized Databricks Runtime Engine
DATABRICKS I/O SERVERLESS
Collaborative Workspace
Cloud storage
Data warehouses
Hadoop storage
IoT / streaming data
Rest APIs
Machine learning models
BI tools
Data exports
Data warehouses
Azure Databricks
Deploy Production Jobs & Workflows
APACHE SPARK
MULTI-STAGE PIPELINES
DATA ENGINEER
JOB SCHEDULER NOTIFICATION & LOGS
DATA SCIENTIST BUSINESS ANALYST
A Z U R E D A T A B R I C K S
16. A R Q U I T E C T U R A D E C L U S T E R D E D A T A B R I C K S
Azure DB
for
PostgreSQL
Webapp
Azure Compute
Cluster
Manager
Databricks’ Azure Account User’s Azure Account
Azure Compute
Spark
Driver
Azure Compute
Spark
Worker
Azure Compute
Spark
Worker
Jobs
FileSystem
Service
Spark
History
Server
Log
Daemon
Log
Daemon