What's new in SQL on Hadoop and Beyond

•

1 gostou•708 visualizações

DataWorks Summit/Hadoop Summit

Tecnologia

Agenda
● Introduction
● Presto at Facebook
● Presto users and use cases
● New features
● Roadmap

What is Presto
● Open source distributed SQL engine
● ANSI SQL syntax
● Custom built for interactive analytic queries
● Queries data across multiple data stores
● Flexible deployment (on premise or cloud)
● Extensible

Presto @ Facebook
● Ad-hoc/interactive queries for Hadoop warehouse
● Batch processing for Hadoop warehouse
● Analytics for user-facing products
● Analytics over various specialized stores

Hadoop Warehouse - Stats
● 1000s of internal daily active users
● Millions of queries each month
● Scan PBs of data every day
● Process trillions of rows every day
● 10s of concurrent queries

Presto for User-facing Products
● Requirements
○ Hundreds of ms to seconds latency, low variability
○ Availability
○ Update semantics
○ 10 - 15 way joins
● Stats
○ > 99.99% query success rate
○ 100% system availability
○ 25 - 200 concurrent queries
○ 1 - 20 queries per second
○ <100ms - 5s latency

Presto with Raptor
● Large data sets (petabytes)
● Milliseconds to seconds latency
● Predictable performance
● 5-15 minute load latency
● Reliable data loads (no duplicates, no missing data)
● High availability
● 10s of concurrent queries

Presto users
See more at https://github.com/prestodb/presto/wiki/Presto-Users

Netflix stats
Interactive, reporting, and app-driven queries
Data warehouse: 40PB in S3
~250 nodes across multiple clusters
~650 users with ~6K+ queries/day

Twitter stats
Ad-hoc and low-latency queries
~200 nodes dedicated to Presto
Parquet with nested data structures

Uber stats
2 clusters
100+ machines
2000+ queries per day
HDFS on premise

FINRA stats
120+ EC2 nodes (r3.4xlarge)
2+ PBs of data on S3 (bzip2 & orc)
200+ users
Distro supported by Teradata

SQL features
● DDL syntax
CREATE / ALTER / DROP TABLE
● DML syntax
INSERT / DELETE
● SQL features:
Data types: DECIMAL, VARCHAR(n), INT, SMALLINT, TINYINT
CUBE, ROLLUP, GROUPING SETS
INTERSECT
Non-equi joins
Uncorrelated subqueries

Other features
● Performance
Join and aggregation optimizations
● Connectors
Redis
MongoDB
● Kerberos
● Presto-Admin
● Ambari and YARN (via Apache Slider)

● Enterprise-grade ODBC & JDBC drivers
● BI tools certifications
Information Builders, Looker, MicroStrategy, MS Power BI, Qlik, Tableau, ZoomData
Drivers and BI tools

Short term
● LDAP
● SQL features
Data types: FLOAT, CHAR(n), VAR/BINARY(n)
EXISTS, EXCEPT
Correlated subqueries
Lambda expressions
Prepared statements
● Connectors
Accumulo (by Bloomberg)

Long term
● Materialized Query Tables
● Workload management
● Spill to disk
● Cost-based Optimizer
See more at https://github.com/prestodb/presto/wiki/Roadmap

More about Presto
GitHub: https://github.com/prestodb & https://github.com/Teradata/presto
Website: http://prestodb.io
Group: https://groups.google.com/group/presto-users
Distro: http://www.teradata.com/presto

Mais conteúdo relacionado

Mais procurados

Querying Druid in SQL with SupersetDataWorks Summit

A Big Data Lake Based on Spark for BBVA Bank-(Oscar Mendez, STRATIO)Spark Summit

End to End Processing of 3.7 Million Telemetry Events per Second using Lambda...DataWorks Summit/Hadoop Summit

#BDAM: EDW Optimization with Hadoop and CDAP, by Sagar Kapare from Cask Cask Data

Innovation in the Enterprise Rent-A-Car Data WarehouseDataWorks Summit

The Evolution of Big Data Pipelines at Intuit DataWorks Summit/Hadoop Summit

"Who Moved my Data? - Why tracking changes and sources of data is critical to...Cask Data

More Data, More Problems: Scaling Kafka-Mirroring Pipelines at LinkedIn confluent

Lego-like building blocks of Storm and Spark Streaming PipelinesDataWorks Summit/Hadoop Summit

High-Scale Entity Resolution in HadoopDataWorks Summit/Hadoop Summit

Big Data Day LA 2015 - The Big Data Journey: How Big Data Practices Evolve at...Data Con LA

Solr + Hadoop: Interactive Search for Hadoopgregchanan

Debunking Common Myths in Stream ProcessingDataWorks Summit/Hadoop Summit

Building Data Pipelines with Spark and StreamSetsPat Patterson

Analysis of Major Trends in Big Data AnalyticsDataWorks Summit/Hadoop Summit

Data Driving Yahoo Mail Growth and Evolution with a 50 PB Hadoop WarehouseDataWorks Summit

About CDAPCask Data

Big Telco - Yousun JeongSpark Summit

Learnings Using Spark Streaming and DataFrames for Walmart Search: Spark Summ...Spark Summit

Embeddable data transformation for real time streamsJoey Echeverria

Mais procurados (20)

Querying Druid in SQL with Superset

A Big Data Lake Based on Spark for BBVA Bank-(Oscar Mendez, STRATIO)

End to End Processing of 3.7 Million Telemetry Events per Second using Lambda...

#BDAM: EDW Optimization with Hadoop and CDAP, by Sagar Kapare from Cask

Innovation in the Enterprise Rent-A-Car Data Warehouse

The Evolution of Big Data Pipelines at Intuit

"Who Moved my Data? - Why tracking changes and sources of data is critical to...

More Data, More Problems: Scaling Kafka-Mirroring Pipelines at LinkedIn

Lego-like building blocks of Storm and Spark Streaming Pipelines

High-Scale Entity Resolution in Hadoop

Big Data Day LA 2015 - The Big Data Journey: How Big Data Practices Evolve at...

Solr + Hadoop: Interactive Search for Hadoop

Debunking Common Myths in Stream Processing

Building Data Pipelines with Spark and StreamSets

Analysis of Major Trends in Big Data Analytics

Data Driving Yahoo Mail Growth and Evolution with a 50 PB Hadoop Warehouse

About CDAP

Big Telco - Yousun Jeong

Learnings Using Spark Streaming and DataFrames for Walmart Search: Spark Summ...

Embeddable data transformation for real time streams

Destaque

Beyond TCODataWorks Summit/Hadoop Summit

Apache Hive 2.0: SQL, Speed, ScaleDataWorks Summit/Hadoop Summit

Producing Spark on YARN for ETLDataWorks Summit/Hadoop Summit

A Multi Colored YARNDataWorks Summit/Hadoop Summit

Knowledge from Noise DataWorks Summit/Hadoop Summit

Improving Hadoop Resiliency and Operational Efficiency with EMC IsilonDataWorks Summit/Hadoop Summit

Simplified Cluster Operation & TroubleshootingDataWorks Summit/Hadoop Summit

Building a Graph Database in Neo4j with Spark & Spark SQL to gain new insight...DataWorks Summit/Hadoop Summit

SQL on Hadoopnvvrajesh

Hybrid & Logical Data WarehouseHeungsoon Yang

Data Virtualization Reference Architectures: Correctly Architecting your Solu...Denodo

Scheduling Policies in YARNDataWorks Summit/Hadoop Summit

Introduction to sentrymozillazg

Supporting Data Services Marketplace using Data VirtualizationDenodo

End-to-End Security and Auditing in a Big Data as a Service DeploymentDataWorks Summit/Hadoop Summit

Apache HBase: State of the UnionDataWorks Summit/Hadoop Summit

Bridging the gap of Relational to Hadoop using Sqoop @ ExpediaDataWorks Summit/Hadoop Summit

Apache Sentry for Hadoop securitybigdatagurus_meetup

Quark Virtualization Engine for Analytics DataWorks Summit/Hadoop Summit

Operating and Supporting Apache HBase Best Practices and ImprovementsDataWorks Summit/Hadoop Summit

Destaque (20)

Beyond TCO

Apache Hive 2.0: SQL, Speed, Scale

Producing Spark on YARN for ETL

A Multi Colored YARN

Knowledge from Noise

Improving Hadoop Resiliency and Operational Efficiency with EMC Isilon

Simplified Cluster Operation & Troubleshooting

Building a Graph Database in Neo4j with Spark & Spark SQL to gain new insight...

SQL on Hadoop

Hybrid & Logical Data Warehouse

Data Virtualization Reference Architectures: Correctly Architecting your Solu...

Scheduling Policies in YARN

Introduction to sentry

Supporting Data Services Marketplace using Data Virtualization

End-to-End Security and Auditing in a Big Data as a Service Deployment

Apache HBase: State of the Union

Bridging the gap of Relational to Hadoop using Sqoop @ Expedia

Apache Sentry for Hadoop security

Quark Virtualization Engine for Analytics

Operating and Supporting Apache HBase Best Practices and Improvements

Semelhante a What's new in SQL on Hadoop and Beyond

Presto at Hadoop Summit 2016kbajda

Presto: SQL-on-anythingDataWorks Summit

IoT databases - review and challenges - IoT, Hardware & Robotics meetup - onl...Marcin Bielak

Real time analytics at uber @ strata data 2019Zhenxiao Luo

Presto – Today and Beyond – The Open Source SQL Engine for Querying all Data...Dipti Borkar

Presto talk @ Global AI conference 2018 Bostonkbajda

AmazonRedshiftAhasan Habib

WhereHows: Taming Metadata for 150K Datasets Over 9 Data PlatformsMars Lan

Presto: Fast SQL-on-Anything (including Delta Lake, Snowflake, Elasticsearch ...Databricks

Overview of data analytics service: Treasure Data ServiceSATOSHI TAGOMORI

Gluent Extending Enterprise Applications with Hadoopgluent.

Sparking up Data Engineering: Spark Summit East talk by Rohan SharmaSpark Summit

Even Faster: When Presto meets Parquet @ UberDataWorks Summit

Presto @ Uber Hadoop summit2017Zhenxiao Luo

Presto@UberZhenxiao Luo

Using Cloud Automation Technologies to Deliver an Enterprise Data FabricCambridge Semantics

A Day in the Life of a Druid Implementor and Druid's RoadmapItai Yaffe

Journey and evolution of Presto@GrabShubham Tagra

PrestoKnoldus Inc.

What to Expect for Big Data and Apache Spark in 2017 Databricks

Semelhante a What's new in SQL on Hadoop and Beyond (20)

Presto at Hadoop Summit 2016

Presto: SQL-on-anything

IoT databases - review and challenges - IoT, Hardware & Robotics meetup - onl...

Real time analytics at uber @ strata data 2019

Presto – Today and Beyond – The Open Source SQL Engine for Querying all Data...

Presto talk @ Global AI conference 2018 Boston

AmazonRedshift

WhereHows: Taming Metadata for 150K Datasets Over 9 Data Platforms

Presto: Fast SQL-on-Anything (including Delta Lake, Snowflake, Elasticsearch ...

Overview of data analytics service: Treasure Data Service

Gluent Extending Enterprise Applications with Hadoop

Sparking up Data Engineering: Spark Summit East talk by Rohan Sharma

Even Faster: When Presto meets Parquet @ Uber

Presto @ Uber Hadoop summit2017

Presto@Uber

Using Cloud Automation Technologies to Deliver an Enterprise Data Fabric

A Day in the Life of a Druid Implementor and Druid's Roadmap

Journey and evolution of Presto@Grab

Presto

What to Expect for Big Data and Apache Spark in 2017

Mais de DataWorks Summit/Hadoop Summit

Running Apache Spark & Apache Zeppelin in ProductionDataWorks Summit/Hadoop Summit

State of Security: Apache Spark & Apache ZeppelinDataWorks Summit/Hadoop Summit

Unleashing the Power of Apache Atlas with Apache RangerDataWorks Summit/Hadoop Summit

Enabling Digital Diagnostics with a Data Science PlatformDataWorks Summit/Hadoop Summit

Revolutionize Text Mining with Spark and ZeppelinDataWorks Summit/Hadoop Summit

Double Your Hadoop Performance with Hortonworks SmartSenseDataWorks Summit/Hadoop Summit

Hadoop Crash CourseDataWorks Summit/Hadoop Summit

Data Science Crash CourseDataWorks Summit/Hadoop Summit

Apache Spark Crash CourseDataWorks Summit/Hadoop Summit

Dataflow with Apache NiFiDataWorks Summit/Hadoop Summit

Schema Registry - Set you Data FreeDataWorks Summit/Hadoop Summit

Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...DataWorks Summit/Hadoop Summit

Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...DataWorks Summit/Hadoop Summit

Mool - Automated Log Analysis using Data Science and MLDataWorks Summit/Hadoop Summit

How Hadoop Makes the Natixis Pack More Efficient DataWorks Summit/Hadoop Summit

HBase in Practice DataWorks Summit/Hadoop Summit

The Challenge of Driving Business Value from the Analytics of Things (AOT)DataWorks Summit/Hadoop Summit

Breaking the 1 Million OPS/SEC Barrier in HOPS HadoopDataWorks Summit/Hadoop Summit

From Regulatory Process Verification to Predictive Maintenance and Beyond wit...DataWorks Summit/Hadoop Summit

Backup and Disaster Recovery in Hadoop DataWorks Summit/Hadoop Summit

Mais de DataWorks Summit/Hadoop Summit (20)

Running Apache Spark & Apache Zeppelin in Production

State of Security: Apache Spark & Apache Zeppelin

Unleashing the Power of Apache Atlas with Apache Ranger

Enabling Digital Diagnostics with a Data Science Platform

Revolutionize Text Mining with Spark and Zeppelin

Double Your Hadoop Performance with Hortonworks SmartSense

Hadoop Crash Course

Data Science Crash Course

Apache Spark Crash Course

Dataflow with Apache NiFi

Schema Registry - Set you Data Free

Building a Large-Scale, Adaptive Recommendation Engine with Apache Flink and ...

Real-Time Anomaly Detection using LSTM Auto-Encoders with Deep Learning4J on ...

Mool - Automated Log Analysis using Data Science and ML

How Hadoop Makes the Natixis Pack More Efficient

HBase in Practice

The Challenge of Driving Business Value from the Analytics of Things (AOT)

Breaking the 1 Million OPS/SEC Barrier in HOPS Hadoop

From Regulatory Process Verification to Predictive Maintenance and Beyond wit...

Backup and Disaster Recovery in Hadoop

Último

Tampa BSides - Chef's Tour of Microsoft Security Adoption Framework (SAF)Mark Simos

Unleash Your Potential - Namagunga Girls Coding ClubKalema Edgar

DevEX - reference for building teams, processes, and platformsSergiu Bodiu

TrustArc Webinar - How to Build Consumer Trust Through Data PrivacyTrustArc

Gen AI in Business - Global Trends Report 2024.pdfAddepto

DevoxxFR 2024 Reproducible Builds with Apache MavenHervé Boutemy

Commit 2024 - Secret Management made easyAlfredo García Lavilla

New from BookNet Canada for 2024: BNC CataList - Tech Forum 2024BookNet Canada

DMCC Future of Trade Web3 - Special EditionDubai Multi Commodity Centre

"Subclassing and Composition – A Pythonic Tour of Trade-Offs", Hynek SchlawackFwdays

Streamlining Python Development: A Guide to a Modern Project SetupFlorian Wilhelm

Powerpoint exploring the locations used in television show Time Clashcharlottematthew16

Story boards and shot lists for my a level piececharlottematthew16

SIP trunking in Janus @ Kamailio World 2024Lorenzo Miniero

How AI, OpenAI, and ChatGPT impact business and software.Curtis Poe

Connect Wave/ connectwave Pitch Deck PresentationSlibray Presentation

Anypoint Exchange: It’s Not Just a Repo!Manik S Magar

Vertex AI Gemini Prompt Engineering TipsMiki Katsuragi

What's New in Teams Calling, Meetings and Devices March 2024Stephanie Beckett

Dev Dives: Streamline document processing with UiPath Studio WebUiPathCommunity

What's new in SQL on Hadoop and Beyond

1. What's New in SQL-on-Hadoop and Beyond Martin Traverso, Facebook Kamil Bajda-Pawlikowski, Teradata

2. Agenda ● Introduction ● Presto at Facebook ● Presto users and use cases ● New features ● Roadmap

3. Introduction

4. What is Presto ● Open source distributed SQL engine ● ANSI SQL syntax ● Custom built for interactive analytic queries ● Queries data across multiple data stores ● Flexible deployment (on premise or cloud) ● Extensible

6. Presto at Facebook

7. Presto @ Facebook ● Ad-hoc/interactive queries for Hadoop warehouse ● Batch processing for Hadoop warehouse ● Analytics for user-facing products ● Analytics over various specialized stores

8. Hadoop Warehouse - Stats ● 1000s of internal daily active users ● Millions of queries each month ● Scan PBs of data every day ● Process trillions of rows every day ● 10s of concurrent queries

9. Hadoop Warehouse - Batch

10. Presto for User-facing Products ● Requirements ○ Hundreds of ms to seconds latency, low variability ○ Availability ○ Update semantics ○ 10 - 15 way joins ● Stats ○ > 99.99% query success rate ○ 100% system availability ○ 25 - 200 concurrent queries ○ 1 - 20 queries per second ○ <100ms - 5s latency

11. Presto with Raptor ● Large data sets (petabytes) ● Milliseconds to seconds latency ● Predictable performance ● 5-15 minute load latency ● Reliable data loads (no duplicates, no missing data) ● High availability ● 10s of concurrent queries

12. Presto users and use cases

13. Presto users See more at https://github.com/prestodb/presto/wiki/Presto-Users

14. Netflix stats Interactive, reporting, and app-driven queries Data warehouse: 40PB in S3 ~250 nodes across multiple clusters ~650 users with ~6K+ queries/day

15. Twitter stats Ad-hoc and low-latency queries ~200 nodes dedicated to Presto Parquet with nested data structures

16. Uber stats 2 clusters 100+ machines 2000+ queries per day HDFS on premise

17. FINRA stats 120+ EC2 nodes (r3.4xlarge) 2+ PBs of data on S3 (bzip2 & orc) 200+ users Distro supported by Teradata

18. New features

19. SQL features ● DDL syntax CREATE / ALTER / DROP TABLE ● DML syntax INSERT / DELETE ● SQL features: Data types: DECIMAL, VARCHAR(n), INT, SMALLINT, TINYINT CUBE, ROLLUP, GROUPING SETS INTERSECT Non-equi joins Uncorrelated subqueries

20. Other features ● Performance Join and aggregation optimizations ● Connectors Redis MongoDB ● Kerberos ● Presto-Admin ● Ambari and YARN (via Apache Slider)

21. ● Enterprise-grade ODBC & JDBC drivers ● BI tools certifications Information Builders, Looker, MicroStrategy, MS Power BI, Qlik, Tableau, ZoomData Drivers and BI tools

22. Roadmap

23. Short term ● LDAP ● SQL features Data types: FLOAT, CHAR(n), VAR/BINARY(n) EXISTS, EXCEPT Correlated subqueries Lambda expressions Prepared statements ● Connectors Accumulo (by Bloomberg)

24. Long term ● Materialized Query Tables ● Workload management ● Spill to disk ● Cost-based Optimizer See more at https://github.com/prestodb/presto/wiki/Roadmap

25. More about Presto GitHub: https://github.com/prestodb & https://github.com/Teradata/presto Website: http://prestodb.io Group: https://groups.google.com/group/presto-users Distro: http://www.teradata.com/presto

What's new in SQL on Hadoop and Beyond

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a What's new in SQL on Hadoop and Beyond

Semelhante a What's new in SQL on Hadoop and Beyond (20)

Mais de DataWorks Summit/Hadoop Summit

Mais de DataWorks Summit/Hadoop Summit (20)

Último

Último (20)

What's new in SQL on Hadoop and Beyond