Introduction new features in Spark 3.0

Spark v3.0の新機能の紹介
Kazuaki Ishizaki
IBM Research - Tokyo

About Me – Kazuaki Ishizaki
▪ Researcher at IBM Research – Tokyo
https://ibm.biz/ishizaki
– Compiler optimization, language runtime, and parallel processing
▪ Apache Spark committer from 2018/9 (SQL module)
▪ Work for IBM Java (Open J9, now) from 1996
– Technical lead for Just-in-time compiler for PowerPC
▪ ACM Distinguished Member
▪ SNS
– @kiszk
– https://www.slideshare.net/ishizaki/
2 Spark v3.0の新機能の紹介 - Kazuaki Ishizaki

Spark 3.0
▪ 一年半ぶりのメジャーリリース（2.4は、2018年11月）
– 昨年のSpark AI SummitのKeynoteでは、2019年後半リリースかなあ、
と言っていた

一年半の間に積み上がった約3500のissue
▪ 3369 issues (as of May 15, 2020)
– Features
– Improvements
– Bug fixes

Spark 3.0の新機能一覧
▪ The long wished-for release…
– More than 1.5 years passed after Spark 2.4 has been released
Keynote at Spark+AI Summit 2019 (April, 2019)
Source: Deep Dive into the New Features of Apache Spark 3.0

SQLの性能に関わる７大機能
1. Query planの新しい表示方法
2. Join hintsの強化
3. Adaptive query execution
4. Dynamic partitioning pruning
5. nested column pruning & pushdown の強化
6. Aggregation のコード生成の改良
7. ScalaとJavaの新バージョンのサポート
開発者とのインタ
フェースの改善
実行時最適化
Catalyst の改良
インフラの更新
今日は概要だけなので、コード例をご覧になりたい方はこちらを
https://www.slideshare.net/ishizaki/sql-performance-improvements-at-a-glance-in-apache-spark-30

SQLの性能に関わる７大機能
8 SQL performance improvements at a glance in Apache Spark 3.0 - Kazuaki Ishizaki
開発者とのインタ
フェースの改善
実行時最適化
Catalyst の改良
インフラの更新

2.4のquery plan読みにくい！
▪ ぱっと見では、理解できない
9 Spark v3.0の新機能の紹介 - Kazuaki Ishizaki SPARK-27395
scala> val query = “SELECT key, Max(val) FROM temp WHERE key > 0 GROUP BY key HAVING max(val) > 0”
scala> sql(“EXPLAIN “ + query).show(false)
From #24759
表示、横に長すぎ！
!== Physical Plan ==
*(2) Project [key#2, max(val)#15]
+- *(2) Filter (isnotnull(max(val#3)#18) AND (max(val#3)#18 > 0))
+- *(2) HashAggregate(keys=[key#2], functions=[max(val#3)], output=[key#2, max(val)#15,
max(val#3)#18])
+- Exchange hashpartitioning(key#2, 200)
+- *(1) HashAggregate(keys=[key#2], functions=[partial_max(val#3)], output=[key#2,
max#21])
+- *(1) Project [key#2, val#3]
+- *(1) Filter (isnotnull(key#2) AND (key#2 > 0))
+- *(1) FileScan parquet default.temp[key#2,val#3] Batched: true,
DataFilters: [isnotnull(key#2), (key#2 > 0)], Format: Parquet, Location:
InMemoryFileIndex[file:/user/hive/warehouse/temp], PartitionFilters: [], PushedFilters:
[IsNotNull(key), GreaterThan(key,0)], ReadSchema: struct<key:int,val:int>
1

3.0では、読みやすさを改善
▪ Queryの操作と、付随する情報を、分離して表示
!== Physical Plan ==
Project (8)
+- Filter (7)
+- HashAggregate (6)
+- Exchange (5)
+- HashAggregate (4)
+- Project (3)
+- Filter (2)
+- Scan parquet default.temp1 (1)
(1) Scan parquet default.temp [codegen id : 1]
Output: [key#2, val#3]
(2) Filter [codegen id : 1]
Input : [key#2, val#3]
Condition : (isnotnull(key#2) AND (key#2 > 0))
(3) Project [codegen id : 1]
Output : [key#2, val#3]
Input : [key#2, val#3]
(4) HashAggregate [codegen id : 1]
Input: [key#2, val#3]
(5) Exchange
Input: [key#2, max#11]
(6) HashAggregate [codegen id : 2]
Input: [key#2, max#11]
(7) Filter [codegen id : 2]
Input : [key#2, max(val)#5, max(val#3)#8]
Condition : (isnotnull(max(val#3)#8) AND
(max(val#3)#8 > 0))
(8) Project [codegen id : 2]
Output : [key#2, max(val)#5]
Input : [key#2, max(val)#5, max(val#3)#8]
scala> sql(“EXPLAIN FORMATTED “ + query).show(false)
1

Joinの全種類を指定できるようになった
▪
Join type 2.4 3.0
Broadcast BROADCAST BROADCAST
Sort Merge - SHUFFLE_MERGE
Shuffle Hash - SHUFFLE_HASH
Cartesian - SHUFFLE_REPLICATE_NL
例
SELECT /*+ SHUFFLE_HASH(a, b) */ * FROM a, b
WHERE a.a1 = b.b1
val shuffleHashJoin = aDF.hint(“shuffle_hash”)
.join(bDF, aDF(“a1”) === bDF(“b1”))
2

JoinとReduceに関するパラメータの自動チューン
▪ 実行時の統計情報（例：データの大きさ）を用いて、下記の３つ
の最適化を行う
1. Reducerの数の自動チューン
2. Joinのtypeの実行時変更
3. SkewがあるJoinの最適化
12 Spark v3.0の新機能の紹介 - Kazuaki Ishizaki SPARK-23128 & 30864
TPC-DSのQ77で8倍速くなった Source: Adaptive Query Execution: Speeding Up Spark SQL at Runtime
手動でパラメータチューニングを繰り返す必要が無くなる
3
注意：3.0ではデフォルト offなので、プロパティを指定する必要がある

スキューのあるJoinはSpark 2.4では遅かった
▪ Joinにかかる時間は一番大きなパーティションの処理時間で決まる
– この場合は、Partition 2
Table BTable A
Partition 2
Partition 0
Partition 1
table Aとtable BのJoin
3

スキューのあるJoinはSpark 3.0で高速化される
▪ 大きなパーティションは自動的に複数のパーティションに分割
– 実行時間が平均化され、高速になる
Table BTable A
Partition 2a
Partition 0
Partition 1
spark.sql.adaptive.enabled -> true (false in Spark 3.0)
spark.sql.adaptive.skewJoin.enabled-> true (false in Spark 3.0)
Partition 2b
Split
Duplicate
3

Dynamic Partitioning Pruning
▪ Joinの際に使われないパーティションを、テーブルから読むのを
止める
– Joinの別のテーブルのfilterの情報を使う
Source: Dynamic Partition Pruning in Apache Spark
TPC-DS 10TBのQ98で85倍速くなった
4

2.4での素直なBroadcast Hash Join
▪ 左側の大きなテーブルのデータを、全て読んでいた
– Joinでは使われないデータも、I/Oに時間をかけていた
Broadcast
Table small
Table large
filter
Broadcast hash
join
FileScan
4

3.0ではDynamic Filterを実装
▪ 別のテーブルのフィルタ情報を受け取って、pushdownを適用し
読み出すデータ量を削減する
Broadcast
Table small
Table large
filter
FileScan with
pushdown
Broadcast hash
join
FileScan
4

2.4ではネストしたカラムのColumn Pruning
が動いたり動かなかったり
Source: #23964
Project Limit
col1 col2
_1 _2
Project Repartition
col1 col2
_1 _2 Project
5
scala> sql("SELECT col2._1 FROM (SELECT /*+ REPARTITION(1) */ col2 FROM temp)").show
scala> spark.range(1000).map(x => (x, (x, s"$x" * 10))).toDF("col1", "col2").write.parquet("/tmp/p")
scala> spark.read.parquet("/tmp/p").createOrReplaceTempView("temp")
scala> sql("SELECT col2._1 FROM (SELECT col2 FROM tp LIMIT 1000000)").show
Parquet

3.0ではネストしたカラムのColumn Pruning
がどのオペレーションでも動くようにした
Project Repartition
col1 col2
_1 _2
Source: #23964
5
scala> sql("SELECT col2._1 FROM (SELECT /*+ REPARTITION(1) */ col2 FROM temp)").show
scala> spark.read.parquet("/tmp/p").createOrReplaceTempView("temp")
scala> sql("SELECT col2._1 FROM (SELECT col2 FROM tp LIMIT 1000000)").show
Parquet

ネストしたカラムのParquetでのPushdownを
Spark 3.0では動くようにした
scala> spark.read.parquet(“/tmp/p”).filter(“col2._1 = 100").explain
Project
col1 col2
_1 _2 Filter
Source: #28319
col2._1=100を含む
チャンク
col2._1=100
を含む行
5
Parquet

SQLがCPUで実行されるまで
▪ Catalystが与えられたクエリーをJavaコードに変換する
▪ OpenJDKの中のHotSpotコンパイラが、CPUが解釈できる機械語
に変換する
Catalyst
Javaコード
生成SQL
Spark
HotSpot
6

SQLがCPUで実行されるまで
▪ Javaコードがあまりに大きいと、HotSpotコンパイラが機械語へ
の変換を諦める
– 1メソッドあたり、8000 Javaバイトコード以上
Catalyst
Javaコード
生成SQL
Spark
HotSpot
6

AggregationのJavaコードを小さくする
▪ Javaコードがあまりに大きいと、 HotSpotコンパイラが機械語へ
の変換を諦める
– 1メソッドあたり、8000 Javaバイトコード以上
CatalystがJavaコードに変換する際に、大きなク
エリーは、小さなメソッドに分割する (thanks to
@maropu)
6

新しいJavaとScalaのサポート
▪ Java 11 (OpenJDKは2026年までのLong-Term-Support)
– HotSpotコンパイラでのさらなる最適化
– G1GCの改良 (for large heap)
– 実験的な新しいZGC (短いレイテンシ)
▪ Scala 2.12 (2016年11月リリース)
– Java8の新しい機能を使うために、新しく設計された
もちろん、その他のライブラリも新しくなっています
7

まとめ
▪ SQLの性能に関わる７大機能
今日は概要だけなので、コード例をご覧になりたい方はこちらを
https://www.slideshare.net/ishizaki/
sql-performance-improvements-at-a-glance-in-apache-spark-30

リンク集
▪ SQL Performance Improvements at a Glance in Apache Spark
3.0
– https://www.slideshare.net/ishizaki/sql-performance-improvements-at-a-
glance-in-apache-spark-30
▪ Introducing Apache Spark 3.0: Now available in Databricks
Runtime 7.0
– https://databricks.com/jp/blog/2020/06/18/introducing-apache-spark-3-0-
now-available-in-databricks-runtime-7-0.html
▪ Deep Dive into the New Features of Apache Spark 3.0
– https://databricks.com/jp/session_na20/deep-dive-into-the-new-features-
of-apache-spark-3-0

リンク集
▪ Now on Databricks: A Technical Preview of Databricks Runtime 7
Including a Preview of Apache Spark 3.0
– https://databricks.com/blog/2020/05/13/now-on-databricks-a-technical-
preview-of-databricks-runtime-7-including-a-preview-of-apache-spark-3-
0.html
▪ Quick Overview of Upcoming Spark 3.0 (in Japanese)
– https://www.slideshare.net/maropu0804/quick-overview-of-upcoming-
spark-30
▪ Madhukar’s Blog
– https://blog.madhukaraphatak.com/

リンク集
▪ Adaptive Query Execution: Speeding Up Spark SQL at Runtime
– https://databricks.com/jp/session_na20/adaptive-query-execution-
speeding-up-spark-sql-at-runtime
– https://databricks.com/blog/2020/05/29/adaptive-query-execution-
speeding-up-spark-sql-at-runtime.html
▪ Dynamic Partition Pruning in Apache Spark
– https://databricks.com/session_eu19/dynamic-partition-pruning-in-
apache-spark

Introduction new features in Spark 3.0

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Introduction new features in Spark 3.0

Semelhante a Introduction new features in Spark 3.0 (20)

Mais de Kazuaki Ishizaki

Mais de Kazuaki Ishizaki (20)

Introduction new features in Spark 3.0