8. Apache Arrow Flight - ビッグデータ用高速データ転送フレームワーク Powered by Rabbit 3.0.2
大量データの交換コスト
Figure 2: Communication between a client and a
server
Don’t Hold My Data Hostage –
A Case For Client Protocol Redesign
Mark Raasveldt
Centrum Wiskunde & Informatica
Amsterdam, The Netherlands
m.raasveldt@cwi.nl
Hannes Mühleisen
Centrum Wiskunde & Informatica
Amsterdam, The Netherlands
hannes@cwi.nl
Netcat (10.25s)
170.9
170.9
170.9
189.6
189.6
189.6
629.9
629.9
629.9
221.2
221.2
221.2
686.5
686.5
686.5
101.3
101.3
101.3
391.3
391.3
391.3
202
202
202
MongoDB
Hive
MySQL+C
MonetDB
PostgreSQL
DBMS X
DB2
MySQL
0 200 400 600
Wall clock time (s)
Operation
Connection
Query Execution
RSS + Transfer
Figure 1: Wall clock time for retrieving the lineitem
table (SF10) over a loopback connection. The
dashed line is the wall clock time for netcat to trans-
fer a CSV of the data. https://hannes.muehleisen.org/p852-muehleisen.pdf
9. Apache Arrow Flight - ビッグデータ用高速データ転送フレームワーク Powered by Rabbit 3.0.2
大量データの交換コスト
ボトルネックになりやすい
シリアライズ・デシリアライズ
a.
ネットワーク帯域
b.
✓
目指すところ
メイン処理がボトルネック
(メイン処理以外が十分速い)
✓
✓