3. スパコンの新しい応⽤: HPCとAI/ビッグデータ処理の融合
• ⼤規模グラフ処理
– Graph500:
⼤規模グラフの探索能⼒でスーパーコン
ピュータのビッグデータ処理を評価する
新しいベンチマーク
• ⼈⼯知能・機械学習
– コンピュータがデータからルールや知識
を⾃動的に学習
ex. 画像・映像・⾳声認識、⾃動運転、
バイオ・ヘルスケア、ロボット・ドローン
on the Graph500 Ranking of Supercomputers with
38621.4 GE/s on Scale 40
on the 10th Graph500 list published at the International
Supercomputing Conference, July 12, 2015.
Congratulations from the Graph500 Executive Committee
No.1
RIKEN Advanced Institute for Computational
Science (AICS)’s K computer
is ranked
Kronecker graph
A: 0.57, B: 0.19
C: 0.19, D: 0.05
TSUBAME-KFC
TSUBAME3.0
プロトタイプ
⾼度な学習のためにはマルチペタフロップス/バイト級の計算・スト
レージ性能が必要
⼈⼯的に⽣成された10万時間の⾳声データを
基に学習 [Baidu2015]
類似した
アーキテクチャ
GPUによるアクセラレーション
約1兆頂点、16兆辺のグラフ
82,944台, 663,552プロセスで0.45秒で
処理
4. 4
産総研AIクラウド(通称AAIC)とは?
• 400x NVIDIA Tesla P100s and Infiniband EDR accelerate various AI workloads
including ML (Machine Learning) and DL (Deep Learning).
• Advanced data analytics leveraged by 4PiB shared Big Data Storage and Apache
Spark w/ its ecosystem.
AI Computation System Large Capacity Storage System
Computation Nodes (w/GPU) x50
• Intel Xeon E5 v4 x2
• NVIDIA Tesla P100 (NVLink) x8
• 256GiB Memory, 480GB SSD
Computation Nodes (w/o GPU) x68
• Intel Xeon E5 v4 x2
• 256GiB Memory, 480GB SSD
Mgmt & Service
Nodes x16
Interactive Nodes
x2
400 Pascal GPUs
30TB Memory
56TB SSD
DDN SFA14K
• File server (w/10GbEx2,
IB EDRx4) x4
• 8TB 7.2Krpm NL-SAS
HDD x730
• GRIDScaler (GPFS)
Computation Network
Mellanox CS7520 Director Switch
• EDR (100Gbps) x216
Bi-direction 200Gbps
Full bi-section bandwidth
Service and Management Network
IB EDR (100Gbps) IB EDR (100Gbps)
GbE or 10GbE GbE or 10GbE
Firewall
• FortiGate 3815D x2
• FortiAnalyzer 1000E x2
UTM Firewall
40-100Gbps class
10GbE
SINET5
Internet
Connection
10-100GbE
>4PiB effective
RW100GB/s
既存のGPUスパコン
に類似した構成
5. GPU計算ノードの構成
• NVIDIA TESLA P100 x 8
• Intel Xeon E5-2630 v4 x 2 ソケット
– ソケットあたり10コア
– Hyper Threading (HT) で動作
– ノードあたり40コアにみえる
• 256GiBのメモリ
• 480GBのSSD
• EDR Infiniband
– 計算ノード
– GPFSストレージへ接続
5
Machine (256GB total)
NUMANode P#0 (128GB)
Package P#0
L3 (25MB)
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#0
PU P#0
PU P#20
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#1
PU P#1
PU P#21
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#2
PU P#2
PU P#22
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#3
PU P#3
PU P#23
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#4
PU P#4
PU P#24
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#8
PU P#5
PU P#25
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#9
PU P#6
PU P#26
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#10
PU P#7
PU P#27
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#11
PU P#8
PU P#28
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#12
PU P#9
PU P#29
PCI 10de:15f9
card1
renderD128
PCI 10de:15f9
card2
renderD129
PCI 10de:15f9
card3
renderD130
PCI 10de:15f9
card4
renderD131
PCI 8086:8d62
sda
PCI 1a03:2000
card0
controlD64
PCI 8086:8d02
NUMANode P#1 (128GB)
Package P#1
L3 (25MB)
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#0
PU P#10
PU P#30
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#1
PU P#11
PU P#31
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#2
PU P#12
PU P#32
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#3
PU P#13
PU P#33
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#4
PU P#14
PU P#34
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#8
PU P#15
PU P#35
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#9
PU P#16
PU P#36
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#10
PU P#17
PU P#37
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#11
PU P#18
PU P#38
L2 (256KB)
L1d (32KB)
L1i (32KB)
Core P#12
PU P#19
PU P#39
PCI 8086:1528
enp129s0f0
PCI 8086:1528
enp129s0f1
PCI 10de:15f9
card5
renderD132
PCI 10de:15f9
card6
renderD133
PCI 10de:15f9
card7
renderD134
PCI 10de:15f9
card8
renderD135
PCI 15b3:1013
ib0 mlx5_0
Indexes: physical
Date: Tue May 30 11:32:43 2017
MEM
CPU Cores
GPUs
Infiniband HBA
SSD
18. AIクラウドのソフトウェアエコシステム構築に向けて
• ⽐較的運⽤が保守的なHPC環境でもAI/ビッグデータ処理
のためのソフトウェアスタックが容易に構成可能
• いろいろある⽇本国内のGPU計算資源
→ 適切な⼿続き(HPCI, JHPCN,共同研究 etc.)を経れば利⽤可能
– 東京⼤学 Reedbush H, L
(NVIDIA Tesla P100 x 2 per node x 128ノード)
(NVIDIA Tesla P100 x 2 per node x 64ノード)
– 東京⼯業⼤学 TSUBAME3
(NVIDIA Tesla P100 x 4 per node x 540ノード)
– 九州⼤学 Ito
(NVIDIA Tesla P100 x 4 per node x 128ノード)
– 産総研 AAIC
(NVIDIA Tesla P100 x 8 per node x 50ノード)