エヌビディアのディープラーニング戦略 TESLA P100 & NVIDIA DGX-1

エヌビディア合同会社マーケティング本部部長林憲一
エヌビディアのディープラーニング戦略
TESLA P100 & NVIDIA DGX-1

人工知能にとって驚くべき一年
AlphaGo
世界チャンピオンを倒す
マイクロソフトとグーグルが
画像認識で人間を超える
マイクロソフト
スーパーディープネットワーク
バークレーのブレット
全てのロボットを
一つのネットワークで
Deep Speech 2
二つの言語を
一つのネットワークで
新コンピューティングモデル
がポップカルチャーにも

拡がり続けるモダンAIの地平
1000以上のAIベンチャー
5000億円調達

ディープラーニングは新しいコンピューティングモデル
ディープラーニングによる物体認識
DNN + データ + HPC
従来からのコンピュータービジョン
専門家 + 時間
ディープラーニングが
人間を超える成果を達成
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2009 2010 2011 2012 2013 2014 2015 2016
Traditional CV
Deep Learning
ImageNet

エヌビディアディープラーニングプラットフォーム
コンピュータビジョン会話と音振る舞い
Object Detection Voice Recognition Translation
Recommendation
Engines
Sentiment Analysis
cuDNN cuBLAS cuSPARSE
NCCL
cuFFT
Mocha.jl
Image Classification
ディープラーニングSDK
フレームワーク
アプリケーション
GPU プラットフォーム
クラウド GPU
Tesla
P100
Tesla
K80/M40/M4
Jetson TX1
サーバー
DGX-1
GIE
DRIVEPX2
ディープラーニング数学ライブラリマルチ GPU 間通信

GPU コンピューティング 10年の歩み
2006 2008 2012 20162010 2014
Fermi: 世界初の
HPC 用 GPU
オークリッジ国立研究所の世界最速
GPUスーパーコンピュータ
世界初のHIVカプシドの
原子モデルシミュレーション
GPU AIシステムが碁の
世界チャンピオンを破る
スタンフォード大学がGPUを
利用したAIマシンを構築
世界初のヒトゲノムの
3次元マッピング
CUDA 発表
世界初の GPU
Top500 システム
Google がImageNetで
人間を超える
H1N1 の異変の
仕組みを解明
GPU を利用した
AlexNetが圧勝

倍精度 5.3TF | 単精度 10.6TF | 半精度 21.2TF
TESLA P100
ハイパースケールデータセンターのための
世界で最も先進的な GPU

TESLA P100 の先進テクノロジー
16nm FinFETPascal アーキテクチャ HBM2 積層メモリ NVLink システム
インターコネクト

あらゆる面で大きな飛躍
3倍のメモリバンド幅3倍の演算性能 5倍のGPU間通信速度
Teraflops(FP32/FP16)
5
10
15
20
K40
P100
(FP32)
P100
(FP16)
M40
K40
Bandwidth(GB/Sec)
40
80
120
160 P100
M40
K40
Bandwidth
1x
2x
3x
P100
M40

TESLA P100 for PCIe-based Servers
世界最先端のデータセンターアクセラレータ

TESLA P100 アクセラレータ
Tesla P100
for NVLink-enabled Servers
Tesla P100
for PCIe-Based Servers
倍精度 5.3 TF
単精度 10.6 TF
半精度 21.2 TF
メモリ容量 16 GB
メモリバンド幅 720 GB/S
倍精度 4.7 TF
単精度 9.3 TF
半精度 18.7 TF
Config 1: メモリ容量 16 GB
Config 2: メモリ容量 12 GB

ディープラーニングに最適化
8基の Tesla P100
NVLink システムインターコネクト
半精度 170 テラフロップス
主要AIフレームワークを加速
NVIDIA DGX-1
世界初のディープラーニング用スーパーコンピュータ

K40 K80 + cuDNN1
M40 + cuDNN4
P100 + cuDNN5
0x
10x
20x
30x
40x
50x
60x
70x
ディープラーニングの
イノベーションを
急速に加速
AlexNet training throughput based on 20 iterations,
CPU: 1x E5-2680v3 12 Core 2.5GHz. 128GB System Memory, Ubuntu 14.04
M40 bar: 8x M40 GPUs in a node
P100: 8x P100 NVLink-enabled
ディープラーニングトレーニングパフォーマンス
Caffe AlexNet
2013 2014 2015 2016
Speed-upofImages/SecvsK40in2013

日本での販売
NVIDIA DGX-1: 世界初のディープラーニング用スーパーコンピュータ
http://www.nvidia.co.jp/DGX1

エヌビディア合同会社マーケティング本部
エンタープライズマーケティングマネージャー佐々木邦暢

16
NVIDIA DGX-1 ソフトウェアスタック
ディープラーニング性能に最適化
ディープラーニング
トレーニングの加速
cuDNN NCCL
cuSPARSE cuBLAS cuFFT
コンテナを利用した
NVIDIA クラウド
マネジメント
DIGITS
GPU
アプリ
研究・開発適用・管理
パッケージング・
テスト

17
NVIDIA DGX-1 ソフトウェアスタック
ディープラーニング性能に最適化
NVIDIA DGX-1
NVIDIA cuDNN と NCCL
NVDocker
NVIDIA GPU ドライバ
GPU に最適化された Linux
クラウドマネジメント
• コンテナの作成と展開
• 複数ノードDGX-1クラスターの管理
• ジョブスケジューラー
• アプリケーションのリポジトリ
• システムのパフォーマンス監視
• ソフトウェアの更新機構
NVIDIA
DIGITS
GPU 最適化

18
統合されたプラットフォームとしての DGX-1
柔軟性、パフォーマンス、スケーラビリティ
クラウドを
活用
DGX-1
計算ノード
DGX-1
クラウド
サービス
DGX-1
リポジトリ
DGX-1のソフトウェアは常に進化を続けます
ノードには最小限のソフトウェア
すべてのジョブをコンテナで実行
変更に強い柔軟なシステム
NVIDIA が最適化したアプリケーション群
常に最新のアプリケーションを追加
パブリック及びプライベート、2種類のリポジトリ
ジョブスケジューリング
パフォーマンス監視
ノードの管理
ワークロードの分析
サービスとしての API

19
コンテナのスケジューリング
アプリケーションコンテナを DGX-1 で起動
NVCaffe
コンテナ
Mesos
compute.nvidia.com
DIGITS
DL SDK
Theano
Torch
NVCaffe
TensorFlow
CNTK
Kaldi
Chainer
MXNet
…
NVIDIA リポジトリ NVCaffe
コンテナ
NVCaffe
コンテナ
DGX-1
自前のアプリ 1
自前のアプリ 2
…
プライベート
リポジトリ
NFS
ボリューム

20
オンプレミス
DGX-1でのコンテナ起動の流れ
管理はクラウドベース・データはオンプレミスに
Web ブラウザ
ノードの管理
ユーザー認証
Docker イメージのプッシュ・プル
ジョブスケジューラーの Web 画面
ハードウェア・ソフトウェアのメトリクス
アプリケーションの全データ
NFS ストレージ
対話的にアプリケーションを利用
compute.nvidia.com 1. ユーザーがジョブを投入
3. ユーザーが
アプリケーションを
利用
DGX-1

エヌビディアのディープラーニング戦略 TESLA P100 & NVIDIA DGX-1

エヌビディアのディープラーニング戦略 TESLA P100 & NVIDIA DGX-1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to エヌビディアのディープラーニング戦略 TESLA P100 & NVIDIA DGX-1

Similar to エヌビディアのディープラーニング戦略 TESLA P100 & NVIDIA DGX-1 (20)

More from NVIDIA Japan

More from NVIDIA Japan (20)

Recently uploaded

Recently uploaded (10)

エヌビディアのディープラーニング戦略 TESLA P100 & NVIDIA DGX-1