O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

GPU スパコン最新情報

1.720 visualizações

Publicada em

2019年1月17日に開催された GPU Deep Learning Community #10でのエヌビディア古家の発表資料です。

Publicada em: Tecnologia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

GPU スパコン最新情報

  1. 1. Shinnosuke Furuya, Ph.D., HPC Developer Relations, 2019/01/17 GPUスパコン最新情報
  2. 2. 2 NVIDIA TESLA プラットフォーム
  3. 3. 3 NVIDIA GPU 製品のおおまかな一覧 Maxwell (2014) Pascal (2016) Volta (2017) GeForceゲーミング Quadro プロフェッショナル グラフィックス M40 M6000 GTX 980 HPC 用 GRID 用 DL 用 M60 GP100P5000 Kepler (2012) K6000 GTX 780 K80 K2 K520 GTX 1080 TITAN X V100データセンタ & クラウド Tesla P40 P100 P6 TITAN V Fermi (2010) M2070 6000 GTX 580 P4 GV100 M6 M10 Turing (2018) RTX 8000 RTX 2080 Ti New! T4
  4. 4. 4 NVIDIA TESLA V100 AI と HPC のための大きな飛躍 TENSOR コアを搭載した VOLTA アーキテクチャ 210 億トランジスタ | TSMC 12nm FFN | 815mm2 5120 CUDA コア 7.8 FP64 TFLOPS | 15.7 FP32 TFLOPS 125 Tensor TFLOPS 総レジスタファイル 20MB | 16MB キャッシュ 900 GB/s の 32GB HBM2 300 GB/s NVLink
  5. 5. 5 5 年間で 500 倍 2 個の GeForce GTX 580 (2012年 12月) フレームワーク システム ソフトウェア スタック cuda-convnet NCCL N/A cuDNN N/A cuBLAS 5.0 cuFFT 5.0 NPP 5.0 CUDA 5.0 Res Mgr R304 DGX-2 (2018年 3月) AlexNet フレームワーク システム ソフトウェア スタック NV Caffe 0.17 NCCL 2.2 cuDNN 7.1 cuBLAS 9.2 cuFFT 9.2 NPP 9.2 CUDA 9.2 Res Mgr R396 0 2 4 6 8 2 個の GTX 580 DGX-2 AlexNet を学習する時間 6 日 18 分
  6. 6. 6 GPUスパコン
  7. 7. 7 スパコンランキング TOP500 上位5/10がGPUスパコン システム名 概要 サイト ピーク性能 (TFlops) 1 Summit IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 143,500.0 2 Sierra IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 94,640.0 5 Piz Daint Intel Xeon, NVIDIA Tesla P100, Cray Aries interconnect スイス 21,230.0 7 ABCI Intel Xeon, NVIDIA Tesla V100, Mellanox IB EDR 日本 19,880.0 9 Titan AMD Opteron, NVIDIA Tesla K20x, Cray Gemini interconnect アメリカ 17,590.0 Source: https://www.top500.org
  8. 8. 8 スパコンランキング GREEN500 上位8/10がGPUスパコン システム名 概要 サイト 電力効率 (GFlops/watts) 2 DGX SaturnV Volta Intel Xeon, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 17.604 3 Summit IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 14.668 4 ABCI Intel Xeon, NVIDIA Tesla V100, Mellanox IB EDR 日本 14.423 5 TSUBAME3.0 Intel Xeon, NVIDIA Tesla P100, Intel OPA 日本 13.704 6 Sierra IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR アメリカ 12.723 7 AIST AI Cloud Intel Xeon, NVIDIA Tesla P100, Mellanox IB EDR 日本 12.681 8 MareNostrum P9 CTE IBM POWER9, NVIDIA Tesla V100, Mellanox IB EDR スペイン 11.865 10 Taiwania 2 Intel Xeon, NVIDIA Tesla V100, Mellanox IB EDR 台湾 11.285 Source: https://www.top500.org
  9. 9. 9 スパコンランキング TOP 500 アクセラレータのトレンドは NVIDIA GPU 0 20 40 60 80 100 120 140 Jun-11 Jun-12 Jun-13 Jun-14 Jun-15 Jun-16 Jun-17 Jun-18 NVIDIA A社 B社 その他 Source: https://www.top500.org
  10. 10. 10 ゴードン ベル賞ファイナリスト 5/6 チームが GPU スパコン利用 分野 主な利用スパコン 備考 東京大学 地震 Summit オークリッジ国立研究所 原子分子 Summit ローレンス バークレー国立研究所 気象 Summit Scalability and Time to Solution ユーリヒ総合研究機構 原子核 Summit 清華大学 グラフ処理 TaihuLight オークリッジ国立研究所 ゲノミクス Summit Sustained Performance Prize Source: https://sc18.supercomputing.org
  11. 11. 11 MLPERF
  12. 12. 12First Industry Benchmark for Measuring AI Performance https://mlperf.org/
  13. 13. 13 MLPerf Usages & Workloads Diverse Use-Cases Towards a Full Performance Picture Usage Network Data-Set Image Classification ResNet-50 v1.5 ImageNet Object Detection (Heavy Weight) Mask R-CNN COCO Object Detection (Light Weight) Single-Shot Detector COCO Translation (recurrent) NMT WMT English-German Translation (non-recurrent) Transformer WMT English-German Recommendation Neural Collaborative Filtering MovieLens 20M Reinforcement Learning Mini-Go
  14. 14. 14 The Fastest Training Performance at Scale NVIDIA GPUs Won All Six Accelerated Workloads. IMAGE CLASSIFICATION OBJECT DETECTION (LIGHT WEIGHT) TRANSLATION (RECURRENT) OBJECT DETECTION (HEAVY WEIGHT) TRANSLATION (NON-RECURRENT) RECOMMENDATION MLPerf Results NVIDIA GPU up to 3.6X Faster Multiple NVIDIA GPU Systems Multiple Google TPU Systems TPU V3 No Result TPU V3 No Results 1.2X 3.2X 3.6X TPU V3 No Result
  15. 15. 15 Chip-to-Chip Performance Comparison NVIDIA GPUs scaled further, faster and, on a chip-per-chip basis IMAGE CLASSIFICATION TRANSLATION (RECURRENT) OBJECT DETECTION (LIGHT WEIGHT) NCF OBJECT DETECTION (HEAVY WEIGHT) TRANSLATION (NON-RECURRENT) MLPerf Chip-To-Chip Performance NVIDIA V100 Google TPUv3 TPU V3 No Results TPU V3 No Results TPU V3 No Results 1.1X 1.2X 1.6X Normalized chip comparison using reported performance on configurations that have similar number of chips . For TPU: Best 20 chip TPUv3 submission.

×