More Related Content Similar to 20180227_最先端のディープラーニング 研究開発を支えるGPU計算機基盤 「MN-1」のご紹介 (20) More from Preferred Networks (20) 20180227_最先端のディープラーニング 研究開発を支えるGPU計算機基盤 「MN-1」のご紹介3. Preferred Networks, Inc. (PFN)
設 立:2014年3月
所在地:東京都千代田区大手町(日本)、カリフォルニア州バークレー(米国)
取締役:西川 徹、岡野原 大輔、長谷川 順一
出資者:
NTT、Fanuc、Toyota、博報堂DYHD、日立製作所、みずほ銀行、三井物産
ミッション:
IoT時代に向けた新しいコンピュータを創造する
あらゆるモノに知能をもたせ、分散知能を実現する
事業内容: IoT(Internet of Things) + 分散機械学習
交通システム
産業用ロボット
バイオヘルスケア
3
4. Humanoid Robot
PFNの注力領域:Industrial IoT に向けたAIを進
める
Consumer Industrial
Cloud
Device
PhotoGameText
Speech
Infrastructure
Factory Robot
Automotive
Healthcare
Smart City
Industry4.0
Industrial IoT
5. 自己紹介
土井裕介 (doi@preferred.jp)
2000/04-2016/07 大手電機会社 研究開発センター 主任研究員
コンピュータネットワーク、分散処理、IoTシステム等
2016/08-現在 株) Preferred Networks リサーチャー
コンピュータネットワークシステムに関する研究開発
社内情報システム・クラスタの維持管理運用
(情報システムチームリーダー)
8. 典型的な計算負荷
入力 数十次元
例: 障害物までの距離 (32方向LIDARを想定) と現在の速度
出力
各行動 (前進、後退、左右ターン、停止) のそれぞれの確率
学習時間: 数時間 (1GPU)
13. GAN(Generative Adversarial Net)敵対的生成モデル
[Goodfellow+14]
二人のプレイヤーが競い合うことで学習する
ニセモノを作る人(Generator)
目標はDiscriminatorを騙すこと
本物そっくりのお金を作るように学習されていく
ニセモノを見破る人(Discriminator)
目標はGeneratorの嘘を見破ること
ほんのわずかな違いも見抜けるように学習されていく
Generator
本物のお金
Discriminator
本物かな ?偽物のお金
1/2でどちらか
選ばれる
17. 代表的な学習手法
教師あり学習
入力xから出力yへの写像 y=f(x)を獲得する
学習データは正解のペア{(x, y)}
強化学習
環境において将来期待報酬を最大化する行動を獲得する
学習データは自分がとった状態とその時の報酬{(x, ri)}
教師なし学習
学習データはデータの集合{(xi)}、教師シグナルはそれ以外無い
観測情報はいくらでも得られる
[Doya 99]
大脳基底核
小脳
大脳皮質
24. ベンチマーク
LINPACK Benchmark
https://www.preferred-networks.jp/ja/news/pr20171114
「Preferred Networksのプライベート・スーパーコンピュータが
Top 500リストのIndustry領域で国内1位に認定」
ImageNet in 15 min.
https://www.preferred-networks.jp/ja/news/pr20171110
「深層学習の学習速度において世界最速を実現」
25. 機械学習による
LINPACKベンチマークの改善
LINPACK(HPL)
大規模行列計算(連立方程式の解を求める)
性能におおきな影響がある多数のパラメータ
計算の規模 (N) 計算の配置 (P, Q)
ブロードキャストアルゴリズムやさまざまなスレッショルド
パラメータの「勘と経験による調整」を自動化
Hyperopt[Bergstra+2011]
機械学習によるパラメータチューニングライブラリ
今回のLINPACKの最適化に適用
とはいえ、小規模から徐々に規模を増やしつつ探索範囲を狭めて
いかないと組み合わせ爆発+実行時間の拡大で大変なことになる
それなりのノウハウは依然必要
PFN鈴木
26. グループ内は早いがグループを出ると遅い
グループ内 : 56Gbps x 2, full bisection b/w
要はIBスイッチ1つ
グループをまたぐリンクは56Gbps x 2 のみ
最悪のケースでは、56Gbps x 16 x 2 が 56Gbps x 2に殺到する
27. HPL: High-Performance LINPACK Benchmark
実行効率改善への長い道程
2017-09-13
1 GPU: 83%
8 GPUs: 68%
2017-10-04
1 GPU: 83%
8 GPUs: 72%
8 nodes (in a group): 57%
8 nodes (across two groups): 51%
52 nodes in 4 groups: 23%
28. チューニングの効果
52 nodes in 4 groups: 23%
仮に8グループ128ノード (RPeak 4.92PF = 5000
兆flops弱) で10%まで効率が落ちたとすると
0.49 PF → Top500(’17/11)圏外
23%を維持したとしても1.13PF → 127位と128位
の間
最終的には28%, 1.39PFを達成して91位 (100位
以内!) にランクイン
32. Accurate, Large Minibatch SGD: Training
ImageNet in 1 Hour [Goyal et.al 2017]
With these simple techniques, our Caffe2-based system trains ResNet- 50
with a minibatch size of 8192 on 256 GPUs in one hour, while matching
small minibatch accuracy. Using commodity hardware, our
implementation achieves ∼90% scaling efficiency when moving from 8
to 256 GPUs.
33. ImageNet in 15min. ポイント [Akiba et.al 2017]
NVIDIA製NCCL2を利用
ノードをまたぐ集団通信アルゴリズムもオーバーヘッドが少ない
学習率の変更やチューニング
Goyalとほぼ同じ方式
Optimizerを学習初期の
RMSPropからスムーズに
SGDに入れ替える
通信だけfp16 計算はfp32
32k sample/バッチ
1024GPUでも
比較的順当にスケール