Mais conteúdo relacionado
Semelhante a エヌビディアのディープラーニング戦略 (20)
Mais de NVIDIA Japan (20)
エヌビディアのディープラーニング戦略
- 2. 7
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
2009 2010 2011 2012 2013 2014 2015 2016
ディープラーニングによって加速する AI 競争
IBM Watson が自然言語処理の
ブレークスルーを実現
Facebook が Big Sur を発表
Baidu の Deep Speech 2
人間を超える
Google が TensorFlow を発表
マイクロソフトと中国の科学技術大学が
IQ テストで人間を超える
トヨタ自動車が人工知能研究所に
1200億円投資
IMAGENET
正答率
従来 CV 手法 ディープラーニング
- 6. 13
TESLA M40
世界最速のディープラーニング
アクセラレーター
0 1 2 3 4 5 6 7 8 9
Tesla M40
CPU
8倍高速
Caffe パフォーマンス
# of Days
Caffe Benchmark: AlexNet training throughput based on 20 iterations,
CPU: E5-2697v2 @ 2.70GHz. 64GB System Memory, CentOS 6.2
CUDA コア 3072
理論ピーク性能 7 TFLOPS
GDDR5 メモリ 12 GB
メモリバンド幅 288 GB/s
消費電力 250W
トレーニングにかかる時間を8日から1日へ短縮
- 7. 14
TESLA M4
ハイパースケールワークロードを
加速して最高スループットを実現
CUDA コア 1024
理論ピーク性能 2.2 TFLOPS
GDDR5 メモリ 4 GB
メモリバンド幅 88 GB/s
フォームファクター PCIe Low Profile
消費電力 50 – 75 W
ビデオ処理
4倍
イメージ処理
5倍
ビデオ
トランスコード
2倍
機械学習
推論
2倍
H.264 & H.265, SD & HD
手振れ補正、画質向上 リサイズ、フィルター、検索、
自動画質向上
Preliminary specifications. Subject to change.
- 11. 20
cuDNN4 ディープラーニング用ライブラリ
学習の高速化
畳み込み演算のアルゴリズムに2D FFTタイリングを追加
Batch Normalization処理の追加
normalizationFoward関数、normalizationBackward関数の追加
畳み込み演算のFP16サポート(Tegra X1 only)
cudnnConvolutionForward関数のFP16対応
推論処理の高速化
convolutionFowardのbatchsize=1の場合の最適化
学習をより速く 推論を高速に
Tiled FFT up to 2x faster on VGG Layers
0.0x
1.0x
2.0x
3.0x
0.0x
1.0x
2.0x
3.0x
Small Batch Sizes Up to 2x faster on Alexnet Layers
- 14. 23
CUDA7.5: cuBLAS & cuSPARSE
cuSPARSE
密行列×疎ベクタールーチン
自然言語処理を高速化
Bag of Words(BoW)をより高速に処理
cusparse{S,D,C,Z}gemvi()
y = α ∗ op(A)∗x + β∗y
cuBLAS
FP16(半精度浮動小数点)ストレージ
cublasSgemmEx()
FP16データ入出力対応の行列積 (演算はFP32)
ディープラーニング SDK
- 15. 24
NVIDIA Collective Collection Library(NCCL)
マルチGPU集合通信ライブラリ
• https://github.com/NVIDIA/nccl
all-gather, reduce, broadcast など標準的な集合通信の処理をバンド幅が出るように最適化
シングルプロセスおよびマルチプロセスで使用する事が可能
ディープラーニング SDK
- 30. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
docomo Developer support をご存じの方?
- 31. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
協創による新規事業創出をめざし、APIを提供
- 32. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
•17カテゴリ
(25種類)のAPI
•無償
(制限の範囲内で)
docomo Developer support
APIカテゴリ APIカテゴリ
シナリオ対話 文字認識
発話理解 トレンド記事抽出
雑談対話 動作推定
知識Q&A ジオフェンシング
言語解析 地図
音声認識 フォトコレクション
音声合成 ドコモ電話帳
画像認識 データ保管BOX
IoT機器制御
- 33. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
docomo Developer support
• シナリオ対話
- 34. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
docomo Developer support
• 雑談対話
- 35. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
docomo Developer support
• 画像認識
- 36. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2つの画像認識API
1.オブジェクト認識、商品認識
• 個別具体的な名称で認識
• 局所特徴量ベース
2. カテゴリ認識
• 抽象的なコンセプトを認識
• Deep Learningを利用
- 37. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2つの画像認識API
1.オブジェクト認識、商品認識
• 個別具体的な名称で認識
• 局所特徴量ベース
画像認識
エンジン
自然言語
処理入門
- 38. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2つの画像認識API
1.オブジェクト認識、商品認識
• 個別具体的な名称で認識
• 局所特徴量ベース
画像認識
エンジン
・商品名:自然言語処理入門
・著者:ドコモ花子
・発売年:1989/9/01
自然言語
処理入門
・商品名:画像認識API入門
・著者:ドコモ太郎
・発売年:2014/9/17
- 39. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2つの画像認識API
1.オブジェクト認識、商品認識
• 個別具体的な名称で認識
• 局所特徴量ベース
画像認識
エンジン
自然言語
処理入門
- 40. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2つの画像認識API
1.オブジェクト認識、商品認識
• 個別具体的な名称で認識
• 局所特徴量ベース
画像認識
エンジン
・商品名:自然言語処理入門
・著者:ドコモ花子
・発売年:1989/9/01
・商品名:画像認識API入門
・著者:ドコモ太郎
・発売年:2014/9/17
自然言語
処理入門
- 41. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2つの画像認識API
1.オブジェクト認識、商品認識
• 個別具体的な名称で認識
• 局所特徴量ベース
画像認識
エンジン
・商品名:画像認識API入門
・著者:酒井 俊樹
・発売年:2014/9/17
- 42. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2つの画像認識API
1.オブジェクト認識、商品認識
• 個別具体的な名称で認識
• 局所特徴量ベース
画像認識
エンジン
×
・商品名:画像認識API入門
・著者:酒井 俊樹
・発売年:2014/9/17
自然言語
処理入門
- 43. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
1.オブジェクト認識、商品認識の特徴
大規模・高速(700万件・1秒)
遮蔽・回転OK
画像1枚から
バリエーションのある
物体は苦手
特徴量は手作り
・商品名:画像認識API入門
・著者:ドコモ太郎
・発売年:2014/9/17
・商品名:自然言語処理入門
・著者:ドコモ花子
・発売年:1999/12/21
…特徴量
比較
自然言語
処理入門
・・
・
画像認識
エンジン
- 44. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2つの画像認識API
1.オブジェクト認識、商品認識
• 個別具体的な名称で認識
• 局所特徴量ベース
2. カテゴリ認識
• 抽象的なコンセプトを認識
• Deep Learningを利用
- 45. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2. カテゴリ認識(Deep Learning)
シーン認識
エンジン
スキー/スノボ
海
運動会
- 46. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2. カテゴリ認識(Deep Learning)
料理認識
エンジン
豚骨ラーメン
醤油ラーメン
焼きそば
- 47. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2. カテゴリ認識(Deep Learning)
ドクツルタケキノコ
認識
チューリップ花認識
ファッション認
識
カットソー
グレー系
ボーダー
- 48. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
2. カテゴリ認識(Deep Learning)
バリエーションOK
とりあえず学習・認識
大量のデータが必要
並列分散処理
入力 出力
…
…
…
…
…
低次の層で特徴を抽出
取り出すべき特徴も
学習で決める
取り出した特徴を
元に認識
- 49. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
Deep Learningの学習時間(イメージ)
GPU
CPU
約20倍
約7日(20000iter)
半日弱
大規模データの”学習”ではGPUが必須
※あくまでイメージです。画像枚数やネットワークによって変わりま
す。
・CPU:Intel Xeon(R) CPU E5-2643
・GPU:NVIDIA Tesla K80
- 50. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
Deep Learningの認識時間(イメージ)
GPU
CPU
約10倍
数百ms/枚
数十ms/枚
以下に依存して選択
・使うネットワーク構造
・求める処理速度
※あくまでイメージです。画像枚数やネットワークによって変わりま
す。
・CPU:Intel Xeon(R) CPU E5-2643
・GPU:NVIDIA Tesla K80
- 51. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
Deep Learningを用いたAPIのシステム構成
画像認識API
(CPU)
アプリ開発者
登録
アクセス用
キー
開発
画像+
モデル名
認識結果
タグ+スコア
ドコモ側で学習済みの
Deep Learningの認識器(モデル)
シーン認識 料理認識
学習用サーバ
(GPU)
※返却は1秒以内
- 52. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
Deep LearningのAPIのサービス利用
• シーン認識
運動会
アルバムアプリ
×
クラウド管理支援
×
- 53. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
Deep LearningのAPIのサービス利用
• 料理認識
ヘルスケアアプリ
トレンド解析
握りずし
×
×
- 54. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
Deep LearningのAPIのサービス利用
• ファッション認識
ECサイトでの購入支援
カットソー
グレー系
ボーダー ×
- 55. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
Deep LearningのAPIのサービス利用
• 花認識/キノコ認識
チューリップ
図鑑アプリ
×
- 56. © 2008 NTT DOCOMO, INC. All rights reserved.
© 2016 NTT DOCOMO, INC. All Rights Reserved.
画像認識APIを使ってみるには
https://dev.smt.docomo.ne.jp/
制限緩和/カスタムモデルのご相談も
ご清聴ありがとうございました
- 59. GPGPU によるアルゴリズムの高速化
GPU実行が可能なMATLAB関数群
– 300以上のMATLAB関数
– 90 in Statistics and Machine Learning Toolbox
– 48 in Image Processing Toolbox
– スパース配列のGPU演算サポート
0
10
20
30
40
50
60
70
80
0 512 1024 1536 2048
実行時間(秒)
波動方程式のグリッドサイズ
18 x
faster
23x
faster
20x
faster
NVIDIA Tesla K20c
波動方程式をスペクトラル法で解いたときの速度の比較
- 60. GPGPUによるアルゴリズムの高速化 Parallel Computing Toolbox™
>> I = gpuArray(I);
>> I = imrotate(I, 75, ‘bicubic’);
>> I = gather(I);
GPU のメモリへ転送
画像の回転を GPU上で実行
結果をメインメモリへ転送
gpuArray
gather
メインメモリ GPGPU
- 62. autoenc = trainAutoencoder(X, hiddenSize,...
'L2WeightRegularization’, 0.001, ...
'SparsityRegularization', 4, ...
'SparsityProportion', 0.05, ...
'DecoderTransferFunction', 'purelin‘
'useGPU', true);
Stacked Autoencoder (積層自己符号化器)
Neural Network Toolbox
自己符号化器(Autoencoder)とは?
2層のニューラルネットワーク
恒等写像となるようなウェイトを学習
主に DNN の事前学習に利用
【コード例】 自己符号化器の学習
積層自己符号化器(Stacked Autoencoder)
自己符号化器(Autoencoder)
GPUによる高速化
- 66. 機械学習・並列化・高速化
Statistics and Machine Learning Toolbox™
機械学習
多変量統計
確率分布
回帰と分散分析
実験計画
統計的工程管理
Parallel Computing Toolbox
MATLAB & Simulink と連携した並列処理
対話的な並列計算実行
GPGPU による高速演算
ジョブおよびタスクの制御
MATLAB Distributed Computing Server
クラスタによる計算環境を提供
MATLAB Distributed Computing Server
Scheduler
Parallel Computing
Toolbox
MATLAB
デスクトップ
ローカル
コンピュータ
Neural Network Toolbox
ニューラルネットワークの構築、学習
データフィッティング
クラスタリング
パターン認識
深層学習
GPUによる計算の高速化
0 5 10 15 20 25 30
10
-3
10
-2
10
-1
10
0
Best Validation Performance is 0.01227 at epoch 26
MeanSquaredError(mse)
32 Epochs
Train
Validation
Test
Best
- 67. 画像処理・コンピュータービジョン・ロボットビジョン
Image Processing Toolbox™
コーナー、円検出
幾何学的変換
各種画像フィルタ処理
レジストレーション(位置合せ)
セグメンテーション(領域分割)
画像の領域の定量評価
Computer Vision System Toolbox™
カメラキャリブレーション
特徴点・特徴量抽出
機械学習による物体認識
動画ストリーミング処理
トラッキング
ステレオビジョン・3D表示
Image Acquisition Toolbox™
デバイスから画像、動画直接取り込み
フレームグラバボード
DCAM, Camera Link®
GigE Vision®, Webカメラ
Microsoft® Kinect® for Windows®
Robotics System Toolbox™
ロボティクスアルゴリズム開発の支援
MATLAB・SimulinkとROS間の
インターフェイス
ROSノード生成
- 68. 信号処理・信号解析
Signal Processing Toolbox™
信号生成、時間領域解析
フィルタ設計解析
スペクトル解析
線形予測
Wavelet Toolbox™
信号・画像の解析・ノイズ除去・圧縮等
連続 / 離散ウェーブレット
パケット解析 / 主成分分析
対話的なGUIによる操作
DSP System Toolbox™
高度なフィルタ設計
スペクトル解析
スペアナ、ロジアナ表示
行列演算、統計処理
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
-50
-40
-30
-20
-10
0
10
20
30
Normalized Frequency (x rad/sample)
Powerdensity(dB/rad/sample)
Input signal PSD
Equiripple output PSD
IFIR output PSD
Multirate/multistage output PSD
- 74. 91
NVIDIA DRIVE PX 2
12 CPUコア | Pascal GPU | 8 TFLOPS | 24 DL TOPS | 16nm FF | 250W | リキッドクーリング方式
世界初
自動運転向けAIスーパーコンピュータ
- 75. 92
NVIDIA DRIVE PX 2
TITAN X DRIVE PX 2
Process 28nm 16nm FinFET
CPU —
12 CPU コア
8x A57 +
4x Denver
GPU Maxwell Pascal
TFLOPS 7 8
DL TOPS 7 24
AlexNet 450 イメージ/秒 2,800 イメージ/秒