2015年度先端GPGPUシミュレーション工学特論　第6回　プログラムの性能評価指針(Flop/Byte，計算律速，メモリ律速)

第6回プログラムの性能評価指針
(Flop/Byte，計算律速，メモリ律速)
長岡技術科学大学電気電子情報工学専攻出川智啓

今回の内容
2015/05/21先端GPGPUシミュレーション工学特論2
 プログラムの性能評価指針
 演算性能，バンド幅，Flop/Byte
 ルーフラインモデル
 実行時の性能（演算，データ転送）に対する制約

GPUによる性能向上
 CPUプログラムをGPUへ移植
 GPUへ移植したことによる高速化
 CPUプログラムを意図的に遅くしておけば大幅な高速化を
達成可能
 以前はCPU1コアと比較して100倍高速化！とも謳われていた
 実行時間以外の"公平な"評価指針はあるのか
 プログラムを実行する環境
 プログラム内の具体的な処理
等を考慮した指標

プログラムの評価
 演算能力
 FLOPS[flop/s]
 Floating‐point Operation Per Second
 1秒あたり何回の浮動小数点演算ができるか
 整数は含まず
 実際に浮動小数点演算の回数を数えて実行時間で割る
 計算に用いるプロセッサの理論演算性能と比較

プログラムの評価
 ベクトル和
 実効性能[flop/s]=N×1/実行時間
 N=220のとき実行時間=0.116×10‐3 s
 実効性能=220/(0.116×10‐3)=9,039,448,275≈9Gflop/s
 M2050理論演算性能 1.03Tflop/s
 実効性能低すぎ？
for(i=0; i<N; i++)
c[i] = a[i] + b[i];
≈106/(10‐1×10‐3)=1010

達成可能な実効性能の上限
 プログラム内の具体的な処理
 演算回数
 メモリアクセス回数（メモリ読み書き量）
 FLOPSの比較は演算能力のみに着目
 メモリアクセスの性能を反映していない
 演算強度[flop/byte]
 演算回数とメモリアクセス回数(読み書き量)の比
 Operational Intensity, Arithmetic Intensity

達成可能な実効性能の上限
 ルーフラインモデル
 演算強度を用いた性能モデル
 システムが持つ理論的な性能を利用
 演算と転送を同時に実行
 演算と転送のどちらか遅い方で実行時間が決定
転送
演算
データ転送量
1秒あたり転送可能な理論データ転送量
演算回数
1秒あたり実行可能な理論演算回数
時間
処理開始処理終了

達成可能*な実効性能の上限
 ピーク(理論)演算性能[flop/s]
 プロセッサが達成できる最高の（理論的な）演算性能
 1秒あたり何回の浮動小数点演算ができるか
 ピーク(理論)メモリバンド幅[byte/s]
 システムが達成できる最大（理論）メモリバンド幅
 1秒あたり何byteのデータをメモリからプロセッサへ転送
できるか
*実際に達成できない理論値だが，達成しうる
最高値（ピーク値）として取り扱う

ルーフラインモデル
 達成可能な演算性能[flop/s]
= min(ピーク演算性能[flop/s],
ピークメモリバンド幅×プログラムの演算強度)
[byte/s] [flop/byte]
 制約が無ければピーク演算性能を達成
 プログラム中でメモリにアクセスがあるとメモリアクセスがボト
ルネック化して性能が低下
 メモリアクセスに対して演算回数が多ければ性能が改善

ピーク演算性能
 FLOPS
 1秒あたりに浮動小数の演算が何回できるか
 なぜ浮動小数点演算だけ？
 整数の加算はアドレス計算（プログラムカウンタなど）で頻
繁に使うので高速になるよう設計
 浮動小数点演算と比較すると整数演算の影響は小さい
 影響が小さくないシステムは使い物にならない

 公式
 FLOPS = 1コアの演算性能 [?]
× コア数 [core]
× CPUの動作周波数 [Hz=clock/s]
 1コアの演算性能
 ＝1度（1クロック）に発行出来る浮動小数点演算命令
 単位は[Floating Point Operations/clock/core]
 性能の評価には，動作周波数だけでなく1コアが1度に発行できる
命令数が重要

Tesla M2050 (Fermi)
 1コアあたりの演算性能 2 (積和演算)
 コア数 448
 動作周波数 1.15GHz(clock/s)
 ピーク演算性能
 2 flop/clock/core × 448 core × 1.15 G
clock/s = 1030 Gflop/s

Xeon X5670 (Nehalem)
 1コアあたりの演算性能 4 (SSE)
 コア数 6
 動作周波数 2.93GHz(clock/s)
 ピーク演算性能
 4 flop/clock/core × 6 core × 2.93 Gclock/s
= 70.3 Gflop/s

性能差の推定
 Tesla M2050
 ピーク演算性能 1030 Gflop/s
 ピークバンド幅 148 GB/s
 Xeon X5670
 ピーク演算性能 70 Gflop/s
 ピークバンド幅 32 GB/s
 演算性能比で約15倍，バンド幅比で約5倍
 単純に評価すると高速化は5倍から15倍の間
 プログラムの演算強度でも変化

Tesla M2050のルーフライン
 ピーク演算性能 1.03Tflop/s（単精度浮動小数）
 ピークバンド幅 148GB/s
10−3 10−2 10−1 100 101 102
10−1
100
101
102
103
104
Arithmetic Intensity [flop/byte]
ピーク演算性能/ピークバンド幅
≈7
ピーク演算性能1030Gflop/s
Performance[Gflop/s]

Xeon X5670のルーフライン
 ピーク演算性能 70Gflop/s（単精度浮動小数）
 ピークバンド幅 32GB/s
10−3 10−2 10−1 100 101 102
10−2
100
101
102
103
104
10−1
Xeon X5670
Tesla M2050
ピーク演算性能/ピークバンド幅
≈2.2
ピーク演算性能70Gflop/s

Xeon X5670
Tesla M2050
ルーフラインモデル
 屋根が高いほど計算性能が高い
 肩が左にあるほど演算のピーク性能の達成が容易
10−3 10−2 10−1 100 101 102
計算性能が高い
計算性能に対してデータ
転送能力が相対的に高い
10−2
100
101
102
103
104
10−1

ルーフラインによるプログラムの評価
 メモリ律速(Memory‐Bound)
 演算強度がピーク演算性能/ピークメモリバンド幅より小さい
 メモリ転送がプログラムの実行時間に影響
 ピークメモリバンド幅に近づけるチューニングが必要
メモリ律速

ルーフラインによるプログラムの評価
 計算律速(Compute‐Bound, Compute‐intensive)
 演算強度がピーク演算性能/ピークメモリバンド幅より大きい
 演算がプログラムの実行時間に影響
 演算能力を引き出すチューニングが必要
計算律速

性能差の推定
 計算律速かメモリ律速かで高速化の上限が変化
10−3 10−2 10−1 100 101 102
10−2
100
101
102
103
104
10−1
Xeon X5670
Tesla M2050
高速化の上限
は約5倍
高速化の上限
は約15倍

ルーフラインによる性能の判断
 性能を引き出せないと屋根の高さが低下
10−3 10−2 10−1 100 101 102
10−1
100
101
102
103
104
転送の性能を
引き出せない
演算の性能を
引き出せない

演算に対する制約(Ceiling)
 1コアのみの利用
 性能は単純に1/コア数
ピーク性能
1コアのピーク性能

 積和演算の負荷不均一（FMAをサポートしていれば）
 加算か乗算のどちらかが支配的（演算回数が低下）
ピーク性能
積和演算の不均一

 積和演算の負荷不均一（FMAをサポートしていれば）
 加算か乗算のどちらかが支配的（演算回数が低下）
 FMA演算
 Fused Multiply ADD
 (A×B)+Cを1命令で実行
 A×Bの結果を丸めてからCと足して丸めるのではなく，A×Bの結果
を丸めずCと加算した結果を丸める
 ベクトルの内積で出現
 dot = (x[i]*y[i]) + dot;

 SIMD命令の不使用
 1クロックあたりに発行できる命令数が低下
ピーク性能
SIMD不使用

 SIMD命令の不使用
 1クロックあたりに発行できる命令数が低下
 Single Instruction Multiple Data Streams
 複数のまとまったデータに対して同じ演算を同時に実行
 ソースコード上は4命令を逐次発行
 実際は1クロックで4命令を同時発行 A0 B0
データ
命令
A1 B1
+
A2 B2
A3 B3

 命令レベル並列処理の阻害
 命令の同時実行による処理時間の短縮が不可能
ピーク性能
SIMD不使用
命令レベル並列の未達成

 命令レベル並列処理の阻害
 命令の同時実行による処理時間の短縮が不可能
 命令のパイプライン処理
命令1
命令2
命令3
実行開始処理時間
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB
Instruction Fetch
Instruction Decode
Operand Fetch
Execution
Write Back

 命令レベル並列
 tはt1とt2の結果に依存
 t1とt2はお互いに独立
 同時に実行する事で処理時間を短縮
t1 = a*b
t2 = c*d
t = t1 + t2
命令1
命令2
命令3
実行開始処理時間
IF ID OF EX WB
IF ID OF EX WB
IF ID OF EX WB

データ転送に対する制約(Ceiling)
 ソフトウェアプリフェッチの不使用
 メモリからのデータ取得時間が隠蔽できない

 ソフトウェアプリフェッチの不使用
 メモリからのデータ取得時間が隠蔽できない
 プリフェッチ
 必要とされるデータを予測し，メモリからキャッシュへ転送
 ソフトウェアプリフェッチ
 ソースコードからメモリアクセスの規則性を検出

 NUMAにおけるaffinityの不使用
 プロセッサから遠いメモリにデータが置かれ，転送時間が増加

 NUMAにおけるaffinityの不使用
 プロセッサから遠いメモリにデータが置かれ，転送時間が増加
 NUMA (Non‐Uniform Memory Access)
 メモリを共有しているように見えるシステム
 物理的には共有されていない
 各CPUが必要とするデータをどのメモリに置くかで転送時間が変化
CPU0メモリ0 CPU1
CPU3 CPU2メモリ3
メモリ1
メモリ2
スレッド0
スレッド1

 affinity
 CPUとスレッド（プロセス）を特定のCPUに固定
 OSはタスクをCPUに割当て
 マルチタスクを実行するために短時間でタスクの割当を切り替え
 スレッドが当初実行していたCPUから別のCPUへ移動
 データが置かれたメモリまでの距離が遠くなる
CPU0メモリ0 CPU1
CPU3 CPU2メモリ3
メモリ1
メモリ2
スレッド0 スレッド1

 affinity
 CPUとスレッド（プロセス）を特定のCPUに固定
 OSはタスクをCPUに割当て
 マルチタスクを実行するために短時間でタスクの割当を切り替え
 スレッドが当初実行していたCPUから別のCPUへ移動
 データが置かれたメモリまでの距離が遠くなる
CPU0メモリ0 CPU1
CPU3 CPU2メモリ3
メモリ1
メモリ2
スレッド0
スレッド1
スレッド1が移動，
データまで遠くなる

最適化前のプログラムの性能
ピーク性能
SIMD不使用

演算性能の改善
 SIMD命令の利用，ループ展開，演算順序やデータ
構造の変更
ピーク性能
SIMD不使用

演算性能の改善
 スレッド並列化で全コアを利用
 バンド幅の都合で性能が向上しない可能性がある
ピーク性能
SIMD不使用

データ転送性能の改善
 affinityの指定，プリフェッチの利用
ピーク性能
SIMD不使用

データ転送を最小化
 処理順序の変更等でキャッシュにより再利用される
データを増加（演算強度の実質的な増加）
ピーク性能
SIMD不使用

最適化前後のルーフライン
 3通りの最適化を適用
 演算，メモリアクセス，アルゴリズム
ピーク性能
1コアの
性能改善
複数コア
利用
演算強度の増加

GPUにおける制約
 1コアのみの利用
 論外
ピーク性能
1コアのみ利用

GPUにおける制約
 性能低下の要因を挙げるとすれば
ピーク性能
低Active Warp
命令レベル並列*の未達成
*GPUの命令レベル並列については
Volkovの講演スライドが詳しい
occupancy 4%で性能の84%を達成

ルーフラインによるベクトル和の評価
 演算強度flop/byte = 1/12 ≈ 0.083
 演算1回=>1flop
 メモリアクセス3回（読込2回，書込1回）=>3*4byte
 9 Gflop/sはほぼ上限
約10Gflop/s
Xeon X5670
Tesla M2050

CPUプログラムの評価
 ベクトル和
 実効性能[flop/s]=N×1/実行時間
 N=220，実行時間=6.65×10‐3 s
 実効性能=220/(6.65×10‐3)=157,680,602≈150Mflop/s
 Xeon X5670のピーク性能 70Gflop/s
for(i=0; i<N; i++)
c[i] = a[i] + b[i];

 150Mflop/sは低すぎる
10−3 10−2 10−1 100 101 102
10−2
100
101
102
103
104
10−1
Xeon X5670
Tesla M2050
約10Gflop/s
約2Gflop/s

 CPU1個（6コア）を使い，6スレッドで並列実行
 演算の高速化はコンパイラが勝手にやってくれると期待
10−3 10−2 10−1 100 101 102
10−2
100
101
102
103
104
10−1
Xeon X5670
Tesla M2050
約10Gflop/s
約2Gflop/s
1.2Gflop/sまで改善
150Mflop/s

その他のモデル
 演算と転送を同時に考慮するモデル
 ルーフラインモデルの変種
 データ転送してから演算を実行
 演算回数，演算に必要なデータの転送量，ピーク演算性能，
ピークバンド幅を利用
データ転送量
ピークバンド幅
演算回数
時間
処理開始処理終了

 演算と転送を同時に考慮するモデル
 Flop 演算回数[flop]
 Byte 演算に必要なデータの転送量[byte]
 Fpeak ピーク演算性能[flop/s]
 Bpeak ピークバンド幅[byte/s]
α

peakpeak Byte/BFlop/F
Flop
ePerformanc
peak
peakpeak
F
/BFFlop/Byte
Flop/Byte
ePerformanc


[flop]
[sec]
演算に要する
秒数
メモリ転送に
要する秒数1/Byte
1/Byte
F
F
peak
peak

[flop/s]
その他

 ピーク付近で双方の影響が混在
 こちらのモデルの方が自然
Xeon X5670
Tesla M2050
10−3 10−2 10−1 100 101 102
10−2
100
101
102
103
104
10−1

2015年度先端GPGPUシミュレーション工学特論　第6回　プログラムの性能評価指針(Flop/Byte，計算律速，メモリ律速)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 2015年度先端GPGPUシミュレーション工学特論　第6回　プログラムの性能評価指針(Flop/Byte，計算律速，メモリ律速)

Semelhante a 2015年度先端GPGPUシミュレーション工学特論　第6回　プログラムの性能評価指針(Flop/Byte，計算律速，メモリ律速) (20)

Mais de 智啓出川

Mais de 智啓出川 (20)