【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat

OpenCVのOpenCL実装oclMat
関東GPGPU勉強会#2
2013/6/1
@dandelion1124

自己紹介(1/3)
Twitter：@dandelion1124
• 学生時代は画像処理の研究に従事。
• 現在は都内勤務エンジニア。
• 研究室向けOpenCVのTipsサイトを作っていたら
OpenCV関連の書籍を書くことになり今に至る。
blog: http://www.atinfinity.info/blog/
wiki: http://www.atinfinity.info/wiki/

自己紹介(2/3)
• 書籍執筆
– OpenCVプログラミングブック
• 和訳本の原稿チェック
– 詳解 OpenCV
– 実践コンピュータビジョン
• 雑誌関連
– 日経ソフトウェア(2011年3月号)
特集記事担当

自己紹介(3/3)
• メインで活動している勉強会
– 関東コンピュータビジョン勉強会 #cvsaisentan
http://sites.google.com/site/cvsaisentan/

というわけで
ステマはここまで

本日のアジェンダ
• OpenCLとは？
• OpenCVとは？
• OpenCVのデータ構造
• oclMatとは？
• oclMatを使うには
• oclMatの内部処理
• oclMat性能評価
本日のメイン
本題に入る前の前準備

OpenCLとは？
• Open Computing Languageの略称。
• ヘテロジーニアスな環境でプロセッサ（GPU, DSP,
Cell/B.E., CPU ）の違いを吸収した共通API等を用いて
並列処理を記述するためのフレームワーク。Apple社
にて提案後、Khronos Groupが仕様策定。
• C99ベースの「OpenCL C言語」でデバイス向けのプロ
グラム開発を行うことができる。
http://www.khronos.org/opencl/

OpenCVとは？
Intelが開発・公開したOpen SourceのComputer Vision
ライブラリ。現在はWillow Garageが開発を行って
いる。
• 公式サポートOS
– Windows/Linux/Mac OS/Android/iOS
• 公式サポート言語
– C/C++/Python/Java
※有志による非公式ラッパーは以下のサイトにまとめています。
http://www.atinfinity.info/wiki/index.php?OpenCV%2FOpenCV%20wrapper%20list

OpenCVのデータ構造
OpenCVで画像を格納するために使うデータ構造は
おおまかに以下の3つ。
• cv::Mat 画像データの入れ物（CPU版）
• gpu::GpuMat 画像データの入れ物（CUDA版）
• ocl::oclMat 画像データの入れ物（OpenCL版）
今日のお話はこの部分がメイン

oclMatとは？
• OpenCLデバイス上で画像処理を行うために用い
るデータ構造
• cv::Matとほぼ同じようにコーディングできる
→学習コストが少なくて済む
• CUDA版のgpu::GpuMatも基本的に使い方が同じ
※GpuMatの方がoclMatより対応関数が多い

本題に入る前に
ちょっと脱線します

oclMatをtwitterで検索すると・・・

自分しかいない＼(^o^)／
布教しよう！（今回の主目的）

1週間前は凄い悲壮感が
というか色々ひどい・・・

というわけで
本題に戻ります

oclMatを使うには
■CMake
CMakeで以下の手順を行うことで
ソリューションファイルが生成される
①「WITH_OPENCL」にチェックを入れる
②「Configure」ボタンを押す
③「Generate」ボタンを押す
■OpenCL環境導入
PCにOpenCLのSDKをインストールして
おく必要がある
詳細なAPIは以下を参照。
http://docs.opencv.org/modules/ocl/doc/ocl.html

サンプルコード(グレースケール化)
#include <opencv2/core/utility.hpp>
#include <opencv2/core/core.hpp>
#include <opencv2/imgproc/imgproc.hpp>
#include <opencv2/highgui.hpp>
#include <opencv2/ocl/ocl.hpp>
using namespace cv;
int main(int argc, char** argv)
{
std::vector<ocl::Info> oclinfo;
int devnums =
ocl::getDevice(oclinfo, ocl::CVCL_DEVICE_TYPE_GPU);
Mat src = imread("lena.jpg", IMREAD_UNCHANGED);
Mat dst;
ocl::oclMat oclsrc(src), ocldst;
ocl::cvtColor(oclsrc, ocldst, COLOR_BGR2GRAY);
ocldst.download(dst);
imwrite(“output.jpg", dst);
return 0;
}
グレースケール化
①ヘッダ読み込み
②oclMat初期化
③画像読み込み
④oclMat処理
⑤画像書き込み

using namespace cv;
{
int devnums =
Mat dst;
return 0;
}
②oclMat初期化
④oclMat処理
oclMatを使うにはocl.hppの
インクルードが必要
①ヘッダ読み込み
OpenCVのヘッダをインクルード

using namespace cv;
{
int devnums =
Mat dst;
return 0;
}
④oclMat処理
OpenCLデバイスリストの取得
（※ここではGPUのみを取得）
以下のような指定も可能。
CVCL_DEVICE_TYPE_ALL
OpenCLデバイスを全て取得
CVCL_DEVICE_TYPE_CPU
CPUのみを取得
etc...
注意点
oclMatを使う前にocl::getDeviceを
必ず呼ばないといけない点に注意。
②oclMat初期化

using namespace cv;
{
int devnums =
Mat dst;
return 0;
}
④oclMat処理
画像ファイルを読みこんで
cv::Mat形式で格納する。

using namespace cv;
{
int devnums =
Mat dst;
return 0;
}
oclMatのコンストラクタを生成して、
cv::Matの画像データをOpenCL
デバイスに転送する
④oclMat処理
oclMatの画像データに対して
グレースケール化を行う
グレースケールにした結果を
ホスト側に転送する

using namespace cv;
{
int devnums =
Mat dst;
return 0;
}
グレースケール化した画像を
ファイルに書き込む

ねっ、簡単でしょう？

使う分には簡単なのは
わかったけど

内部でどんな処理が
動いてるんだろう？

oclMatの内部処理（初回実行）
OpenCLデバイス
カーネルバイナリ
（Map形式でキャッシュ）
OpenCL
ランタイムライブラリ
oclMatの画像処理関数
カーネル
ソース
①カーネル読み込み
②カーネルコンパイル
③キャッシュ
④カーネル実行

oclMatの内部処理（2回目以降）
OpenCLデバイス
カーネルバイナリ
（Map形式でキャッシュ）
OpenCL
ランタイムライブラリ
oclMatの画像処理関数
①キャッシュから必要なカーネルを探す
③カーネル実行
②カーネル
読み込み
カーネルコンパイルが
不要！

oclMatの内部処理（補足）
• OpenCL 1.1以上でないと使えない
• 2.4.5時点では同一環境に複数OpenCLデバイ
スがあっても同時に使えない
→Titan 2枚刺しフルに使えない＼(^o^)／
• oclMatはbuffer objectとして処理される
（ image objectではない）
http://docs.opencv.org/modules/ocl/doc/introduction.html

oclMatの内部処理（まとめ）
• 初回実行時はカーネルコンパイルが走る（の
でその分時間がかかる）
• 2回目以降はキャッシュから引っ張れるので
カーネルコンパイルは不要
• 良く使うカーネルは事前に（主にプログラムの
はじめ）にダミーとして呼んでおくと良い

oclMat性能評価
■計測方法
対応するMat、oclMatの関数を5回処理した処理時間
を計測。 oclMatはダミー処理を事前に呼んでおいて
計測。※ホスト、デバイスの転送時間は含まない。

oclMat性能評価
■計測関数
1. cvtColor
2. threshold
3. absdiff
4. Laplacian
5. matchTemplate
6. bilateralFilter
■入力画像
1～4、6：
512x512[pixel]
5：
探索画像：748x576[pixel]
テンプレート画像： 52x93[pixel]

oclMat性能評価（Intel OpenCL編）
■計測環境
CPU：Intel Core i7-3930K@3.20GHz （6コア）
メモリ：32.0GB
GPU：NVIDIA GeForce GTX 680
コンパイラ：Visual Studio 2010 Professional
■OpenCL
Intel OpenCL SDK 3.0

0
0.5
1
1.5
2
2.5
3
cvtColor threshold absdiff Laplacian
処理時間[ms]
計測結果(1)
Mat
oclMat
OpenCL(CPU版)

0
1000
2000
3000
4000
5000
6000
7000
matchTemplate bilateralFilter
処理時間[ms]
計測結果(2)
Mat
ocMat
OpenCL(CPU版)

0
0.5
1
1.5
2
2.5
3
処理時間[ms]
計測結果(1)
Mat
oclMat
OpenCL(GPU版)

0
1000
2000
3000
4000
5000
6000
7000
処理時間[ms]
計測結果(2)
Mat
oclMat
OpenCL(GPU版)

GpuMat性能評価
■計測環境
CPU：Intel Core i7-3930K@3.20GHz （6コア）
メモリ：32.0GB
GPU：NVIDIA GeForce GTX 680
コンパイラ：Visual Studio 2010 Professional
■CUDA
NVIDIA CUDA5

GpuMat性能評価
0
0.5
1
1.5
2
2.5
3
処理時間[ms]
計測結果(1)
Mat
GpuMat

GpuMat性能評価
0
1000
2000
3000
4000
5000
6000
7000
処理時間[ms]
計測結果(2)
Mat
GpuMat

性能比較
0
0.5
1
1.5
2
2.5
3
処理時間[ms]
計測結果(1)
Mat
oclMat(CPU)
oclMat(GPU)
gpuMat

性能比較
0
1000
2000
3000
4000
5000
6000
7000
処理時間[ms]
計測結果(2)
Mat
oclMat(CPU)
oclMat(GPU)
gpuMat

Titan+NVIDIA OpenCL編
（おまけ）

oclMat性能評価（Titan編）
■計測環境
CPU：Intel Xeon CPU E5-2630L@2GHz
（/proc/cpuinfoによると24コア？）
メモリ：32.0GB
GPU：NVIDIA GeForce GTX Titan
コンパイラ：gcc 4.4.7
■OpenCL
NVIDIA OpenCL(CUDA 5)

0
0.5
1
1.5
2
2.5
3
処理時間[ms]
計測結果(1)
Mat
oclMat

0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
処理時間[ms]
計測結果(2)
Mat
ocMat

性能比較
（発表からの追加分）

oclMat性能評価（追加評価）
■計測関数
1. cvtColor
2. threshold
3. absdiff
4. Laplacian
5. matchTemplate
6. bilateralFilter
■入力画像
1～4、6：
2560x2560[pixel]
5：
探索画像：3840x2880[pixel]
テンプレート画像： 260x465[pixel]
最初の計測から
画像サイズを5倍にしてみると
Matとの速度差に違いが出る？

OpenCL(CPU版)
0
5
10
15
20
25
30
35
40
45
処理時間[ms]
計測結果(1)
Mat
oclMat

OpenCL(CPU版)
0
50000
100000
150000
200000
250000
処理時間[ms]
計測結果(2)
Mat
ocMat

OpenCL(GPU版)
0
5
10
15
20
25
30
35
40
45
処理時間[ms]
計測結果(1)
Mat
oclMat

OpenCL(GPU版)
0
50000
100000
150000
200000
250000
処理時間[ms]
計測結果(2)
Mat
ocMat

まとめ
• 自力でゴリゴリOpenCLカーネルを書かなくてもお手軽に
メニーコアの恩恵が得られる
• 既存のMatで書いていた処理をoclMatに置き換えるだ
けで簡単に高速化できる可能性がある（関数や画像サ
イズはMatより遅くなるものもあるので事前に確認した
方が良い）
• GPUで思ったより速くならないのはGPU向けに特化した
チューニング実装が足りないせい？（ただし、最近
oclMat関連のコミットが活発なので今後改善される可能
性あり）

【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat

Semelhante a 【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat (20)

Último

Último (8)

【関東GPGPU勉強会#2】OpenCVのOpenCL実装oclMat