SlideShare uma empresa Scribd logo
1 de 52
Baixar para ler offline
インテル®
Xeon Phi™ のプログラミングモデルと
アプリケーション分野
インテル® Xeon Phi™ が高性能を低消費電力で実現でき
る超並列のプログラミングモデルとその適用可能なアプリ
ケーションについて紹介する
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
内容
•インテル® Xeon™ プロセッサーとインテル® Xeon
Phi™ コプロセッサー
• Phi コプロセッサーの高並列アーキテクチャ
• Phi コプロセッサーに適したアプリ領域とプログラミング
環境
• 現状の性能データ
• まとめ
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
より多くのコア、広いベクトル、コプロセッサー
パフォーマンスを得るには、ツールは 並列性を考慮しなければならない
イメージの大きさは実際の大サイズとは異なります
インテル®
Xeon®
プロセッ
サー
64 ビッ
ト
インテル®
Xeon®
プロセッ
サー
5100
シリーズ
インテル®
Xeon®
プロセッ
サー
5500
シリーズ
インテル®
Xeon®
プロセッ
サー
5600
シリーズ
インテル®
Xeon®
プロセッ
サー
コード名
Sandy
Bridge
インテル®
Xeon®
プロセッ
サー
コード名
Ivy
Bridge
インテル®
Xeon®
プロセッ
サー
コード名
Haswell
インテル®
MIC
コプロセッ
サー
コード名
Knights
Ferry
インテル®
Xeon
PHI™
コア数 1 2 4 6 8 12 14 32 61
スレッド数 2 2 8 12 16 24 28 128 >240
SIMD 幅 128 128 128 128 256 256 256 512 512
SSE2 SSSE3 SSE4.2 SSE4.2 AVX AVX
AVX2
FMA3
IMCI
ソフトウェアの挑戦: スケーラブルなソフトウェアを開発する
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。4
インテル® Xeon™ プロセッサーの特徴
• 単一スレッドパフォーマンスが高い
– コアが6個の実行パイプを持ち、out of order
– ラストレベルの共有キャッシュが大きい
• 固有機能命令拡張
– AES等の暗号化、乱数
• 仮想化やRAS 等の商用に有効な機能
• マルチコア、マルチスレッド(8から12コア)
• AVX 1.0 (256bit) => 単精度 8要素、倍精度 4要素
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® MIC アーキテクチャー
インテルのマルチ & メニーコア・エンジン
インテル® Xeon® プロセッサー:
• インテルの HPC パフォーマンスの基礎
• すべての領域のワークロードに適合
• シリアルおよび高度に並列化されたワークロー
ドのための業界をリードするパフォーマンス /
ワット
インテル® MIC アーキテクチャー:
• 高並列化された計算主体のワークロード向けに
最適化されている
• Xeon プロセッサーと共通のプログラミングモデ
ルとソフトウェア開発ツールにより、効率良いア
プリケーションの準備と性能チューニングを可能
にする
• 22nm プロセスにより 50 コア以上で投入され、
高度に並列化された HPC 用途に向けパフォー
マンス達成のため要求される メモリバンド幅
マルチコア・インテル® Xeon® プロセッサー
2 - 3.5 GHz
インテル® メニー・インテグレーテッド・コア
1-1.5 GHz
ダイサイズは比例しません
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
Intel® Xeon Phi™ 製品ファミリー
Intel® Many Integrated Core アーキテクチャ
超並列のアプリケーション用の製品ファミリー/アーキテクチャ
• 多数の小型で低消費電力のIAコアで構成される
• 512 bit 幅のベクトル演算
• Intel® Xeon® プロセッサ-製品を補完する
• 超並列のアプリケーションに対して画期的な性能を実現
– 広く用いられているx86 のプログラミング・モデルを踏襲
– 同じソース・プログラムを Intel® Xeon® & Intel® MIC で共用
(SIMD命令が異なり、バイナリ互換ではない)
– 最初の製品はPCI Ex のカード形状のコプロセッサとして提供
インテル® Xeon Phi™ コプロセッサー: コード名 Knights Corner
(KNC)
• 最大 61 コア、コア当たり4スレッド
• 最大 16GB の GDDR5 メモリ(最大 352 GB/s )
• 225-300W(冷却方式:パッシブおよびアクティブ製品)
• X16 PCI Ex のカード( IA のホストプロセッサが必要)
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® Xeon Phi™ 製品ファミリー
インテル® メニー・インテグレーテッド・コア (インテル® MIC)
アーキテクチャー・ベース
7
最初のインテル® MIC 製品
22nm プロセス
50 を超えるインテル®
アーキテクチャー・コア
ソフトウェア開発
プラットフォーム
✝開発コード名
Knights Ferry†
将来の
Knights†
製品
Knights Corner†
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® Xeon Phi™ コプロセッサー
プラットフォーム概要
8
ホスト CPU
インテル® Xeon® プロセッサー
ホスト・プラットフォーム
QPI
x16 PCIe Xeon Phi™
インテル® Xeon Phi™ コプロセッサー
GDDR5
IBA 10GbE
IBA 10GbE
ノードあたり
1-4 コプロセッサー
ノードあたり
1-2 CPU
DDR3
DDR3
GDDR5
x16 PCIe
ホスト CPU
Xeon Phi™
Intel Confidential
Intel and the Intel logo are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States and other countries. Other names and brands
may be claimed as the property of others. All products, dates, and figures are preliminary and are subject to change without any notice. Copyright © 2013, Intel Corporation.
9
Operate as a
compute node
Run a full OS
Program to MPI
Run x86 code
Intel® Xeon Phi™コプロセッサー: 適用範囲の広がり
汎用の IA ハードウェアの採用で、ソフトウェア開発時間を節約
Intel® Xeon Phi™ コプロセッサ*カスタムHW 加速器
Run restricted code Run offloaded code
1チップのスパコン
GPU
ASIC
FPGA
制限のあるアーキテクチャ
*Refer to software.intel.com/mic-developer for details on the Intel Xeon Phi™ coprocessor
© 2013 Intel Corporation. 無断での引用、転載を禁じます。
インテル® Xeon Phi™ コプロセッサーと開発ツール
C, C++, Fortran
インテル、サードパーティー・ツール
インテル® Xeon Phi™ コプロセッサー
対応インテル開発ツール
インテル、
サードパーティー・ツール
対応済
1.011 TFLOPS
の倍精度演算性能 (ピーク時)
8GB GDDR5メモリー 搭載
320 GB/sの帯域幅
性能
1 TFLOPS超
の倍精度演算性能 (ピーク時)
6GB GDDR5メモリー 搭載
240 GB/sの帯域幅
ストリーミング、デジタル・
コンテンツ制作、エネルギー
採掘シミュレーション等
最適なアプリケーション
様々なHPCワークロードに
対応
演算処理中心の
ワークロードに最適
DNA Sequencing
モンテカルロ法、ブラックショールズ、
Linpack、医療・ライフサイエンス等
新登場
インテル® Xeon Phi™ コプロセッサー 5110P
インテル® Xeon Phi™ コプロセッサー 3100 製品ファミリー
インテル® Xeon Phi™ コプロセッ
サー対応版新登場
2013年上半期2013年上半期
登場
2013年上半期
登場
© 2012 Intel Corporation. 無断での引用、転載を禁じます。
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
3ファミリ
優れた並列計算ソリューション
Performance/$ leadership
3120P
MM# 927501
3120A
MM# 927500
5ファミリ
高密度実装環境に最適化
Performance/watt leadership
5110P
MM# 924044
5120D (no thermal)
MM# 927503
8GB GDDR5
>300GB/s
>1TF DP
225-245W TDP
6GB GDDR5
240GB/s
>1TF DP
300W TDP
インテル® Xeon Phi™ コプロセッサー
製品ファミリ
Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such
as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of
those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your
contemplated purchases, including the performance of that product when combined with other products. For more information go to
http://www.intel.com/performance11 Back to
Contents
7 ファミリ
最高性能で最大メモリ
Performance leadership 7120P
MM# 927499
7120X
(no thermal)
MM# 927498
16GB GDDR5
352GB/s
>1.2TF DP
300W TDP
7120A
Avail
Q2’14
7120D
Avail
Q1’14
Xeon Phi™コプロセッサーで利用可能なツール
コンパイラー、言語、開発ツール
 Intel(R) Parallel Studio XE 2013 - C++ Fortran のコンパイラ-とライブラリ、OpenMPやCilk Plus によ
る並列化、MKL等並列化ライブラリ、スレッドのプロファイルやデバッグツール等
 Intel(R) Cluster Studio XE 2013 – 性能とスケーラビリティ向上のためのツール、MPIライブラリや
MPIのプロファイル・ツール
 Intel(R) SDK for OpenCL Applications XE 2013 Beta
 CAPS Compilers
 gcc (*SEE NOTE below)
 ISPC (also see instructions for compiling ISPC)
 PGAS GPI for MIC (Beta)
ライブラリ
 Accelereyes ArrayFire (Beta)
 Boost
 MAGMA
 MVAPICH2
 NAG Libraries
12
デバッガー
 Allinea DDT
 GDB
 Rogue Wave TotalView
アナライザー
 Allinea MAP
 PAPI (note: validated against MPSS Gold
update 2)
 Speedometer and Overhead
 Tuning and Analysis Utilities (TAU)
http://software.intel.com/en-us/articles/intel-and-third-party-tools-and-libraries-available-with-support-for-intelr-xeon-phitm
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
内容
•インテル® Xeon™ プロセッサーとインテル® Xeon
Phi™ コプロセッサー
• Phi コプロセッサーの高並列アーキテクチャ
• Phi コプロセッサーに適したアプリ領域とプログラミング
環境
• 現状の性能データ
• まとめ
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。14
プロセス並列で、インテル® Xeon Phi™
Coprocessor を用いて性能向上が望める場合
• エンバラシングリィ・パラレル
• 多数のプロセスを同時に実行して、同じ計算やサーチを
異なる条件で行い、結果を利用(リダクション)
• 但し、キャッシュはコアあたり 512KB のみ
- メモリ参照レイテンシが大きい
- メモリバンド幅も律速となる
• メモリ以外の入出力能力もスレッド数に対して弱い
- 容量/バンド幅を考えて全体で協調
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
Yes
検討中のアプリケー
ションは
Yes
Yes
No
No No
ベクトル
化で性能
向上可能
ですか?
100 スレ
ッド以上
まで性能
向上しま
すか ?
メモリバ
ンド幅が
性能を制
限してい
ますか?
インテル® Xeon Phi™ Coprocessor を用
いて性能向上が望めるかどうかの判定方法
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® Xeon Phi™ コプロセッサー
アーキテクチャー概要
16
PCIe
Client
Logic
Core
L2
Core
L2
Core
L2
Core
L2
TD TD TD TD
Core
L2
Core
L2
Core
L2
Core
L2
TDTDTDTD
GDDR MC
GDDR MC
GDDR MC
GDDR MC
TD: Tag Directory
L2: L2-Cache
MC: Memory Controller
For illustration only.
L1 キャッシュ:
• L1I=32KB L1D=32KB
• 8-way
• キャッシュライン=64 バイト
メモリー:
• GDDR5
• 最大 16GB の容量
• 16 メモリーチャネル
• 最大 352GB/s のメモリーバンド幅
L2 キャッシュ:
• 512 KB
• 8-way
• キャッシュライン=64 バイト
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
Knights Corner コア
Instruction DecodeInstruction Decode
ScalarScalar
UnitUnit
VectorVector
UnitUnit
ScalarScalar
RegistersRegisters
VectorVector
RegistersRegisters
L1 Icache & DcacheL1 Icache & Dcache
256K L2 Cache256K L2 Cache
Local SubsetLocal Subset
RingRing
Instruction DecodeInstruction Decode
ScalarScalar
UnitUnit
VectorVector
UnitUnit
ScalarScalar
RegistersRegisters
VectorVector
RegistersRegisters
L1 Icache & DcacheL1 Icache & Dcache
256K L2 Cache256K L2 Cache
Local SubsetLocal Subset
Interprocessor
Network
Interprocessor
Network
Instruction Decode
Scalar
Unit
Vector
Unit
Scalar
Registers
Vector
Registers
L1 Icache & Dcache
256K L2 Cache
Local Subset
Ring
Instruction Decode
Scalar
Unit
Vector
Unit
Scalar
Registers
Vector
Registers
L1 Icache & Dcache
256K L2 Cache
Local Subset
Interprocessor
Network
Intel®Xeon Phi™コプロセッサー・コア:
• 2命令発行の Pentium プロセッサーのスカラー・パイプライン
• 短い実行パイプライン
• 完全にコヒーレントなキャッシュ構造
• マルチスレッド、64 ビット拡張、高性能プリフェッチなど最新のテクノロジー
を拡張
• コアあたり 4 スレッドを実行(但し1つのスレッドでは連続してデコード不可)
• スレッドごとに個別のレジスターセット
• コアあたり 32KB 命令キャッシュと 32KB データキャッシュ
拡張 x86 命令セット:
• 100 以上の新しい命令
• ワイド・ベクトル処理命令、ギャザー、スキャッタ‐やマスク等
• いくつかの特殊スカラー命令
• 3 オペランド、16 幅ベクトル処理ユニット (VPU)
• VPU は、整数、単精度 / 倍精度命令を実行
• 浮動小数点演算で IEEE 754 2008 標準をサポート
プロセッサー間ネットワーク:
1024 ビット幅、双方向 (各方向 512 ビット)
今後のオプションは予告なしに変更される可能性があります
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® MIC アーキテクチャーのブロック図
18
L2
コントロール
L1 TLB
および 32KB
命令キャッシュ
T0 IP
4 スレッド
インオーダー
TLB ミス
命令キャッシュミス
デコード μコード
16B/サイクル (2 IPC)
パイプ 0
X87 RF スカラー RF
X87 ALU 0 ALU 1
VPU RF
VPU
512b SIMD
パイプ 1
TLB ミス
ハンドラー
L2 TLB
T1 IP
T2 IP
T3 IP
L1 TLB および
32KB データキャッシュ
データ・キャッシュ・ミス
TLB ミス
ダイ上の
インターコネクトへ
ハードウェア・
プリフェッチ
インテル® Xeon Phi™
コプロセッサー・コア
512KB
L2
キャッシュ
PPF PF D0 D1 D2 E WB
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
ベクトル/SIMD 高計算密度
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
VPU ブロック図
MEMORY
L2 L1
+
32x
512b
Vreg
Scalar
Units
8x 16b
Vmask
T0
T1
T2
T3
DataConvert/Broadcast
Data
Swizzle
*
512b
/
512b
/
512b
/
512b
/
512b
/
4 cycles
Vector/SIMD Part (VPU)
Scalar Part
Scalar
Register
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
新しい VPU 命令
100 以上の新しい命令
512 ビット SIMD
32 個の 512 ビット・ベクトル・レジスター、8 個の 16 ビット・マスク・レジスター
16 要素の FLOAT32, 8 要素の FLOAT64 もしくは 16 要素の INT32
3 オペランドの Multiply-Add (FMA)
少ない命令で高い flops (IEEE 準拠)
Load 操作
第三オペランドは、直接メモリーを指定できる
ブロードキャスト/スウィズリング/フォーマット変換 (Load/Store 時)
Float16、unorm8、その他 – キャッシュを効率よく利用するため許可
多くの操作でプレディケーション/マスキング
Gather/Scatter
. . .
今後のオプションは予告なしに変更される可能性があります
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
ベクトル命令の概要
ベクトル命令のフォーマット(ここではMASMの形式で表記する)
• 明示的に結果を送るレジスタを指定する 3 オペランド形式
instruction destination, source1, source2
 入力レジスタの内容は破壊されない
 コードをコンパクトにできる
• (大概の) MIC 命令はマスクすることができる
instruction destination {mask}, source1, source2
 マスクされた部分は非破壊的である、つまり、結果を送る先の値は
保持される
• 例:
vaddps zmm1{k1},zmm2,zmm3
dest mask source1 source2
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
Fused Multiply Add(乗加算)
Multiply-Add (デスティネーションは最初のソース)
– Vfmadd231ps v0, v5, v6 ; v0=v5*v6+v0
– オペランド 2 にオペランド 3 を掛けて、オペランド 1 に加算
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。24
インテル® Xeon Phi™ コプロセッサーの特徴
• 60 個以上の多数のコアを持ち、高並列でのマルチスレッド実行
を前提に設計されている
– 1コアあたり4HWスレッドをサポートし、240スレッドでの実行も可能
• 512 bit(16/8 整数、16 単精度数、8 倍精度数)のベクトル演
算器を持ち、スレッドあたり32 個のベクトルレジスタを持って
いる
• コヒーレントなキャッシュ構造を持ち、レイテンシ―は大きい
が、高いメモリバンド幅(352 MB/s)の 最大16GBのメモリを
持っている
– 8KB (2KB x 4) RF, 32KB L1, 512KB L2, 16GB MEM
• VPU は単精度浮動小数点数で2の指数/対数、逆数、開平とその逆数
をパイプライン実行できる
• 低消費電力だが、単一スレッドパフォーマンスは低い
• プロセッサのアーキテクチャは、半導体の微細化に伴い進化す
る
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
内容
•インテル® Xeon™ プロセッサーとインテル® Xeon
Phi™ コプロセッサー
• Phi コプロセッサーの高並列アーキテクチャ
• Phi コプロセッサーに適したアプリ領域とプログラミング
環境
• 現状の性能データ
• まとめ
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® Xeon Phi™ コプロセッサへの
ワークロード適合性
マルチコアの上限
性能
スレッド
メニーコアの上限
100 スレッ
ド以上まで
性能向上し
ますか ?
Yes
No
No
No
実行アプリケーションがスレッドや
ベクトル化、またはメモリBWで性能
向上が得られる場合  Intel® Xeon
PhiTM コプロセッサ
ベクトル化
で性能向上
可能ですか?
メモリバン
ド幅が性能
を制限して
いますか?
Yes
Yes
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
並列化
ベクトル化
メニーコア用にス
ケールさせる
並列化できる
割合
% ベクトル化率
Performance
インテル®Xeon Phi™ コプロセッサ―のワークロード
スケーラビリティ
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
領域 アプリケーション/ワークロード
Intel® Xeon Phi™ アプリ候補
公共セクタ(研究所) HPL, HPCC, NPB, LAMMPS, QCD
エネルギー (オイル&ガスを含む)
RTM (Reverse Time Migration), WEM (Wave
Equation Migration)
気象モデルと天候シミュレーション WRF, HOMME
金融解析
Monte Carlo, Black-Scholes, Binomial model,
Heston model
生命科学 (分子動力学, 遺伝Gene Sequencing, Bio-Chemistry)
LAMMPS, NAMD, AMBER, HMMER, BLAST, QCD,
CHARMM
製造業 CAD/CAM/CAE/CFD/EDA Implicit, Explicit Solvers
デジタル・コンテント・クリエーション Ray Tracing, Animation, Effects
ソフトウェア開発環境やエコシステム Tools, Middleware
28
対象となる技術計算市場とアプリケーション
ISV とエンド・ユーザでの開発
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
拡大するエコシステム:
Intel® Xeon Phi™ coprocessors で現在開発中
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
プログラミングの可搬性: 重要な特長
インテルは、インテルのHPC技術結集したサーバー上で性能を発揮する並列プログラムを開発するため
の、汎用のプログラム開発環境を提供してサポートする
利点:
• 1つのコードベースで、インテル® Xeon® プロセッサと インテル® Xeon
Phi™ コプロセッサの両方に対応するプログラムの保守開発可能
• 標準化された開発環境に基づいた開発
• ほとんどの利用者は インテル Xeon プロセッサーを使用した開発機上で最適化したプログラム
からXeon Phi コプロセッサーの最適化を始める
• 多くの場合、 Xeon Phi コプロセッサー用に行った最適化は、Xeon プロセッサ上でも有効と
なる
• インテル® Xeon Phi™ コプロセッサーへの移植を容易にする
• GPU や 他のアクセラレータと異なり、すぐにプログラムを実行可能
• あまり手間をかけることなく性能向上を得ることが可能
• 初期の性能が目標より低い場合、開発者は、
• 直ぐに性能の判断 (新しいアーキテクチャで動作するようにコーディングする立ち上げ時間要)
• 最適化や開発の生産性に関しても慣れたプログラミングモデル、言語、業界標準で判断
GPU での プログラミング
“R. Harrison, “Opportunities and Challenges Posed by Exascale Computing
- ORNL's Plans and Perspectives”, National Institute of Computational Sciences, Nov 2011”
Other brands and names are the property of their respective owners.
既存の並列化プログラム既存の並列化プログラム
コンパイラーコンパイラー
GPUハードウェアに依存した
開発言語やツールが必要
GPUハードウェアに依存した
開発言語やツールが必要
GPU
並列コード部分
を抽出
並列コード部分
を抽出
プログラムを統合プログラムを統合
CPUとGPU でそれぞれ異なるプログラミングが必要
© 2012 Intel Corporation. 無断での引用、転載を禁じます。
© 2013 Intel Corporation. 無断での引用、転載を禁じます。
インテル® Xeon Phi™ コプロセッサーでのプログラミング
Compilers
and Runtimes
Compilers
and Runtimes
“R. Harrison, “Opportunities and Challenges Posed by Exascale Computing
- ORNL's Plans and Perspectives”, National Institute of Computational Sciences, Nov 2011”
Other brands and names are the property of their respective owners.
コンパイラー
ランタイム
コンパイラー
ランタイム
CPU とインテル® Xeon Phi™ コプロセッサーは共通のプログラミング環境
既存のプログラム既存のプログラム
簡単な例
100x の性能を実現 ?
同じコードで インテル®Xeon® の性能も改善 !
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® Xeon Phi™ コプロセッサで
結果を得るには
並列化とベクトル化による最適化を行う
• 簡単なコーディング作業ではないかもしれない
高並列のデバイスには、高並列のプログラムが必要
必要以上に難しくしないことを提案している
• 既にある標準ツールをないがしろにしない
• 既にプロセッサー用に使っている同じ言語、並列計算モデルとツールを使
う
• 現在の開発と将来への投資を大事に扱う
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
フレキシブルな実行モデル
様々な実行モデルに対応することが可能
XEON®
PHI
XEON
PHI™
XEON®
XEON
PHI™
ネイティブ
実行
オフロード実行 シンメトリック
XEON®
XEON
PHI™
MPI
XEON® XEON®
XEON
PHI™
コ・ワーカー
XEON®
XEON
PHI™
MPI
DIRECTIVES
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® ソフトウェア開発製品
38
Advanced Performance Distributed Performance
C++ および Fortran コンパイラー
インテル® MKL/インテル® IPP ライブラリー
と解析ツール
IA ベース・マルチコア・ノード上の
Windows* および Linux* 開発者向け
MPI クラスターツールと C++ および Fortran
コンパイラー、インテル® MKL/インテル® IPP
ライブラリーと解析ツール
IA ベースのクラスター上の Windows* および
Linux* 開発者向け
+
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® Paralel Studio XE 2013
インテル® Advisor XE
 インテル® C++ コンパイラー
 インテル® Fortran コンパイラー
 インテル® MKL
インテル® IPP
 インテル® TBB
インテル® Inspector XE
 インテル® VTune ™ Amplifier XE
インテル® ソフトウェア開発製品
(インテル Xeon ® Phi™ コプロセッサー対応ツール)
39
 対応は Linux 版のみ
 詳細は各製品のリリースノートやドキュメント等をご参照ください
インテル® Cluster Studio XE 2013
インテル® Advisor XE
 インテル® C++ コンパイラー
 インテル® Fortran コンパイラー
 インテル® MKL
インテル® IPP
 インテル® TBB
インテル® Inspector XE
 インテル® VTune ™ Amplifier XE
 インテル® MPI ライブラリー
 インテル® Trace Analyzer/Collector
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® ソフトウェア開発製品の活用
40
For illustration only, potential future options subject to change without notice.
コンパイラー
ライブラリー
並列モデル
1 種類の
ソースコード
共通のソースコードから複数のプラットフォームへの対応が可能
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
並列化手法の比較
Intel® Math Kernel Library,
Intel MPI*
Intel® Threading Building
Blocks
Intel® Cilk™ Plus
OpenMP*
Pthreads*
Intel® Math Kernel Library
アレイノーテーション: Intel® Cilk™ Plus
自動ベクトル化
半自動ベクトル化:
#pragma (vector, ivdep, simd)
OpenCL*
C/C++ Vector Classes
(F32vec16, F64vec8)
Intrinsics
容易性
詳細な制御
並列化手法 ベクトル化手法
IA の利点: 多様な開発手法から選択可能
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
インテル® Xeon Phi™ コプロセッサー での
実行方法
直接実行(ネイティブ)
• インテル® Xeon Phi™ コプロセッサーで直接実行する
• アプリケーション・プログラムの変更せずに、再コンパ
イルだけで実行することができる
オフロード実行
• ホストのインテル® Xeon® プロセッサー側で実行し、
高負荷の演算部分のみをインテル® Xeon Phi™ コプロ
セッサーにオフロード
• 実行に最も時間を要しているループ領域などに、オフ
ロード指示文を入れて、明示的にオフロードを指定する
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
実行モデルの概要
43
MAIN()
XEON®
結果出力
MAIN()
XEON®
XEON
PHI™
MAIN()
XEON®
XEON
PHI™
MAIN()
XEON®
XEON
PHI™
MAIN()
コンパイラー
ライブラリー
ランタイムシステム
マルチコア単独実行
シリアルおよび
中度な並列コード 高度な並列コード
結果出力 結果出力 結果出力 結果出力
オフロード実行 シンメトリック実行 メニ―コア単独実行
(ネイティブ実行)
ソース
コード
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
内容
•インテル® Xeon™ プロセッサーとインテル® Xeon
Phi™ コプロセッサー
• Phi コプロセッサーの高並列アーキテクチャ
• Phi コプロセッサーに適したアプリ領域とプログラミング
環境
• 現状の性能データ
• まとめ
640
1,728 1,741 1,747
2,217
0
500
1000
1500
2000
E5-2670
(2x 2.6GHz,
8C,
115W)
3120P/A
(57C,
1.1GHz,
300W)
5110P
(60C,
1.053GHz,
225W)
5120D
(60C,
1.053GHz,
245W)
7120P/X
(61C,
1.238GHz,
300W)
SGEMM
(GF/s)
45
Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are
measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult
other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products.
Source: Intel as of August 6, 2013 Configuration Details: Please reference slide speaker notes. For more information go to http://www.intel.com/performance
Up to 3.4x
Higher
333
817 830 826
1,047
0
200
400
600
800
1000
E5-2670
(2x 2.6GHz,
8C,
115W)
3120P/A
(57C,
1.1GHz,
300W)
5110P
(60C,
1.053GHz,
225W)
5120D
(60C,
1.053GHz,
245W)
7120P/X
(61C,
1.238GHz,
300W)
DGEMM
(GF/s)
Up to 3.1x
Higher
Higher is Better Higher is Better
代表的ベンチマーク結果(Intel® MKL) (1 of 2)
303
701
753 753
988
0
100
200
300
400
500
600
700
800
900
1000
E5-2670
(2x 2.6GHz,
8C,
115W)
3120P/A
(57C,
1.1GHz,
300W)
5110P
(60C,
1.053GHz,
225W)
5120D
(60C,
1.053GHz,
245W)
7120P/X
(61C,
1.238GHz,
300W)
SMP Linpack
(GF/s)
46
Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured
using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and
performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products.
Source: Intel as of August 6, 2013 Configuration Details: Please reference slide speaker notes. For more information go to http://www.intel.com/performance
Up to 3.2x
Higher
78
128
164
170
178
0
20
40
60
80
100
120
140
160
180
200
E5-2670
(2x 2.6GHz,
8C,
115W)
3120P/A
(57C,
1.1GHz,
300W)
5110P
(60C,
1.053GHz,
225W)
5120D
(60C,
1.053GHz,
245W)
7120P/X
(61C,
1.238GHz,
300W)
STREAM Triad
(GB/s)
Up to 2.2x
Higher
Higher is Better Higher is Better
代表的ベンチマーク結果 (Intel® MKL) (2 of 2)
© 2013 Intel Corporation. 無断での引用、転載を禁じます。
実アプリケーション性能
Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change
to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products.
Source: Intel Measured results as of October 17, 2012 Configuration Details: Please reference slide speaker notes.
For more information go to http://www.intel.com/performance
Notes:
1. 2S Intel® Xeon® processor X5690 vs. 2S Xeon* + 1 Intel® Xeon Phi™ coprocessor (pre production HW/SW)
2. 2S Intel® Xeon® processor E5-2687 vs. 1 Intel® Xeon Phi™ coprocessor (preproduction HW/SW) (960 versions of improved workload)
3. 2S Intel® Xeon® processor E5-2680 vs. 1 Intel® Xeon Phi™ coprocessor (preproduction HW/SW)
4. 4 node cluster, each node with 2S Intel® Xeon® processor E5-2867 (comparison is cluster performance with and without 1 pre-production Intel® Xeon Phi™ coprocessor per node)
5. Includes additional FLOPS from transcendental function unit
インテルラボ レイトレーシング: 1.8倍 Los Alamos 分子動力学: 2.52倍
BlackScholes SP: 10.75倍6
Monte Carlo SP 8.92倍
Jefferson Labs
Lattice QCD: 2.27倍
Photo Credit: Wikipedia: http://en.wikipedia.org/wiki/Quantum_chromodynamics
Acceleware
8th order isotropic variable velocity: 2.05倍
Sandia Labs
MiniFE: 1.7倍4
分子動力学レイトレーシング 素粒子シミュレーション
金融工学エネルギー採掘 有限要素法
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。48
まとめ
• インテル®Xeon® プロセッサはHPCでの科学技術計算も含
めた、あらゆる用途に幅広く対応できる
• 100スレッドを超える高並列でベクトル化が可能かメモリバ
ンド幅で制限されて性能が得られないものでは、 インテル
®Xeon Phi™ コプロセッサで高性能化の可能性がある
• 大学/研究所、エネルギー、気象、金融、生命科学、製造業、
DCC等の分野に Phi に適したアプリケーションが期待されて
いるが、商用アプリは少なく、ユーザがプログラムを行う必要
がある
• インテルは両 Xeon 用に標準化された共通の方法で並列化等の
最適化を行うツールを提供しており、将来にわたって、ソフト
ウェア資産の継続的な利用を目指す
Knights Landing: 次世代の Intel® Xeon Phi™
Kights Landing の後で発表予定の将来のIntel® Xeon®プロセッサー
でサポートされる、次世代512ビット命令セット(AVX-512)と共通で
バックワード・コンパチビリティを持つ
“オフロード” のボトルネックに縛られない
単独CPU または
PCIe コプロセッサ
計算とメモリバンド幅でリード
統合化したオンパッケージ
メモリ
Intel’の最新技術で設計
14nm トランジスタ
技術
共通の命令セット構成
Intel® Advanced Vector
Extensions 512
オンパッケージメモリの採用でメモリバンド幅を大幅に改善、
メモリバンド幅で律速されるアプリケーションでより優れた性能を実現し、
エクサスケールのメモリの壁越えを援助
Knights Landing は単独のホストプロセッサーとして基板上に実装す
ることが可能で、
計算密度、電力効率と信頼性を一弾と向上
Intel はトランジスタ技術で3年程度業界をリード:14nmの技術は
前世代のプロセッサ1に対して、
更なる計算密度の増加と電力あたりの計算能力
1 http://newsroom.intel.com/community/intel_newsroom/blog/2013/09/10/new-intel-ceo-president-outline-product-plans-future-of-computing-vision-to-mobilize-intel-and-developers
キャッシュ
モデル
HWが自動的に管理して、KNL CPU内
蔵オンパッケージメモリと外部 DDRメモ
リ間の“L3”キャッシュとして動作
フラット
モデル
アプリケーションがどのように内蔵オン
パッケージメモリとDDRメモリを使うのか
ユーザが制御して最高性能を得る
ハイブリッド
モデル
内蔵オンパッケージメモリを分割して
キャッシュ、フラットの両者の利点を合
わせる
高いメモリ転送バンド幅と汎用性で最大の性能を*
Knights Landing オンパッケージ メモリ
近接
メモリ
KNL CPUKNL CPU
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
...
...
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
HBWオン
パッケージ
メモリ
CPU パッケージ
DDR
DDR
DDR
...
キャッ
シュ
PCB
Far
Memory
上面図
*Intel® Xeon Phi™ x100 ファミリと比較した場合。図はCPUとメモリの関係を示す概念図 – スケールせず、実際のコンポーネント配置図とは異なる
近接
メモリ
側面図
© 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
本資料の情報は、現状のまま提供され、本資料は、明示されているか否かにかかわらず、また禁反言によるとよらずにかかわらず、い
かなる知的財産権のライセンスを許諾するものではありません。製品に付属の売買契約書『Intel's Terms and Conditions of
Sale』に規定されている場合を除き、インテルはいかなる責任を負うものではなく、またインテル製品の販売や使用に関する明示または
黙示の保証(特定目的への適合性、商品性に関する保証、第三者の特許権、著作権、その他、知的財産権の侵害への保証を含む)を
するものではありません。
性能に関するテストや評価は、特定のコンピューター・システム、コンポーネント、またはそれらを組み合わせて行ったものであり、このテ
ストによるインテル製品の性能の概算の値を表しているものです。システム・ハードウェアの設計、ソフトウェア、構成などの違いにより、
実際の性能は掲載された性能テストや評価とは異なる場合があります。システムやコンポーネントの購入を検討される場合は、ほかの
情報も参考にして、パフォーマンスを総合的に評価することをお勧めします。インテル製品の性能評価についてさらに詳しい情報をお知
りになりたい場合は、http://www.intel.co.jp/jp/performance/resources/benchmark_limitations.htm を参照してください。
Intel、インテル、Intel ロゴ、Intel Core、Xeon、Cilk、VTune は、アメリカ合衆国および / またはその他の国における Intel
Corporation の商標です。
*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。
法務上の注意書きと最適化に関する注意事項
最適化に関する注意事項
インテル® コンパイラーは、互換マイクロプロセッサー向けには、インテル製マイクロプロセッサー向けと同等レベルの最適化
が行われない可能性があります。これには、インテル® ストリーミング SIMD 拡張命令 2 (インテル® SSE2)、インテル® スト
リーミング SIMD 拡張命令 3 (インテル® SSE3)、ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連
する最適化およびその他の最適化が含まれます。インテルでは、インテル製ではないマイクロプロセッサーに対して、最適化の
提供、機能、効果を保証していません。本製品のマイクロプロセッサー固有の最適化は、インテル製マイクロプロセッサーでの
使用を目的としています。インテル® マイクロアーキテクチャーに非固有の特定の最適化は、インテル製マイクロプロセッサー
向けに予約されています。この注意事項の適用対象である特定の命令セットの詳細は、該当する製品のユーザー・リファレン
ス・ガイドを参照してください。
改訂 #20110804
© 2012 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。51
52

Mais conteúdo relacionado

Mais procurados

RFC6243(With-defaults Capability for NETCONF)の勉強資料
RFC6243(With-defaults Capability for NETCONF)の勉強資料RFC6243(With-defaults Capability for NETCONF)の勉強資料
RFC6243(With-defaults Capability for NETCONF)の勉強資料Tetsuya Hasegawa
 
あなたのAppleにもEFIモンスターはいませんか? by Pedro Vilaça - CODE BLUE 2015
あなたのAppleにもEFIモンスターはいませんか? by Pedro Vilaça - CODE BLUE 2015あなたのAppleにもEFIモンスターはいませんか? by Pedro Vilaça - CODE BLUE 2015
あなたのAppleにもEFIモンスターはいませんか? by Pedro Vilaça - CODE BLUE 2015CODE BLUE
 
RFC5277(NETCONF Event Notifications)の勉強資料
RFC5277(NETCONF Event Notifications)の勉強資料RFC5277(NETCONF Event Notifications)の勉強資料
RFC5277(NETCONF Event Notifications)の勉強資料Tetsuya Hasegawa
 
[db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔
[db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔[db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔
[db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔Insight Technology, Inc.
 
Lpicl304セミナー資料20140727
Lpicl304セミナー資料20140727Lpicl304セミナー資料20140727
Lpicl304セミナー資料20140727Takahiro Kujirai
 
Lpicl304Seminar Presentations on 20150118
Lpicl304Seminar Presentations on 20150118Lpicl304Seminar Presentations on 20150118
Lpicl304Seminar Presentations on 20150118Takahiro Kujirai
 
PCCC21:日本オラクル株式会社 「Oracle Cloud Infrastructure for HPC&AI」
PCCC21:日本オラクル株式会社 「Oracle Cloud Infrastructure for HPC&AI」PCCC21:日本オラクル株式会社 「Oracle Cloud Infrastructure for HPC&AI」
PCCC21:日本オラクル株式会社 「Oracle Cloud Infrastructure for HPC&AI」PC Cluster Consortium
 
20160619_LPICl304 技術解説セミナー in AP浜松町
20160619_LPICl304 技術解説セミナー in AP浜松町20160619_LPICl304 技術解説セミナー in AP浜松町
20160619_LPICl304 技術解説セミナー in AP浜松町Takahiro Kujirai
 
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編株式会社 NTTテクノクロス
 
SFC デザイン言語WS(電子工作)第6回「PCとの連携・音」
SFC デザイン言語WS(電子工作)第6回「PCとの連携・音」SFC デザイン言語WS(電子工作)第6回「PCとの連携・音」
SFC デザイン言語WS(電子工作)第6回「PCとの連携・音」Makoto Hirahara
 
Cell/B.E. プログラミング事始め
Cell/B.E. プログラミング事始めCell/B.E. プログラミング事始め
Cell/B.E. プログラミング事始めYou&I
 
20151114 _html5無料セミナー(OSC2015徳島)
20151114 _html5無料セミナー(OSC2015徳島)20151114 _html5無料セミナー(OSC2015徳島)
20151114 _html5無料セミナー(OSC2015徳島)Takahiro Kujirai
 
CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~
CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~ CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~
CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~ SEGADevTech
 
エンジニアという職業について
エンジニアという職業についてエンジニアという職業について
エンジニアという職業についてHisatoshi Kikumoto
 
Android組み込み開発テキスト pandaboard es編
Android組み込み開発テキスト pandaboard es編Android組み込み開発テキスト pandaboard es編
Android組み込み開発テキスト pandaboard es編OESF Education
 

Mais procurados (20)

RFC6243(With-defaults Capability for NETCONF)の勉強資料
RFC6243(With-defaults Capability for NETCONF)の勉強資料RFC6243(With-defaults Capability for NETCONF)の勉強資料
RFC6243(With-defaults Capability for NETCONF)の勉強資料
 
あなたのAppleにもEFIモンスターはいませんか? by Pedro Vilaça - CODE BLUE 2015
あなたのAppleにもEFIモンスターはいませんか? by Pedro Vilaça - CODE BLUE 2015あなたのAppleにもEFIモンスターはいませんか? by Pedro Vilaça - CODE BLUE 2015
あなたのAppleにもEFIモンスターはいませんか? by Pedro Vilaça - CODE BLUE 2015
 
RFC5277(NETCONF Event Notifications)の勉強資料
RFC5277(NETCONF Event Notifications)の勉強資料RFC5277(NETCONF Event Notifications)の勉強資料
RFC5277(NETCONF Event Notifications)の勉強資料
 
第15回「インテル® Xeon® プロセッサー E5 ファミリー 新登場!」(2012/03/22 on しすなま!) Iintel様資料
第15回「インテル® Xeon® プロセッサー E5 ファミリー 新登場!」(2012/03/22 on しすなま!) Iintel様資料第15回「インテル® Xeon® プロセッサー E5 ファミリー 新登場!」(2012/03/22 on しすなま!) Iintel様資料
第15回「インテル® Xeon® プロセッサー E5 ファミリー 新登場!」(2012/03/22 on しすなま!) Iintel様資料
 
[db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔
[db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔[db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔
[db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔
 
第10回「高信頼性仮想化ソフトウェア「Avance™」」(2011/10/27 on しすなま!)
第10回「高信頼性仮想化ソフトウェア「Avance™」」(2011/10/27 on しすなま!)第10回「高信頼性仮想化ソフトウェア「Avance™」」(2011/10/27 on しすなま!)
第10回「高信頼性仮想化ソフトウェア「Avance™」」(2011/10/27 on しすなま!)
 
Lpicl304セミナー資料20140727
Lpicl304セミナー資料20140727Lpicl304セミナー資料20140727
Lpicl304セミナー資料20140727
 
Lpicl304Seminar Presentations on 20150118
Lpicl304Seminar Presentations on 20150118Lpicl304Seminar Presentations on 20150118
Lpicl304Seminar Presentations on 20150118
 
PCCC21:日本オラクル株式会社 「Oracle Cloud Infrastructure for HPC&AI」
PCCC21:日本オラクル株式会社 「Oracle Cloud Infrastructure for HPC&AI」PCCC21:日本オラクル株式会社 「Oracle Cloud Infrastructure for HPC&AI」
PCCC21:日本オラクル株式会社 「Oracle Cloud Infrastructure for HPC&AI」
 
20160619_LPICl304 技術解説セミナー in AP浜松町
20160619_LPICl304 技術解説セミナー in AP浜松町20160619_LPICl304 技術解説セミナー in AP浜松町
20160619_LPICl304 技術解説セミナー in AP浜松町
 
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
ネットワークスイッチ構築実践 2.STP・RSTP・PortSecurity・StormControl・SPAN・Stacking編
 
SFC デザイン言語WS(電子工作)第6回「PCとの連携・音」
SFC デザイン言語WS(電子工作)第6回「PCとの連携・音」SFC デザイン言語WS(電子工作)第6回「PCとの連携・音」
SFC デザイン言語WS(電子工作)第6回「PCとの連携・音」
 
Cell/B.E. プログラミング事始め
Cell/B.E. プログラミング事始めCell/B.E. プログラミング事始め
Cell/B.E. プログラミング事始め
 
20151114 _html5無料セミナー(OSC2015徳島)
20151114 _html5無料セミナー(OSC2015徳島)20151114 _html5無料セミナー(OSC2015徳島)
20151114 _html5無料セミナー(OSC2015徳島)
 
ログについて改めて考えてみた
ログについて改めて考えてみたログについて改めて考えてみた
ログについて改めて考えてみた
 
ネットワーク構築訓練 入門
ネットワーク構築訓練 入門ネットワーク構築訓練 入門
ネットワーク構築訓練 入門
 
POWER8ここだけの話
POWER8ここだけの話POWER8ここだけの話
POWER8ここだけの話
 
CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~
CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~ CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~
CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~
 
エンジニアという職業について
エンジニアという職業についてエンジニアという職業について
エンジニアという職業について
 
Android組み込み開発テキスト pandaboard es編
Android組み込み開発テキスト pandaboard es編Android組み込み開発テキスト pandaboard es編
Android組み込み開発テキスト pandaboard es編
 

Destaque

Xeon PhiとN体計算コーディング x86/x64最適化勉強会6(@k_nitadoriさんの代理アップ)
Xeon PhiとN体計算コーディング x86/x64最適化勉強会6(@k_nitadoriさんの代理アップ)Xeon PhiとN体計算コーディング x86/x64最適化勉強会6(@k_nitadoriさんの代理アップ)
Xeon PhiとN体計算コーディング x86/x64最適化勉強会6(@k_nitadoriさんの代理アップ)MITSUNARI Shigeo
 
Xeonphiハッカソンでexpを作ってみた
Xeonphiハッカソンでexpを作ってみたXeonphiハッカソンでexpを作ってみた
Xeonphiハッカソンでexpを作ってみたMITSUNARI Shigeo
 
2013年度秋学期 統計学 第2回「統計資料の収集と読み方」
2013年度秋学期 統計学 第2回「統計資料の収集と読み方」2013年度秋学期 統計学 第2回「統計資料の収集と読み方」
2013年度秋学期 統計学 第2回「統計資料の収集と読み方」Akira Asano
 
Productive parallel programming for intel xeon phi coprocessors
Productive parallel programming for intel xeon phi coprocessorsProductive parallel programming for intel xeon phi coprocessors
Productive parallel programming for intel xeon phi coprocessorsinside-BigData.com
 
鏡はなぜ左右だけ逆になるのか?
鏡はなぜ左右だけ逆になるのか?鏡はなぜ左右だけ逆になるのか?
鏡はなぜ左右だけ逆になるのか?Akira Asano
 
LLDN / キミならどう書く Haskell 編 (自由演技)
LLDN / キミならどう書く Haskell 編 (自由演技)LLDN / キミならどう書く Haskell 編 (自由演技)
LLDN / キミならどう書く Haskell 編 (自由演技)Masahiro Sakai
 
北海道大学有機元素化学抄録会2014
北海道大学有機元素化学抄録会2014北海道大学有機元素化学抄録会2014
北海道大学有機元素化学抄録会2014Hajime Ito
 
Haskell Day2012 - 参照透過性とは何だったのか
Haskell Day2012 - 参照透過性とは何だったのかHaskell Day2012 - 参照透過性とは何だったのか
Haskell Day2012 - 参照透過性とは何だったのかKousuke Ruichi
 
PFIセミナーH271022 ~コマンドを叩いて遊ぶ コンテナ仮想、その裏側~
PFIセミナーH271022 ~コマンドを叩いて遊ぶ コンテナ仮想、その裏側~PFIセミナーH271022 ~コマンドを叩いて遊ぶ コンテナ仮想、その裏側~
PFIセミナーH271022 ~コマンドを叩いて遊ぶ コンテナ仮想、その裏側~Preferred Networks
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)Toru Imai
 
Deep Learning in real world @Deep Learning Tokyo
Deep Learning in real world @Deep Learning TokyoDeep Learning in real world @Deep Learning Tokyo
Deep Learning in real world @Deep Learning TokyoPreferred Networks
 
Boost.勉強会#19東京 Effective Modern C++とC++ Core Guidelines
Boost.勉強会#19東京 Effective Modern C++とC++ Core GuidelinesBoost.勉強会#19東京 Effective Modern C++とC++ Core Guidelines
Boost.勉強会#19東京 Effective Modern C++とC++ Core GuidelinesShintarou Okada
 
セクシー女優で学ぶ画像分類入門
セクシー女優で学ぶ画像分類入門セクシー女優で学ぶ画像分類入門
セクシー女優で学ぶ画像分類入門Takami Sato
 

Destaque (20)

Xeon PhiとN体計算コーディング x86/x64最適化勉強会6(@k_nitadoriさんの代理アップ)
Xeon PhiとN体計算コーディング x86/x64最適化勉強会6(@k_nitadoriさんの代理アップ)Xeon PhiとN体計算コーディング x86/x64最適化勉強会6(@k_nitadoriさんの代理アップ)
Xeon PhiとN体計算コーディング x86/x64最適化勉強会6(@k_nitadoriさんの代理アップ)
 
Xeonphiハッカソンでexpを作ってみた
Xeonphiハッカソンでexpを作ってみたXeonphiハッカソンでexpを作ってみた
Xeonphiハッカソンでexpを作ってみた
 
2013年度秋学期 統計学 第2回「統計資料の収集と読み方」
2013年度秋学期 統計学 第2回「統計資料の収集と読み方」2013年度秋学期 統計学 第2回「統計資料の収集と読み方」
2013年度秋学期 統計学 第2回「統計資料の収集と読み方」
 
Productive parallel programming for intel xeon phi coprocessors
Productive parallel programming for intel xeon phi coprocessorsProductive parallel programming for intel xeon phi coprocessors
Productive parallel programming for intel xeon phi coprocessors
 
鏡はなぜ左右だけ逆になるのか?
鏡はなぜ左右だけ逆になるのか?鏡はなぜ左右だけ逆になるのか?
鏡はなぜ左右だけ逆になるのか?
 
LLDN / キミならどう書く Haskell 編 (自由演技)
LLDN / キミならどう書く Haskell 編 (自由演技)LLDN / キミならどう書く Haskell 編 (自由演技)
LLDN / キミならどう書く Haskell 編 (自由演技)
 
Haskell 6-module
Haskell 6-moduleHaskell 6-module
Haskell 6-module
 
Haskell Lecture 1
Haskell Lecture 1Haskell Lecture 1
Haskell Lecture 1
 
北海道大学有機元素化学抄録会2014
北海道大学有機元素化学抄録会2014北海道大学有機元素化学抄録会2014
北海道大学有機元素化学抄録会2014
 
Haskell超入門 Part.1
Haskell超入門 Part.1Haskell超入門 Part.1
Haskell超入門 Part.1
 
PFI Seminar 2010/02/18
PFI Seminar 2010/02/18PFI Seminar 2010/02/18
PFI Seminar 2010/02/18
 
Haskell Day2012 - 参照透過性とは何だったのか
Haskell Day2012 - 参照透過性とは何だったのかHaskell Day2012 - 参照透過性とは何だったのか
Haskell Day2012 - 参照透過性とは何だったのか
 
CPUに関する話
CPUに関する話CPUに関する話
CPUに関する話
 
MICの解説
MICの解説MICの解説
MICの解説
 
SICPの紹介
SICPの紹介SICPの紹介
SICPの紹介
 
PFIセミナーH271022 ~コマンドを叩いて遊ぶ コンテナ仮想、その裏側~
PFIセミナーH271022 ~コマンドを叩いて遊ぶ コンテナ仮想、その裏側~PFIセミナーH271022 ~コマンドを叩いて遊ぶ コンテナ仮想、その裏側~
PFIセミナーH271022 ~コマンドを叩いて遊ぶ コンテナ仮想、その裏側~
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
 
Deep Learning in real world @Deep Learning Tokyo
Deep Learning in real world @Deep Learning TokyoDeep Learning in real world @Deep Learning Tokyo
Deep Learning in real world @Deep Learning Tokyo
 
Boost.勉強会#19東京 Effective Modern C++とC++ Core Guidelines
Boost.勉強会#19東京 Effective Modern C++とC++ Core GuidelinesBoost.勉強会#19東京 Effective Modern C++とC++ Core Guidelines
Boost.勉強会#19東京 Effective Modern C++とC++ Core Guidelines
 
セクシー女優で学ぶ画像分類入門
セクシー女優で学ぶ画像分類入門セクシー女優で学ぶ画像分類入門
セクシー女優で学ぶ画像分類入門
 

Semelhante a CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 1

FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状Yukitaka Takemura
 
[db tech showcase Sapporo 2015] A12:DBAが知っておくべき最新テクノロジー: フラッシュ, ストレージ, クラウド b...
[db tech showcase Sapporo 2015] A12:DBAが知っておくべき最新テクノロジー: フラッシュ, ストレージ, クラウド b...[db tech showcase Sapporo 2015] A12:DBAが知っておくべき最新テクノロジー: フラッシュ, ストレージ, クラウド b...
[db tech showcase Sapporo 2015] A12:DBAが知っておくべき最新テクノロジー: フラッシュ, ストレージ, クラウド b...Insight Technology, Inc.
 
【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~
【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~
【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~日本マイクロソフト株式会社
 
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...Insight Technology, Inc.
 
DBTS2015 Tokyo DBAが知っておくべき最新テクノロジー
DBTS2015 Tokyo DBAが知っておくべき最新テクノロジーDBTS2015 Tokyo DBAが知っておくべき最新テクノロジー
DBTS2015 Tokyo DBAが知っておくべき最新テクノロジーMasaya Ishikawa
 
Scale flux roi&performance_acri
Scale flux roi&performance_acriScale flux roi&performance_acri
Scale flux roi&performance_acri直久 住川
 
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)TIS Inc.
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編Fixstars Corporation
 
20170804 IOS/IOS-XE運用管理機能アップデート
20170804 IOS/IOS-XE運用管理機能アップデート20170804 IOS/IOS-XE運用管理機能アップデート
20170804 IOS/IOS-XE運用管理機能アップデートKazumasa Ikuta
 
インフラ野郎AzureチームProX
インフラ野郎AzureチームProXインフラ野郎AzureチームProX
インフラ野郎AzureチームProXToru Makabe
 
関数型言語ElixirのIoTシステム開発への展開
関数型言語ElixirのIoTシステム開発への展開関数型言語ElixirのIoTシステム開発への展開
関数型言語ElixirのIoTシステム開発への展開Hideki Takase
 
Ansibleはじめよぉ -Infrastructure as Codeを理解-
Ansibleはじめよぉ -Infrastructure as Codeを理解-Ansibleはじめよぉ -Infrastructure as Codeを理解-
Ansibleはじめよぉ -Infrastructure as Codeを理解-Shingo Kitayama
 
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke MiyakeInsight Technology, Inc.
 
「スーパーコンピュータとクラウドゲーム」
「スーパーコンピュータとクラウドゲーム」「スーパーコンピュータとクラウドゲーム」
「スーパーコンピュータとクラウドゲーム」Shinra_Technologies
 
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうかWebアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうかChihiro Ito
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
 
PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」
PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」
PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」PC Cluster Consortium
 
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...オラクルエンジニア通信
 

Semelhante a CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 1 (20)

FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状FPGAを用いたEdge AIの現状
FPGAを用いたEdge AIの現状
 
[db tech showcase Sapporo 2015] A12:DBAが知っておくべき最新テクノロジー: フラッシュ, ストレージ, クラウド b...
[db tech showcase Sapporo 2015] A12:DBAが知っておくべき最新テクノロジー: フラッシュ, ストレージ, クラウド b...[db tech showcase Sapporo 2015] A12:DBAが知っておくべき最新テクノロジー: フラッシュ, ストレージ, クラウド b...
[db tech showcase Sapporo 2015] A12:DBAが知っておくべき最新テクノロジー: フラッシュ, ストレージ, クラウド b...
 
【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~
【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~
【de:code 2020】 AI on IA 最新情報 ~ CPU で AI を上手に動かすための 5 つのヒント ~
 
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
 
DBTS2015 Tokyo DBAが知っておくべき最新テクノロジー
DBTS2015 Tokyo DBAが知っておくべき最新テクノロジーDBTS2015 Tokyo DBAが知っておくべき最新テクノロジー
DBTS2015 Tokyo DBAが知っておくべき最新テクノロジー
 
Scale flux roi&performance_acri
Scale flux roi&performance_acriScale flux roi&performance_acri
Scale flux roi&performance_acri
 
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
Scalable Generator: Using Scala in SIer Business (ScalaMatsuri)
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
 
20170804 IOS/IOS-XE運用管理機能アップデート
20170804 IOS/IOS-XE運用管理機能アップデート20170804 IOS/IOS-XE運用管理機能アップデート
20170804 IOS/IOS-XE運用管理機能アップデート
 
IOS/IOS-XE 運用管理機能アップデート
IOS/IOS-XE 運用管理機能アップデートIOS/IOS-XE 運用管理機能アップデート
IOS/IOS-XE 運用管理機能アップデート
 
インフラ野郎AzureチームProX
インフラ野郎AzureチームProXインフラ野郎AzureチームProX
インフラ野郎AzureチームProX
 
13 i tpro_mini_session_sap
13 i tpro_mini_session_sap13 i tpro_mini_session_sap
13 i tpro_mini_session_sap
 
関数型言語ElixirのIoTシステム開発への展開
関数型言語ElixirのIoTシステム開発への展開関数型言語ElixirのIoTシステム開発への展開
関数型言語ElixirのIoTシステム開発への展開
 
Ansibleはじめよぉ -Infrastructure as Codeを理解-
Ansibleはじめよぉ -Infrastructure as Codeを理解-Ansibleはじめよぉ -Infrastructure as Codeを理解-
Ansibleはじめよぉ -Infrastructure as Codeを理解-
 
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
 
「スーパーコンピュータとクラウドゲーム」
「スーパーコンピュータとクラウドゲーム」「スーパーコンピュータとクラウドゲーム」
「スーパーコンピュータとクラウドゲーム」
 
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうかWebアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
Webアプリに低レイテンシ・高可用性を求めるのは間違っているのだろうか
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 
PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」
PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」
PCCC22:インテル株式会社 テーマ2「次世代インテル® Xeon™ プロセッサーを中心としたインテルのHPC-AI最新情報」
 
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
[Modern Cloud Day Tokyo 2019] Oracle Cloud Infrastructure 基本サービス入門(1) - Netwo...
 

Mais de Computational Materials Science Initiative

Mais de Computational Materials Science Initiative (20)

MateriApps LIVE! の設定
MateriApps LIVE! の設定MateriApps LIVE! の設定
MateriApps LIVE! の設定
 
How to setup MateriApps LIVE!
How to setup MateriApps LIVE!How to setup MateriApps LIVE!
How to setup MateriApps LIVE!
 
How to setup MateriApps LIVE!
How to setup MateriApps LIVE!How to setup MateriApps LIVE!
How to setup MateriApps LIVE!
 
MateriApps LIVE!の設定
MateriApps LIVE!の設定MateriApps LIVE!の設定
MateriApps LIVE!の設定
 
MateriApps LIVE! の設定
MateriApps LIVE! の設定MateriApps LIVE! の設定
MateriApps LIVE! の設定
 
How to setup MateriApps LIVE!
How to setup MateriApps LIVE!How to setup MateriApps LIVE!
How to setup MateriApps LIVE!
 
How to setup MateriApps LIVE!
How to setup MateriApps LIVE!How to setup MateriApps LIVE!
How to setup MateriApps LIVE!
 
MateriApps LIVE! の設定
MateriApps LIVE! の設定MateriApps LIVE! の設定
MateriApps LIVE! の設定
 
MateriApps LIVE! の設定
MateriApps LIVE! の設定MateriApps LIVE! の設定
MateriApps LIVE! の設定
 
How to setup MateriApps LIVE!
How to setup MateriApps LIVE!How to setup MateriApps LIVE!
How to setup MateriApps LIVE!
 
How to setup MateriApps LIVE!
How to setup MateriApps LIVE!How to setup MateriApps LIVE!
How to setup MateriApps LIVE!
 
MateriApps LIVE! の設定
MateriApps LIVE! の設定MateriApps LIVE! の設定
MateriApps LIVE! の設定
 
How to setup MateriApps LIVE!
How to setup MateriApps LIVE!How to setup MateriApps LIVE!
How to setup MateriApps LIVE!
 
MateriApps LIVE!の設定
MateriApps LIVE!の設定MateriApps LIVE!の設定
MateriApps LIVE!の設定
 
ALPSチュートリアル
ALPSチュートリアルALPSチュートリアル
ALPSチュートリアル
 
How to setup MateriApps LIVE!
How to setup MateriApps LIVE!How to setup MateriApps LIVE!
How to setup MateriApps LIVE!
 
MateriApps LIVE!の設定
MateriApps LIVE!の設定MateriApps LIVE!の設定
MateriApps LIVE!の設定
 
MateriApps: OpenMXを利用した第一原理計算の簡単な実習
MateriApps: OpenMXを利用した第一原理計算の簡単な実習MateriApps: OpenMXを利用した第一原理計算の簡単な実習
MateriApps: OpenMXを利用した第一原理計算の簡単な実習
 
CMSI計算科学技術特論C (2015) ALPS と量子多体問題②
CMSI計算科学技術特論C (2015) ALPS と量子多体問題②CMSI計算科学技術特論C (2015) ALPS と量子多体問題②
CMSI計算科学技術特論C (2015) ALPS と量子多体問題②
 
CMSI計算科学技術特論C (2015) ALPS と量子多体問題①
CMSI計算科学技術特論C (2015) ALPS と量子多体問題①CMSI計算科学技術特論C (2015) ALPS と量子多体問題①
CMSI計算科学技術特論C (2015) ALPS と量子多体問題①
 

CMSI計算科学技術特論B(15) インテル Xeon Phi コプロセッサー向け最適化、並列化概要 1

  • 1. インテル® Xeon Phi™ のプログラミングモデルと アプリケーション分野 インテル® Xeon Phi™ が高性能を低消費電力で実現でき る超並列のプログラミングモデルとその適用可能なアプリ ケーションについて紹介する
  • 2. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 内容 •インテル® Xeon™ プロセッサーとインテル® Xeon Phi™ コプロセッサー • Phi コプロセッサーの高並列アーキテクチャ • Phi コプロセッサーに適したアプリ領域とプログラミング 環境 • 現状の性能データ • まとめ
  • 3. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 より多くのコア、広いベクトル、コプロセッサー パフォーマンスを得るには、ツールは 並列性を考慮しなければならない イメージの大きさは実際の大サイズとは異なります インテル® Xeon® プロセッ サー 64 ビッ ト インテル® Xeon® プロセッ サー 5100 シリーズ インテル® Xeon® プロセッ サー 5500 シリーズ インテル® Xeon® プロセッ サー 5600 シリーズ インテル® Xeon® プロセッ サー コード名 Sandy Bridge インテル® Xeon® プロセッ サー コード名 Ivy Bridge インテル® Xeon® プロセッ サー コード名 Haswell インテル® MIC コプロセッ サー コード名 Knights Ferry インテル® Xeon PHI™ コア数 1 2 4 6 8 12 14 32 61 スレッド数 2 2 8 12 16 24 28 128 >240 SIMD 幅 128 128 128 128 256 256 256 512 512 SSE2 SSSE3 SSE4.2 SSE4.2 AVX AVX AVX2 FMA3 IMCI ソフトウェアの挑戦: スケーラブルなソフトウェアを開発する
  • 4. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。4 インテル® Xeon™ プロセッサーの特徴 • 単一スレッドパフォーマンスが高い – コアが6個の実行パイプを持ち、out of order – ラストレベルの共有キャッシュが大きい • 固有機能命令拡張 – AES等の暗号化、乱数 • 仮想化やRAS 等の商用に有効な機能 • マルチコア、マルチスレッド(8から12コア) • AVX 1.0 (256bit) => 単精度 8要素、倍精度 4要素
  • 5. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® MIC アーキテクチャー インテルのマルチ & メニーコア・エンジン インテル® Xeon® プロセッサー: • インテルの HPC パフォーマンスの基礎 • すべての領域のワークロードに適合 • シリアルおよび高度に並列化されたワークロー ドのための業界をリードするパフォーマンス / ワット インテル® MIC アーキテクチャー: • 高並列化された計算主体のワークロード向けに 最適化されている • Xeon プロセッサーと共通のプログラミングモデ ルとソフトウェア開発ツールにより、効率良いア プリケーションの準備と性能チューニングを可能 にする • 22nm プロセスにより 50 コア以上で投入され、 高度に並列化された HPC 用途に向けパフォー マンス達成のため要求される メモリバンド幅 マルチコア・インテル® Xeon® プロセッサー 2 - 3.5 GHz インテル® メニー・インテグレーテッド・コア 1-1.5 GHz ダイサイズは比例しません
  • 6. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 Intel® Xeon Phi™ 製品ファミリー Intel® Many Integrated Core アーキテクチャ 超並列のアプリケーション用の製品ファミリー/アーキテクチャ • 多数の小型で低消費電力のIAコアで構成される • 512 bit 幅のベクトル演算 • Intel® Xeon® プロセッサ-製品を補完する • 超並列のアプリケーションに対して画期的な性能を実現 – 広く用いられているx86 のプログラミング・モデルを踏襲 – 同じソース・プログラムを Intel® Xeon® & Intel® MIC で共用 (SIMD命令が異なり、バイナリ互換ではない) – 最初の製品はPCI Ex のカード形状のコプロセッサとして提供 インテル® Xeon Phi™ コプロセッサー: コード名 Knights Corner (KNC) • 最大 61 コア、コア当たり4スレッド • 最大 16GB の GDDR5 メモリ(最大 352 GB/s ) • 225-300W(冷却方式:パッシブおよびアクティブ製品) • X16 PCI Ex のカード( IA のホストプロセッサが必要)
  • 7. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® Xeon Phi™ 製品ファミリー インテル® メニー・インテグレーテッド・コア (インテル® MIC) アーキテクチャー・ベース 7 最初のインテル® MIC 製品 22nm プロセス 50 を超えるインテル® アーキテクチャー・コア ソフトウェア開発 プラットフォーム ✝開発コード名 Knights Ferry† 将来の Knights† 製品 Knights Corner†
  • 8. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® Xeon Phi™ コプロセッサー プラットフォーム概要 8 ホスト CPU インテル® Xeon® プロセッサー ホスト・プラットフォーム QPI x16 PCIe Xeon Phi™ インテル® Xeon Phi™ コプロセッサー GDDR5 IBA 10GbE IBA 10GbE ノードあたり 1-4 コプロセッサー ノードあたり 1-2 CPU DDR3 DDR3 GDDR5 x16 PCIe ホスト CPU Xeon Phi™
  • 9. Intel Confidential Intel and the Intel logo are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States and other countries. Other names and brands may be claimed as the property of others. All products, dates, and figures are preliminary and are subject to change without any notice. Copyright © 2013, Intel Corporation. 9 Operate as a compute node Run a full OS Program to MPI Run x86 code Intel® Xeon Phi™コプロセッサー: 適用範囲の広がり 汎用の IA ハードウェアの採用で、ソフトウェア開発時間を節約 Intel® Xeon Phi™ コプロセッサ*カスタムHW 加速器 Run restricted code Run offloaded code 1チップのスパコン GPU ASIC FPGA 制限のあるアーキテクチャ *Refer to software.intel.com/mic-developer for details on the Intel Xeon Phi™ coprocessor
  • 10. © 2013 Intel Corporation. 無断での引用、転載を禁じます。 インテル® Xeon Phi™ コプロセッサーと開発ツール C, C++, Fortran インテル、サードパーティー・ツール インテル® Xeon Phi™ コプロセッサー 対応インテル開発ツール インテル、 サードパーティー・ツール 対応済 1.011 TFLOPS の倍精度演算性能 (ピーク時) 8GB GDDR5メモリー 搭載 320 GB/sの帯域幅 性能 1 TFLOPS超 の倍精度演算性能 (ピーク時) 6GB GDDR5メモリー 搭載 240 GB/sの帯域幅 ストリーミング、デジタル・ コンテンツ制作、エネルギー 採掘シミュレーション等 最適なアプリケーション 様々なHPCワークロードに 対応 演算処理中心の ワークロードに最適 DNA Sequencing モンテカルロ法、ブラックショールズ、 Linpack、医療・ライフサイエンス等 新登場 インテル® Xeon Phi™ コプロセッサー 5110P インテル® Xeon Phi™ コプロセッサー 3100 製品ファミリー インテル® Xeon Phi™ コプロセッ サー対応版新登場 2013年上半期2013年上半期 登場 2013年上半期 登場 © 2012 Intel Corporation. 無断での引用、転載を禁じます。
  • 11. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 3ファミリ 優れた並列計算ソリューション Performance/$ leadership 3120P MM# 927501 3120A MM# 927500 5ファミリ 高密度実装環境に最適化 Performance/watt leadership 5110P MM# 924044 5120D (no thermal) MM# 927503 8GB GDDR5 >300GB/s >1TF DP 225-245W TDP 6GB GDDR5 240GB/s >1TF DP 300W TDP インテル® Xeon Phi™ コプロセッサー 製品ファミリ Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. For more information go to http://www.intel.com/performance11 Back to Contents 7 ファミリ 最高性能で最大メモリ Performance leadership 7120P MM# 927499 7120X (no thermal) MM# 927498 16GB GDDR5 352GB/s >1.2TF DP 300W TDP 7120A Avail Q2’14 7120D Avail Q1’14
  • 12. Xeon Phi™コプロセッサーで利用可能なツール コンパイラー、言語、開発ツール  Intel(R) Parallel Studio XE 2013 - C++ Fortran のコンパイラ-とライブラリ、OpenMPやCilk Plus によ る並列化、MKL等並列化ライブラリ、スレッドのプロファイルやデバッグツール等  Intel(R) Cluster Studio XE 2013 – 性能とスケーラビリティ向上のためのツール、MPIライブラリや MPIのプロファイル・ツール  Intel(R) SDK for OpenCL Applications XE 2013 Beta  CAPS Compilers  gcc (*SEE NOTE below)  ISPC (also see instructions for compiling ISPC)  PGAS GPI for MIC (Beta) ライブラリ  Accelereyes ArrayFire (Beta)  Boost  MAGMA  MVAPICH2  NAG Libraries 12 デバッガー  Allinea DDT  GDB  Rogue Wave TotalView アナライザー  Allinea MAP  PAPI (note: validated against MPSS Gold update 2)  Speedometer and Overhead  Tuning and Analysis Utilities (TAU) http://software.intel.com/en-us/articles/intel-and-third-party-tools-and-libraries-available-with-support-for-intelr-xeon-phitm
  • 13. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 内容 •インテル® Xeon™ プロセッサーとインテル® Xeon Phi™ コプロセッサー • Phi コプロセッサーの高並列アーキテクチャ • Phi コプロセッサーに適したアプリ領域とプログラミング 環境 • 現状の性能データ • まとめ
  • 14. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。14 プロセス並列で、インテル® Xeon Phi™ Coprocessor を用いて性能向上が望める場合 • エンバラシングリィ・パラレル • 多数のプロセスを同時に実行して、同じ計算やサーチを 異なる条件で行い、結果を利用(リダクション) • 但し、キャッシュはコアあたり 512KB のみ - メモリ参照レイテンシが大きい - メモリバンド幅も律速となる • メモリ以外の入出力能力もスレッド数に対して弱い - 容量/バンド幅を考えて全体で協調
  • 15. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 Yes 検討中のアプリケー ションは Yes Yes No No No ベクトル 化で性能 向上可能 ですか? 100 スレ ッド以上 まで性能 向上しま すか ? メモリバ ンド幅が 性能を制 限してい ますか? インテル® Xeon Phi™ Coprocessor を用 いて性能向上が望めるかどうかの判定方法
  • 16. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® Xeon Phi™ コプロセッサー アーキテクチャー概要 16 PCIe Client Logic Core L2 Core L2 Core L2 Core L2 TD TD TD TD Core L2 Core L2 Core L2 Core L2 TDTDTDTD GDDR MC GDDR MC GDDR MC GDDR MC TD: Tag Directory L2: L2-Cache MC: Memory Controller For illustration only. L1 キャッシュ: • L1I=32KB L1D=32KB • 8-way • キャッシュライン=64 バイト メモリー: • GDDR5 • 最大 16GB の容量 • 16 メモリーチャネル • 最大 352GB/s のメモリーバンド幅 L2 キャッシュ: • 512 KB • 8-way • キャッシュライン=64 バイト
  • 17. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 Knights Corner コア Instruction DecodeInstruction Decode ScalarScalar UnitUnit VectorVector UnitUnit ScalarScalar RegistersRegisters VectorVector RegistersRegisters L1 Icache & DcacheL1 Icache & Dcache 256K L2 Cache256K L2 Cache Local SubsetLocal Subset RingRing Instruction DecodeInstruction Decode ScalarScalar UnitUnit VectorVector UnitUnit ScalarScalar RegistersRegisters VectorVector RegistersRegisters L1 Icache & DcacheL1 Icache & Dcache 256K L2 Cache256K L2 Cache Local SubsetLocal Subset Interprocessor Network Interprocessor Network Instruction Decode Scalar Unit Vector Unit Scalar Registers Vector Registers L1 Icache & Dcache 256K L2 Cache Local Subset Ring Instruction Decode Scalar Unit Vector Unit Scalar Registers Vector Registers L1 Icache & Dcache 256K L2 Cache Local Subset Interprocessor Network Intel®Xeon Phi™コプロセッサー・コア: • 2命令発行の Pentium プロセッサーのスカラー・パイプライン • 短い実行パイプライン • 完全にコヒーレントなキャッシュ構造 • マルチスレッド、64 ビット拡張、高性能プリフェッチなど最新のテクノロジー を拡張 • コアあたり 4 スレッドを実行(但し1つのスレッドでは連続してデコード不可) • スレッドごとに個別のレジスターセット • コアあたり 32KB 命令キャッシュと 32KB データキャッシュ 拡張 x86 命令セット: • 100 以上の新しい命令 • ワイド・ベクトル処理命令、ギャザー、スキャッタ‐やマスク等 • いくつかの特殊スカラー命令 • 3 オペランド、16 幅ベクトル処理ユニット (VPU) • VPU は、整数、単精度 / 倍精度命令を実行 • 浮動小数点演算で IEEE 754 2008 標準をサポート プロセッサー間ネットワーク: 1024 ビット幅、双方向 (各方向 512 ビット) 今後のオプションは予告なしに変更される可能性があります
  • 18. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® MIC アーキテクチャーのブロック図 18 L2 コントロール L1 TLB および 32KB 命令キャッシュ T0 IP 4 スレッド インオーダー TLB ミス 命令キャッシュミス デコード μコード 16B/サイクル (2 IPC) パイプ 0 X87 RF スカラー RF X87 ALU 0 ALU 1 VPU RF VPU 512b SIMD パイプ 1 TLB ミス ハンドラー L2 TLB T1 IP T2 IP T3 IP L1 TLB および 32KB データキャッシュ データ・キャッシュ・ミス TLB ミス ダイ上の インターコネクトへ ハードウェア・ プリフェッチ インテル® Xeon Phi™ コプロセッサー・コア 512KB L2 キャッシュ PPF PF D0 D1 D2 E WB
  • 19. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 ベクトル/SIMD 高計算密度
  • 20. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 VPU ブロック図 MEMORY L2 L1 + 32x 512b Vreg Scalar Units 8x 16b Vmask T0 T1 T2 T3 DataConvert/Broadcast Data Swizzle * 512b / 512b / 512b / 512b / 512b / 4 cycles Vector/SIMD Part (VPU) Scalar Part Scalar Register
  • 21. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 新しい VPU 命令 100 以上の新しい命令 512 ビット SIMD 32 個の 512 ビット・ベクトル・レジスター、8 個の 16 ビット・マスク・レジスター 16 要素の FLOAT32, 8 要素の FLOAT64 もしくは 16 要素の INT32 3 オペランドの Multiply-Add (FMA) 少ない命令で高い flops (IEEE 準拠) Load 操作 第三オペランドは、直接メモリーを指定できる ブロードキャスト/スウィズリング/フォーマット変換 (Load/Store 時) Float16、unorm8、その他 – キャッシュを効率よく利用するため許可 多くの操作でプレディケーション/マスキング Gather/Scatter . . . 今後のオプションは予告なしに変更される可能性があります
  • 22. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 ベクトル命令の概要 ベクトル命令のフォーマット(ここではMASMの形式で表記する) • 明示的に結果を送るレジスタを指定する 3 オペランド形式 instruction destination, source1, source2  入力レジスタの内容は破壊されない  コードをコンパクトにできる • (大概の) MIC 命令はマスクすることができる instruction destination {mask}, source1, source2  マスクされた部分は非破壊的である、つまり、結果を送る先の値は 保持される • 例: vaddps zmm1{k1},zmm2,zmm3 dest mask source1 source2
  • 23. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 Fused Multiply Add(乗加算) Multiply-Add (デスティネーションは最初のソース) – Vfmadd231ps v0, v5, v6 ; v0=v5*v6+v0 – オペランド 2 にオペランド 3 を掛けて、オペランド 1 に加算
  • 24. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。24 インテル® Xeon Phi™ コプロセッサーの特徴 • 60 個以上の多数のコアを持ち、高並列でのマルチスレッド実行 を前提に設計されている – 1コアあたり4HWスレッドをサポートし、240スレッドでの実行も可能 • 512 bit(16/8 整数、16 単精度数、8 倍精度数)のベクトル演 算器を持ち、スレッドあたり32 個のベクトルレジスタを持って いる • コヒーレントなキャッシュ構造を持ち、レイテンシ―は大きい が、高いメモリバンド幅(352 MB/s)の 最大16GBのメモリを 持っている – 8KB (2KB x 4) RF, 32KB L1, 512KB L2, 16GB MEM • VPU は単精度浮動小数点数で2の指数/対数、逆数、開平とその逆数 をパイプライン実行できる • 低消費電力だが、単一スレッドパフォーマンスは低い • プロセッサのアーキテクチャは、半導体の微細化に伴い進化す る
  • 25. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 内容 •インテル® Xeon™ プロセッサーとインテル® Xeon Phi™ コプロセッサー • Phi コプロセッサーの高並列アーキテクチャ • Phi コプロセッサーに適したアプリ領域とプログラミング 環境 • 現状の性能データ • まとめ
  • 26. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® Xeon Phi™ コプロセッサへの ワークロード適合性 マルチコアの上限 性能 スレッド メニーコアの上限 100 スレッ ド以上まで 性能向上し ますか ? Yes No No No 実行アプリケーションがスレッドや ベクトル化、またはメモリBWで性能 向上が得られる場合  Intel® Xeon PhiTM コプロセッサ ベクトル化 で性能向上 可能ですか? メモリバン ド幅が性能 を制限して いますか? Yes Yes
  • 27. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 並列化 ベクトル化 メニーコア用にス ケールさせる 並列化できる 割合 % ベクトル化率 Performance インテル®Xeon Phi™ コプロセッサ―のワークロード スケーラビリティ
  • 28. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 領域 アプリケーション/ワークロード Intel® Xeon Phi™ アプリ候補 公共セクタ(研究所) HPL, HPCC, NPB, LAMMPS, QCD エネルギー (オイル&ガスを含む) RTM (Reverse Time Migration), WEM (Wave Equation Migration) 気象モデルと天候シミュレーション WRF, HOMME 金融解析 Monte Carlo, Black-Scholes, Binomial model, Heston model 生命科学 (分子動力学, 遺伝Gene Sequencing, Bio-Chemistry) LAMMPS, NAMD, AMBER, HMMER, BLAST, QCD, CHARMM 製造業 CAD/CAM/CAE/CFD/EDA Implicit, Explicit Solvers デジタル・コンテント・クリエーション Ray Tracing, Animation, Effects ソフトウェア開発環境やエコシステム Tools, Middleware 28 対象となる技術計算市場とアプリケーション ISV とエンド・ユーザでの開発
  • 29. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 拡大するエコシステム: Intel® Xeon Phi™ coprocessors で現在開発中
  • 30. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 プログラミングの可搬性: 重要な特長 インテルは、インテルのHPC技術結集したサーバー上で性能を発揮する並列プログラムを開発するため の、汎用のプログラム開発環境を提供してサポートする 利点: • 1つのコードベースで、インテル® Xeon® プロセッサと インテル® Xeon Phi™ コプロセッサの両方に対応するプログラムの保守開発可能 • 標準化された開発環境に基づいた開発 • ほとんどの利用者は インテル Xeon プロセッサーを使用した開発機上で最適化したプログラム からXeon Phi コプロセッサーの最適化を始める • 多くの場合、 Xeon Phi コプロセッサー用に行った最適化は、Xeon プロセッサ上でも有効と なる • インテル® Xeon Phi™ コプロセッサーへの移植を容易にする • GPU や 他のアクセラレータと異なり、すぐにプログラムを実行可能 • あまり手間をかけることなく性能向上を得ることが可能 • 初期の性能が目標より低い場合、開発者は、 • 直ぐに性能の判断 (新しいアーキテクチャで動作するようにコーディングする立ち上げ時間要) • 最適化や開発の生産性に関しても慣れたプログラミングモデル、言語、業界標準で判断
  • 31. GPU での プログラミング “R. Harrison, “Opportunities and Challenges Posed by Exascale Computing - ORNL's Plans and Perspectives”, National Institute of Computational Sciences, Nov 2011” Other brands and names are the property of their respective owners. 既存の並列化プログラム既存の並列化プログラム コンパイラーコンパイラー GPUハードウェアに依存した 開発言語やツールが必要 GPUハードウェアに依存した 開発言語やツールが必要 GPU 並列コード部分 を抽出 並列コード部分 を抽出 プログラムを統合プログラムを統合 CPUとGPU でそれぞれ異なるプログラミングが必要 © 2012 Intel Corporation. 無断での引用、転載を禁じます。
  • 32. © 2013 Intel Corporation. 無断での引用、転載を禁じます。 インテル® Xeon Phi™ コプロセッサーでのプログラミング Compilers and Runtimes Compilers and Runtimes “R. Harrison, “Opportunities and Challenges Posed by Exascale Computing - ORNL's Plans and Perspectives”, National Institute of Computational Sciences, Nov 2011” Other brands and names are the property of their respective owners. コンパイラー ランタイム コンパイラー ランタイム CPU とインテル® Xeon Phi™ コプロセッサーは共通のプログラミング環境 既存のプログラム既存のプログラム
  • 36. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® Xeon Phi™ コプロセッサで 結果を得るには 並列化とベクトル化による最適化を行う • 簡単なコーディング作業ではないかもしれない 高並列のデバイスには、高並列のプログラムが必要 必要以上に難しくしないことを提案している • 既にある標準ツールをないがしろにしない • 既にプロセッサー用に使っている同じ言語、並列計算モデルとツールを使 う • 現在の開発と将来への投資を大事に扱う
  • 37. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 フレキシブルな実行モデル 様々な実行モデルに対応することが可能 XEON® PHI XEON PHI™ XEON® XEON PHI™ ネイティブ 実行 オフロード実行 シンメトリック XEON® XEON PHI™ MPI XEON® XEON® XEON PHI™ コ・ワーカー XEON® XEON PHI™ MPI DIRECTIVES
  • 38. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® ソフトウェア開発製品 38 Advanced Performance Distributed Performance C++ および Fortran コンパイラー インテル® MKL/インテル® IPP ライブラリー と解析ツール IA ベース・マルチコア・ノード上の Windows* および Linux* 開発者向け MPI クラスターツールと C++ および Fortran コンパイラー、インテル® MKL/インテル® IPP ライブラリーと解析ツール IA ベースのクラスター上の Windows* および Linux* 開発者向け +
  • 39. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® Paralel Studio XE 2013 インテル® Advisor XE  インテル® C++ コンパイラー  インテル® Fortran コンパイラー  インテル® MKL インテル® IPP  インテル® TBB インテル® Inspector XE  インテル® VTune ™ Amplifier XE インテル® ソフトウェア開発製品 (インテル Xeon ® Phi™ コプロセッサー対応ツール) 39  対応は Linux 版のみ  詳細は各製品のリリースノートやドキュメント等をご参照ください インテル® Cluster Studio XE 2013 インテル® Advisor XE  インテル® C++ コンパイラー  インテル® Fortran コンパイラー  インテル® MKL インテル® IPP  インテル® TBB インテル® Inspector XE  インテル® VTune ™ Amplifier XE  インテル® MPI ライブラリー  インテル® Trace Analyzer/Collector
  • 40. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® ソフトウェア開発製品の活用 40 For illustration only, potential future options subject to change without notice. コンパイラー ライブラリー 並列モデル 1 種類の ソースコード 共通のソースコードから複数のプラットフォームへの対応が可能
  • 41. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 並列化手法の比較 Intel® Math Kernel Library, Intel MPI* Intel® Threading Building Blocks Intel® Cilk™ Plus OpenMP* Pthreads* Intel® Math Kernel Library アレイノーテーション: Intel® Cilk™ Plus 自動ベクトル化 半自動ベクトル化: #pragma (vector, ivdep, simd) OpenCL* C/C++ Vector Classes (F32vec16, F64vec8) Intrinsics 容易性 詳細な制御 並列化手法 ベクトル化手法 IA の利点: 多様な開発手法から選択可能
  • 42. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 インテル® Xeon Phi™ コプロセッサー での 実行方法 直接実行(ネイティブ) • インテル® Xeon Phi™ コプロセッサーで直接実行する • アプリケーション・プログラムの変更せずに、再コンパ イルだけで実行することができる オフロード実行 • ホストのインテル® Xeon® プロセッサー側で実行し、 高負荷の演算部分のみをインテル® Xeon Phi™ コプロ セッサーにオフロード • 実行に最も時間を要しているループ領域などに、オフ ロード指示文を入れて、明示的にオフロードを指定する
  • 43. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 実行モデルの概要 43 MAIN() XEON® 結果出力 MAIN() XEON® XEON PHI™ MAIN() XEON® XEON PHI™ MAIN() XEON® XEON PHI™ MAIN() コンパイラー ライブラリー ランタイムシステム マルチコア単独実行 シリアルおよび 中度な並列コード 高度な並列コード 結果出力 結果出力 結果出力 結果出力 オフロード実行 シンメトリック実行 メニ―コア単独実行 (ネイティブ実行) ソース コード
  • 44. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 内容 •インテル® Xeon™ プロセッサーとインテル® Xeon Phi™ コプロセッサー • Phi コプロセッサーの高並列アーキテクチャ • Phi コプロセッサーに適したアプリ領域とプログラミング 環境 • 現状の性能データ • まとめ
  • 45. 640 1,728 1,741 1,747 2,217 0 500 1000 1500 2000 E5-2670 (2x 2.6GHz, 8C, 115W) 3120P/A (57C, 1.1GHz, 300W) 5110P (60C, 1.053GHz, 225W) 5120D (60C, 1.053GHz, 245W) 7120P/X (61C, 1.238GHz, 300W) SGEMM (GF/s) 45 Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. Source: Intel as of August 6, 2013 Configuration Details: Please reference slide speaker notes. For more information go to http://www.intel.com/performance Up to 3.4x Higher 333 817 830 826 1,047 0 200 400 600 800 1000 E5-2670 (2x 2.6GHz, 8C, 115W) 3120P/A (57C, 1.1GHz, 300W) 5110P (60C, 1.053GHz, 225W) 5120D (60C, 1.053GHz, 245W) 7120P/X (61C, 1.238GHz, 300W) DGEMM (GF/s) Up to 3.1x Higher Higher is Better Higher is Better 代表的ベンチマーク結果(Intel® MKL) (1 of 2)
  • 46. 303 701 753 753 988 0 100 200 300 400 500 600 700 800 900 1000 E5-2670 (2x 2.6GHz, 8C, 115W) 3120P/A (57C, 1.1GHz, 300W) 5110P (60C, 1.053GHz, 225W) 5120D (60C, 1.053GHz, 245W) 7120P/X (61C, 1.238GHz, 300W) SMP Linpack (GF/s) 46 Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. Source: Intel as of August 6, 2013 Configuration Details: Please reference slide speaker notes. For more information go to http://www.intel.com/performance Up to 3.2x Higher 78 128 164 170 178 0 20 40 60 80 100 120 140 160 180 200 E5-2670 (2x 2.6GHz, 8C, 115W) 3120P/A (57C, 1.1GHz, 300W) 5110P (60C, 1.053GHz, 225W) 5120D (60C, 1.053GHz, 245W) 7120P/X (61C, 1.238GHz, 300W) STREAM Triad (GB/s) Up to 2.2x Higher Higher is Better Higher is Better 代表的ベンチマーク結果 (Intel® MKL) (2 of 2)
  • 47. © 2013 Intel Corporation. 無断での引用、転載を禁じます。 実アプリケーション性能 Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. Source: Intel Measured results as of October 17, 2012 Configuration Details: Please reference slide speaker notes. For more information go to http://www.intel.com/performance Notes: 1. 2S Intel® Xeon® processor X5690 vs. 2S Xeon* + 1 Intel® Xeon Phi™ coprocessor (pre production HW/SW) 2. 2S Intel® Xeon® processor E5-2687 vs. 1 Intel® Xeon Phi™ coprocessor (preproduction HW/SW) (960 versions of improved workload) 3. 2S Intel® Xeon® processor E5-2680 vs. 1 Intel® Xeon Phi™ coprocessor (preproduction HW/SW) 4. 4 node cluster, each node with 2S Intel® Xeon® processor E5-2867 (comparison is cluster performance with and without 1 pre-production Intel® Xeon Phi™ coprocessor per node) 5. Includes additional FLOPS from transcendental function unit インテルラボ レイトレーシング: 1.8倍 Los Alamos 分子動力学: 2.52倍 BlackScholes SP: 10.75倍6 Monte Carlo SP 8.92倍 Jefferson Labs Lattice QCD: 2.27倍 Photo Credit: Wikipedia: http://en.wikipedia.org/wiki/Quantum_chromodynamics Acceleware 8th order isotropic variable velocity: 2.05倍 Sandia Labs MiniFE: 1.7倍4 分子動力学レイトレーシング 素粒子シミュレーション 金融工学エネルギー採掘 有限要素法
  • 48. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。48 まとめ • インテル®Xeon® プロセッサはHPCでの科学技術計算も含 めた、あらゆる用途に幅広く対応できる • 100スレッドを超える高並列でベクトル化が可能かメモリバ ンド幅で制限されて性能が得られないものでは、 インテル ®Xeon Phi™ コプロセッサで高性能化の可能性がある • 大学/研究所、エネルギー、気象、金融、生命科学、製造業、 DCC等の分野に Phi に適したアプリケーションが期待されて いるが、商用アプリは少なく、ユーザがプログラムを行う必要 がある • インテルは両 Xeon 用に標準化された共通の方法で並列化等の 最適化を行うツールを提供しており、将来にわたって、ソフト ウェア資産の継続的な利用を目指す
  • 49. Knights Landing: 次世代の Intel® Xeon Phi™ Kights Landing の後で発表予定の将来のIntel® Xeon®プロセッサー でサポートされる、次世代512ビット命令セット(AVX-512)と共通で バックワード・コンパチビリティを持つ “オフロード” のボトルネックに縛られない 単独CPU または PCIe コプロセッサ 計算とメモリバンド幅でリード 統合化したオンパッケージ メモリ Intel’の最新技術で設計 14nm トランジスタ 技術 共通の命令セット構成 Intel® Advanced Vector Extensions 512 オンパッケージメモリの採用でメモリバンド幅を大幅に改善、 メモリバンド幅で律速されるアプリケーションでより優れた性能を実現し、 エクサスケールのメモリの壁越えを援助 Knights Landing は単独のホストプロセッサーとして基板上に実装す ることが可能で、 計算密度、電力効率と信頼性を一弾と向上 Intel はトランジスタ技術で3年程度業界をリード:14nmの技術は 前世代のプロセッサ1に対して、 更なる計算密度の増加と電力あたりの計算能力 1 http://newsroom.intel.com/community/intel_newsroom/blog/2013/09/10/new-intel-ceo-president-outline-product-plans-future-of-computing-vision-to-mobilize-intel-and-developers
  • 50. キャッシュ モデル HWが自動的に管理して、KNL CPU内 蔵オンパッケージメモリと外部 DDRメモ リ間の“L3”キャッシュとして動作 フラット モデル アプリケーションがどのように内蔵オン パッケージメモリとDDRメモリを使うのか ユーザが制御して最高性能を得る ハイブリッド モデル 内蔵オンパッケージメモリを分割して キャッシュ、フラットの両者の利点を合 わせる 高いメモリ転送バンド幅と汎用性で最大の性能を* Knights Landing オンパッケージ メモリ 近接 メモリ KNL CPUKNL CPU HBWオン パッケージ メモリ HBWオン パッケージ メモリ ... ... HBWオン パッケージ メモリ HBWオン パッケージ メモリ HBWオン パッケージ メモリ HBWオン パッケージ メモリ HBWオン パッケージ メモリ HBWオン パッケージ メモリ HBWオン パッケージ メモリ HBWオン パッケージ メモリ HBWオン パッケージ メモリ HBWオン パッケージ メモリ CPU パッケージ DDR DDR DDR ... キャッ シュ PCB Far Memory 上面図 *Intel® Xeon Phi™ x100 ファミリと比較した場合。図はCPUとメモリの関係を示す概念図 – スケールせず、実際のコンポーネント配置図とは異なる 近接 メモリ 側面図
  • 51. © 2013 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 本資料の情報は、現状のまま提供され、本資料は、明示されているか否かにかかわらず、また禁反言によるとよらずにかかわらず、い かなる知的財産権のライセンスを許諾するものではありません。製品に付属の売買契約書『Intel's Terms and Conditions of Sale』に規定されている場合を除き、インテルはいかなる責任を負うものではなく、またインテル製品の販売や使用に関する明示または 黙示の保証(特定目的への適合性、商品性に関する保証、第三者の特許権、著作権、その他、知的財産権の侵害への保証を含む)を するものではありません。 性能に関するテストや評価は、特定のコンピューター・システム、コンポーネント、またはそれらを組み合わせて行ったものであり、このテ ストによるインテル製品の性能の概算の値を表しているものです。システム・ハードウェアの設計、ソフトウェア、構成などの違いにより、 実際の性能は掲載された性能テストや評価とは異なる場合があります。システムやコンポーネントの購入を検討される場合は、ほかの 情報も参考にして、パフォーマンスを総合的に評価することをお勧めします。インテル製品の性能評価についてさらに詳しい情報をお知 りになりたい場合は、http://www.intel.co.jp/jp/performance/resources/benchmark_limitations.htm を参照してください。 Intel、インテル、Intel ロゴ、Intel Core、Xeon、Cilk、VTune は、アメリカ合衆国および / またはその他の国における Intel Corporation の商標です。 *その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。 法務上の注意書きと最適化に関する注意事項 最適化に関する注意事項 インテル® コンパイラーは、互換マイクロプロセッサー向けには、インテル製マイクロプロセッサー向けと同等レベルの最適化 が行われない可能性があります。これには、インテル® ストリーミング SIMD 拡張命令 2 (インテル® SSE2)、インテル® スト リーミング SIMD 拡張命令 3 (インテル® SSE3)、ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連 する最適化およびその他の最適化が含まれます。インテルでは、インテル製ではないマイクロプロセッサーに対して、最適化の 提供、機能、効果を保証していません。本製品のマイクロプロセッサー固有の最適化は、インテル製マイクロプロセッサーでの 使用を目的としています。インテル® マイクロアーキテクチャーに非固有の特定の最適化は、インテル製マイクロプロセッサー 向けに予約されています。この注意事項の適用対象である特定の命令セットの詳細は、該当する製品のユーザー・リファレン ス・ガイドを参照してください。 改訂 #20110804 © 2012 Intel Corporation. 無断での引用、転載を禁じます。*その他の社名、製品名などは、一般に各社の表示、商標または登録商標です。51
  • 52. 52