O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

スーパーコンピューターとクラウドでのOpenFOAM性能・費用ベンチマークテスト

第5回JAWS-UG HPCで発表したOpenFOAMの性能・価格面を考慮した各クラウドの比較ベンチマーク資料になります。

  • Entre para ver os comentários

スーパーコンピューターとクラウドでのOpenFOAM性能・費用ベンチマークテスト

  1. 1. スーパーコンピュータとクラウドでの OpenFOAM性能・費用ベンチマークテスト オープンCAE学会V&V委員会 今野 雅(OCAEL,東京大学客員研究員) 住友正紀
  2. 2. 研究の背景 • 大学のスパコン:東京大学FX10,東京工業大学TSUBAME, Etc. – 産業利用など教育・公共機関以外でも利用可能 – 通常,課題審査が必要 – 通常,使った分だけ課金ではなく,1ヶ月〜1年単位での一口タイプ課金 • 産業界専用の公的スパコン:FOCUS – 法人の場合,課題の審査無く利用可能 • クラウドサービス:Amazon EC2,Microsoft Azure, Etc. – 手持ちの計算機リソースでは難しい中・大規模な解析に適する • 各スパコン,クラウドではCPU性能やインターコネクトに違いがあり,利用料金も当然 異なる 2 オープンCAE学会で共通OpenFOAMベンチマークを作成し比較した
  3. 3. ベンチマーク対象システムについて 3
  4. 4. 対象システムの特徴 • 東京大学 Oakleaf-FX – 利用には課題申請が必要 – CPUコア単体の性能が低いので,非並列の前処理・後処理が遅い • 東京工業大学 TSUBAME – 学術利用以外では課題申請が必要 – 様々なシステムとキューがあり自由度が高いが課金体系は多少複雑 • FOCUS – 法人のみ使用可能.課題申請は不要.使った分だけ課金 – 2015年度下半期は期間占有が多く,従量利用が混雑 • Amazon EC2 (クラウド) – 使った分だけ課金(だだし,課金は1時間単位) – 入札で価格が決まる安価なスポット利用有り. • Microsoft Azure (クラウド) – 使った分だけ課金(分単位) – 高速なインターコネクトを持つHPC向けインスタンス有り(今回検討したA9) 4
  5. 5. 対象システムの性能 システム CPU [アクセラレータ] 周波数 [GHz] コア/ノード インターコネクト /ノード 東京大学 Oakleaf-FX Fujitsu SPARC64 Ixfx 1.848 16コア Tofu, 40Gbps ×双方向 ×10ポート 東京工業大学 TSUBAME 2.5 Sキュー(※1) Gキュー(GPUのみ) Intel Xeon E5-2670 2.93 6コア × 2 CPU Infiniband-QDR, 40Gbps×2[nVIDIA Tesla K20X] ー [3GPU] FOCUS Dシステム Intel Xeon E5-2670 v2 2.5 10コア × 2 CPU Infiniband-FDR, 56Gbps Amazon EC2 c4.8xlarge(※2) Intel Xeon E5-2666 v3 2.9 9コア × 2 CPU 10GbE, 10Gbps Microsoft Azure A9(※2) Intel Xeon E5-2670 2.6 8コア × 2 CPU InfiniBand-QDR, 40Gbps 5 (※1)ターボブースト有効 (※2)仮想マシン.Hyper-threading無効 現時点で各機関での最高性能のシステムを対象
  6. 6. ノード時間料金(平成27年度) 6 システム ノード時間料金 備考 東京大学 Oakleaf-FX 20.9円(成果公開) (平成28年度から 9.0円(成果公開)) 最も高いノード時間料金となるグループコース(企業),利用期間1ヶ月間の場合 .24ノードの申込を想定. 大学・公共機関等用のコース(ノード時間料金4.63円,4.82円)は除外. 東京工業大学 TSUBAME S 43.2円(成果公開) 172.8円(成果非公開) 従量利用,最大計算時間:1時間,優先度:標準,実行時間ごとの係数: 1の場合. 東京工業大学の学内・共同研究利用(ノード時間料金10円,40円)は除外. 東京工業大学 TSUBAME G (GPU) 21.6円(成果公開) 86.4円(成果非公開) FOCUS 324円(成果非公開) 33ノード以上で割引となる.今回は24ノード以下で該当せず. (平成28年度から8ノード以上で割引) Amazon EC2 c4.8xlarge 295.8円(成果非公開) (※1) 計測時(2015年11月15日)の料金.リージョン:東京.スポット価格は49.9円 NFSサーバ: 132.8円/h(c3.4xlargeインスタンス) Microsoft Azure A9 214.8円(成果非公開) (※1) 計測時(2015年11月25〜26日)の料金.リージョン:West US. NFSサーバ: 33.3円/h(D3インスタンス) 料金は税込.(※1) 通常(オンデマンド)料金.NFSサーバ用のインスタンス1台の料金も考慮 産業利用が可能なコース・サービスのみを対象とした
  7. 7. 対象システムの比較表 システム 利便性 スペック 公開の 必要性 コスト 即時利用 汎用性 環境構築の 必要性 CPU インターコネ クト ストレージ 東京大学 Oakleaf-FX 有 ○ ☓ ☓ 無 △ ○ ○ 東京工業大学 TSUBAME 2.5 有 or 無 ○ ☓ ○ 無 △ ○ ○ FOCUS Dシステム 無 △ △ ○ 無 ○ ○ ○ Amazon EC2 c4.8xlarge 無 △ (○ or ☓)※ ○ ○ 有 ○ △ △ Microsoft Azure A9 無 △ ○ ○ 有 △ ○ △ 7 ※スポットインスタンスの利用
  8. 8. ベンチマークテストモデルと計測方法 について 8
  9. 9. ベンチマークテストの流れ場 9 チャネル流れ (Reτ = 110) [1] Algorithm for Sparse Approximate Inverse Preconditioners in the Conjugate Gradient Method, Ilya B. Labutin, Irina V. Surodina 解析条件 Lx × Ly × Lz = 5π × 2 × 2π Reτ = uτ δ/ μ = 110 [-] ここで uτ : 壁面摩擦速度 [m/s] δ : チャネル半幅 [m] ( =Ly / 2 ) μ : 動粘性係数 [m2/s2] 主流方向(x): 一定の圧力勾配 主流方向(x), スパン方向(z): 周期境界 乱流モデル: 無し(laminar) 時間刻み: 0.002 [s] 速度線型ソルバ: BiCG (前処理DILU) 圧力線型ソルバ: CG (前処理DIC) (RapidCFDでは前処理はAINV[1]) 格子数: 約3M (240(x)×130(y)×96(z)) 領域分割手法:scotch
  10. 10. ベンチマークテストデータ • オープンCAE学会V&V委員会のGitHub上で公開 10 https://github.com/opencae/OpenFOAM-BenchmarkTest
  11. 11. 時間ステップ毎の平均実行時間 11 (各種初期化,設定・格子・初期値のファイル入力) Time = 0.002 最初(1回目)の時間ステップ ExecutionTime = 1.35 s ClockTime = 3 s : : Time = 0.102 最終の前(51回目)の時間ステップ ExecutionTime = 11.18 s ClockTime = 13 s (計算結果のファイル出力) Time = 0.104 最終(52回目)の時間ステップ ExecutionTime = 11.37 s ClockTime = 15 s End 本ベンチマークテストでの時間ステップ毎 の平均実行時間の計算方法 ( 51回目のClockTime - 1回目のClockTime)/50 計算例 (13-3)/50=10/50=0.2 [s] • ソルバのログでのClockTimeはファイルIO やMPI通信などを含む,実際のソルバの 実行時間 • 最初の各種初期化・ファイル入力と最後の ファイルの出力を除外 • 50ステップでの平均により,平均実行時 間はある程度収束 5回以上ソルバを実行し,最速5位までの実行時間の平均を取得 (ただし,Azureは1回のみ計測)
  12. 12. ソフトウェア・コンパイラ・MPIライブラリ システム ソフトウェア コンパイラ(※1) MPI Oakleaf-FX OpenFOAM 2.3.0 FCC GM-1.2.1-09 FJMPI GM-1.2.1-09 TSUBAME S OpenFOAM 2.3.0 Gcc-4.8.4 OpenMPI 1.6.5(※3) TSUBAME G(GPU) RapidCFD(※2) nvcc (cuda-6.5) OpenMPI 1.8.4(※4) FOCUS D OpenFOAM 2.3.0 Gcc 4.8.3 OpenMPI 1.6.5(※3) EC2 c4.8xlarge OpenFOAM 2.3.0 Gcc 4.8.5 OpenMPI 1.8.5(※5) Azure A9 OpenFOAM 2.3.0 Gcc 4.8.3 Intel MPI 5.1.1.109(※6) 12 ※1) 最適化フラグ: -O3 ※2) rev: d3733257dee5fb9999b918f5c26a1493cebb603c ※3) mpirunオプション: -bind-to-core -mca btl openib,sm,self ※4) mpirunオプション: -bind-to core -mca btl openib,sm,self ※5) mpirunオプション: -bind-to core ※6) Azure A9のLinux OSでは,MPI通信にRDMAを使うためにはIntel MPIが必要 OpenFOAMやRapidCFDのソースや最適化フラグはデフォルトのまま
  13. 13. 検討ノード数・MPI数 システム コア/ノード 設定MPI数/ノード 解析ノード数 解析MPI数 (フラットMPI) Oakleaf-FX 16 ← 1, 2, 4, 8, 12, 24(※1) 16〜384 TSUBAME S 12 10(※2) 1, 2, 4, 8, 12, 16, 20, 24 10〜240 TSUBAME G(GPU) 3 [GPU] ← 1, 2, 4, 8, 12, 16, 20, 24 3〜72 FOCUS D 20 ← 1, 2, 4, 8, 12, 16, 20, 24 20〜480 EC2 c4.8xlarge 18 ← 1, 2, 4, 6, 8 18〜144 Azure A9 16 ← 1, 2, 3, 4, 5, 6, 7, 8 18〜128 13 ※1) 12ノード以上は,TOFU単位である12ノードの倍数で検討した ※2) 事前の検討により12コアを使用するより10コア使用のほうが計算が速かったため
  14. 14. Amazon EC2マシン構成 14 • ファイルサーバ(c3.4xlarge) • バッチスケジューラ • OpenFOAMモジュール保管 可視化サーバ (g2.2xlarge) 計算サーバ (c4.8xlarge) 1. 利用者はファイルサーバにSSHでアクセス 2. ファイルサーバからバッチスケジューラ(torque)を利用してジョブ投入 3. 可視化サーバを利用する場合はTurboVNCを用いて可視化 SSH TurboVNC クライアント 端末
  15. 15. 各クラウドの検証結果 15
  16. 16. 検証項目 • 1時間あたりの時間ステップ数: – 1時間で処理できる計算能力 • 並列化効率(ストロングスケール): – 並列数を増やしたときの並列化効率 • 時間ステップ毎の課金: – 各ノードにおけるコストパフォマンスの指標 • 1時間の課金と時間ステップ数: – 各計算領域におけるコストパフォマンスの指標 16 並列計算によるスピードアップ 𝑆 𝑝 𝑆 𝑝 = 𝑃ノードでの実行時間 1ノードでの実行時間 並列化効率(ストロングスケール) 𝐸 𝑝 𝐸 𝑝 = 𝑆 𝑝 𝑃 × 100[%]
  17. 17. 1時間あたりの時間ステップ数(全体) 17 FOCUS Dの性能が最も 高い 次に,AzureやEC2のク ラウド群の性能が高い TSUBAME G(GPU)は 多ノードで性能が低い Higher Is Better
  18. 18. 1時間あたりの時間ステップ数(8ノード以下) 18 InfiniBandのAzure は6ノードを除き,性能 が高い (1回のみ計測が原因?) 10GbEのEC2は6ノード 以上で性能が落ちる Higher Is Better
  19. 19. 並列化効率(Strong scaling) 19 TSUBAME Sはスー パースケール FOCUS Dは20ノード までスケール FXは12ノードまで スケール 10GbEのEC2は6ノー ド以上で急激に落ちる TSUBAME G(GPU) は2ノード以上で並列 化効率が悪い Higher Is Better
  20. 20. 時間ステップ毎の課金(成果非公開型) 20 EC2は6ノード以上で並列 化効率が急激に落ちるた め高価となる TSUBAME G(GPU)は, 2ノードまで安価だが,並 列化効率が悪いため多ノ ードでは高価 TSUBAME Sは全ノードで スーパースケールしているの で,ノード数が増えると安く なる FOCUS DとAzureは 総じて安価 EC2(スポット)はノード単 価が安いので安価 Lower Is Better
  21. 21. 時間ステップ毎の課金(成果公開型) 21 TSUBAME SとG(GPU) は,課金が成果非公開型 の1/4になったのみで,成 果非公開型と同傾向 FXは12ノードまでスケール しており,ほぼ一定.元々 ノード時間料金が安価なの で,全体的に安価 Lower Is Better
  22. 22. 1時間の課金と時間ステップ数(成果非公開型) 22 高速域での最安価: FOCUS D 高速域: 6,000時間ステップ/h〜 中速域: 1,000〜6,000時間ステップ/h 低速域:〜1,000時間ステップ/h 安い 速い Better
  23. 23. 1時間の課金と時間ステップ数(成果非公開型) 23 安い 速い Better 低・中速域での最安価: EC2(スポット)
  24. 24. 1時間の課金と時間ステップ数(成果公開型) 24 高速域での最安価: TSUBAME S FXで48ノード以上を使 用した場合は不明(FX のグループコースでは使 用ノード数が申込ノード 数を超えると課金が2倍 になるので,申込ノード 数に依存) 安い 速い Better
  25. 25. 1時間の課金と時間ステップ数(成果公開型) 25 低速域の最安価: TSUBAME G(GPU) 安い 速い Better
  26. 26. Amazon EC2 Vtuneプロファイリング 26 • 全体計算の73%をMPI通信(MPI_Allreduce関数)が占めている. • モデル規模が小さいため,CPU演算の割合は少ない 性能劣化の原因
  27. 27. Amazon EC2 大規模モデル性能 27 • 解析モデル(motorbike) – 空力解析、定常解析、乱流モデルk-ω-SST – 3,000万セル – OpenFOAM 3.0+ • 解析環境 – クラウド:AWS EC2 C4.8xlarge(Intel Xeon E5-2666v3 2.9GHz 16コア, 10Gbit Ethernet) 0.00 20.00 40.00 60.00 80.00 100.00 120.00 0 500 1000 1500 2000 2500 16 32 64 96 128 160 192 並列化効率(Strongscaling)[%] 経過時間[秒] 並列数
  28. 28. まとめ(全体) • 格子数3Mのチャンネル流れを対象に,東京大学・東京工業大学・FOCUS のスパコン,Amazon EC2,Microsoft Azureのクラウドの各システムにお いて,OpenFOAMのベンチマークテストを実行した. • 1時間で実行可能な時間ステップ数と課金額の関係から,時間ステップ数の 領域毎に安価なシステムが分かれる結果となった. 28 利用計算時間 成果非公開型 成果公開型 例外 高速域 (6,000時間ステップ/h〜) FOCUS D TSUBAME S - 中速域 (1,000〜6,000時間ステップ/h) Azure, FOCUS D Oakleaf-FX - 低速域 (〜1,000時間ステップ/h) TSUBAME G(GPU) TSUBAME G(GPU) Amazon EC2 (スポット)
  29. 29. まとめ(Amazon EC2) 29 • スポットインスタンスを利用することで価格を大幅に抑えることが可能. • 今回のモデルは小規模のため,計算全体におけるCPU演算の割合は少なく, 通信の割合が大きくなっている. • モデルを大規模にすることで, CPU演算の割合も増えて, ノードを増やしてもス ケールしている. • Amazon EC2ではモデル規模や通信パターンに応じて, ノード数を変えるの が最も効果的な実行方法である. 使っているソルバーやモデルがAmazon EC2に適しているか わからない場合は, まずはHPCエンジニアに相談を!
  30. 30. 謝辞 本研究では,東京工業大学学術国際情報センター共同利用推 進室の佐々木様から,OpenFOAMとRapidCFDの評価用として, TSUBAME 2.5の計算機リソースを提供して頂きました. 日本Microsoftの佐々木様から,Microsoft Azure A9でのベン チマークの結果を提供して頂きました. 青子守歌様には,RapidCFDのビルド及びベンチマークについてご 協力頂きました. ここに深く感謝致します. 30

×