SlideShare uma empresa Scribd logo
1 de 11
Copyright 2013 FUJITSU LABORATORIES LIMITED
大規模システムの運用管理
~HPCでの経験を踏まえて~
2013.7.19
(株)富士通研究所
中島 耕太
※本資料における会社名及び製品名は、各社の登録商標または商標です。
Copyright 2013 FUJITSU LABORATORIES LIMITED
 HPCシステムに関する研究開発に従事
InfiniBandネットワーク管理機構を開発
IAサーバクラスタシステムが対象
 クラウド向けInfiniBand利用にも興味
自己紹介
数1,000台のサーバをInfiniBandで接続
 大規模システムでのジョブ(アプリ)管理
 大規模InfiniBandネットワークの管理
 大規模システムのインストール
1
ジョブ(アプリ)管理
 大規模クラスタシステム
全体を一つとして使うのは稀: ベンチマーク時くらい
部分を切り出してジョブに割り当てて使用
 HPCシステムでのジョブ管理
ジョブ:複数サーバを同時に利用して走行
基本はバッチ処理
 レストランの座席配置問題
少人数のお客さんを先に通してしまうと団体客をい
つまでも入れられない
Copyright 2013 FUJITSU LABORATORIES LIMITED2
ジョブスケジューラ
 リソースの量と使用時間を管理
 大きなジョブの投入可能
 柔軟に順序の入れ替えを実施
Copyright 2013 FUJITSU LABORATORIES LIMITED
時間
リソース
(ノード数)
上限
1
2
4
5
3 6
7
空きリソースを効率よく利用可能
使用時間
使用ノード数 ※ 数字は投入順(実行優先度)
3
ジョブスケジューラの効果
Copyright 2013 FUJITSU LABORATORIES LIMITED
(出展: 宇治橋他、計算センタ高稼働率とジョブ待機時間短縮を実現するジョブスケジューラ, 情報処理学会第72回全国大会, 2010)
待ちジョブ数を大幅に削減
 理化学研究所様での事例に基づく検証
4
InfiniBandのネットワーク管理
 集中制御のアプローチ: OpenFlowに近い
リンクアップ/ダウンを通知
SMがこれを制御
Copyright 2013 FUJITSU LABORATORIES LIMITED
IB-SW
Subnet
Manager
IB-SW
IB-SW
制御
(接続受け入れ)
制御
制御
Trap
Trap
Trap 新規接続
5
IBネットワーク運用
 最低限のツール群はそろっている
OpenSM, ibnetdiscover, ibtracert等
SMのログやツールを組み合わせれば管理可能
 簡単に管理するには工夫が必要
簡単管理ツールを自作
Mellanox/Intel製のファブリック管理ソフトを利用
Copyright 2013 FUJITSU LABORATORIES LIMITED
自力でSMを実装することも可能
(頑張れば)なんでもできる
6
大規模インストール
 1,000台のサーバにOSをインストール
一台ずつ手作業でインストール
 どうやって1,000台サーバに配るか?
Copyright 2010 FUJITSU LIMITED
OSイメージの配布ツールが必要
ボトルネック
7
バケツリレー方式
 イメージのブロックをバケツリレーで転送
MPI Bcastでも利用、大きなデータの配布に有利
 信頼性の担保に工夫(努力)
Copyright 2010 FUJITSU LIMITED
ギガビットイーサでも1GBを1分以内で配布
8
Copyright 2013 FUJITSU LABORATORIES LIMITED
 大規模システムでのジョブ(アプリ)管理
 バッチ処理の管理には実績あり
 データセンタでのバッチ処理管理には適用可
 完了時間が見積もれないものは制御しづらい
 InfiniBandネットワーク管理
 最小限のツールはある
 ツールを組み合わせてうまく管理する必要あり
 インストール
 1,000台規模になると信頼性も大きく低下
 性能と信頼性を両立させるには努力が必要
現状と課題
9
Copyright 2013 FUJITSU LABORATORIES LIMITED10

Mais conteúdo relacionado

Mais de VIOPS Virtualized Infrastructure Operators group ARCHIVES

VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~VIOPS Virtualized Infrastructure Operators group ARCHIVES
 
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところVIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところVIOPS Virtualized Infrastructure Operators group ARCHIVES
 
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密VIOPS Virtualized Infrastructure Operators group ARCHIVES
 

Mais de VIOPS Virtualized Infrastructure Operators group ARCHIVES (20)

VIOPS10: サーバーロードマップから考えるクラウドの次
VIOPS10: サーバーロードマップから考えるクラウドの次VIOPS10: サーバーロードマップから考えるクラウドの次
VIOPS10: サーバーロードマップから考えるクラウドの次
 
VIOPS10: DMM.comのインフラのこれから
VIOPS10: DMM.comのインフラのこれからVIOPS10: DMM.comのインフラのこれから
VIOPS10: DMM.comのインフラのこれから
 
VIOPS10: SSDの基本技術と最新動向
VIOPS10: SSDの基本技術と最新動向VIOPS10: SSDの基本技術と最新動向
VIOPS10: SSDの基本技術と最新動向
 
VIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコトVIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコト
 
VIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコトVIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコト
 
VIOPS10: いまパブリッククラウドで起きているコト
VIOPS10: いまパブリッククラウドで起きているコトVIOPS10: いまパブリッククラウドで起きているコト
VIOPS10: いまパブリッククラウドで起きているコト
 
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
 
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところVIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
 
VIOPS09: AWSで実現する クラウドと物理製品の融合
VIOPS09: AWSで実現する クラウドと物理製品の融合VIOPS09: AWSで実現する クラウドと物理製品の融合
VIOPS09: AWSで実現する クラウドと物理製品の融合
 
VIOPS09: クラウド時代におけるFusion-ioのポジショニング
VIOPS09: クラウド時代におけるFusion-ioのポジショニングVIOPS09: クラウド時代におけるFusion-ioのポジショニング
VIOPS09: クラウド時代におけるFusion-ioのポジショニング
 
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
 
VIOPS09: その鐘を鳴らすのはあなた
VIOPS09: その鐘を鳴らすのはあなたVIOPS09: その鐘を鳴らすのはあなた
VIOPS09: その鐘を鳴らすのはあなた
 
VIOPS08: マイクロサーバー アーキテクチャトレンド
VIOPS08: マイクロサーバー アーキテクチャトレンドVIOPS08: マイクロサーバー アーキテクチャトレンド
VIOPS08: マイクロサーバー アーキテクチャトレンド
 
VIOPS08: Behavior Analysis Solution for Bigdata
VIOPS08: Behavior Analysis Solution for BigdataVIOPS08: Behavior Analysis Solution for Bigdata
VIOPS08: Behavior Analysis Solution for Bigdata
 
VIOPS08: ハードウェアオフロードの現在と今後
VIOPS08: ハードウェアオフロードの現在と今後VIOPS08: ハードウェアオフロードの現在と今後
VIOPS08: ハードウェアオフロードの現在と今後
 
VIOPS08: PaaSのメリットと課題
VIOPS08: PaaSのメリットと課題VIOPS08: PaaSのメリットと課題
VIOPS08: PaaSのメリットと課題
 
VIOPS07: “Practical” Guide to GlusterFS
VIOPS07: “Practical” Guide to GlusterFSVIOPS07: “Practical” Guide to GlusterFS
VIOPS07: “Practical” Guide to GlusterFS
 
VIOPS07: アプリケーションサービスの自動化
VIOPS07: アプリケーションサービスの自動化VIOPS07: アプリケーションサービスの自動化
VIOPS07: アプリケーションサービスの自動化
 
VIOPS07: OSMと地理空間情報
VIOPS07: OSMと地理空間情報VIOPS07: OSMと地理空間情報
VIOPS07: OSMと地理空間情報
 
VIOPS07: CDNの困ったネタ
VIOPS07: CDNの困ったネタVIOPS07: CDNの困ったネタ
VIOPS07: CDNの困ったネタ
 

Último

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Último (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

VIOPS08: 大規模システムの運用管理 ~HPCでの経験を踏まえて~