SlideShare uma empresa Scribd logo
1 de 22
Baixar para ler offline
研究支援のためのアカデミッククラウド
棟朝 雅晴
北海道大学 情報基盤センター
CloudWeek2013
@Hokkaido University
2013.9.5
研究支援に係るアカデミッククラウドの調査検討
• 研究支援に係るアカデミッククラウドシステムに求められる要求要件を整理、
検討し、その標準仕様を作成する
• 大規模並列処理、大規模データ処理、大規模データベース等に係る研究に求め
られる要件を整理
• 情報システム研究に係る研究支援に関する検討については、複数のクラウドシ
ステムを連携させたインタークラウド基盤や大規模分散データベースをの実現
を含め、それら必要とされる要求要件を整理する
• 担当者:棟朝雅晴(北海道大学)、根本利博(東京大学)
    横山重俊、吉岡信和(国立情報学研究所)
実施計画
• 国内外の動向調査、ヒアリング、アンケート調査による、ユースケース、要求要件に関す
る調査検討を実施
• 研究関連データに関する基礎調査:科研等の採択課題代表者に対するアンケート、ヒアリ
ングの実施に加えて、いわゆるビッグデータに関する海外、民間も含めた研究開発動向の
調査
• 研究支援向けクラウドシステム基盤に関する調査:国内・海外事例、技術動向調査および
サーベイ
• 特にビッグデータの処理に必要とされる性能要件、技術要件、運用モデルなどについて
調査検討する
• 将来のクラウド基盤技術の発展も見据えた展望を明らかに
学術クラウドと一般のデータセンターとの違い
• データセンターでは、大規模Webシステムがほとんどであり、Web3層システ
ム(Web, App, DB)によるホスティングサービスを前提としている
• 一方、学術クラウドでは大規模Webシステムの必要性はほとんどなく、HPC、
パラメータサーベイ、ビッグデータ処理、 試験システムの構築、M2M
(Machine-to-Machine)やIoT (Internet of Things)、センサーネットワークなど、
多種多様なシステム構築が求められる
• 例えば、センサーデータをクラウドに集約
→ Hadoopなどで大規模データを処理
→ Webサービスとして処理結果を公開
→ 他の様々なサービスとの連携
スパコンとクラウドの棲み分け?
National Leadership System
(The next “K” : 1 Exa Flops in 2018)
Supercomputers
in major universities
and laboratories
(1∼100 Peta Flops in 2018)
Clusters in
other univ.,
labo., and
companies
“HPCI”
systems
北海道大学アカデミッククラウド
• 国内最大(本格的なクラウドとしては世界的にも最大級)の学術クラウド
 → 最先端のクラウドミドルウェアを採用した最初の事例として
   国内はもちろん、国際的にも極めて高い評価・注目を集めている
 → スパコン並みの高性能(43.8TFlops, 2000以上のVMを実行可能)
• ビッグデータ処理システム(Hadoopクラスタ)を自動的に設定し利用者が占
有して利用できる基盤を整備
6
北大クラウドの利用状況
• 常時千数百VMが動作(Sサーバ換算)
• 特に高性能なサーバ(XL)が常に売り切れ状態
仕様上の上
限 (2,000)
北大クラウドを運用して感じたこと
• ほとんどのユーザは「パソコン」や「アプリケーションソフ
ト」の延長線上で高速化、高性能化を求めている。
• 「スパコン」は必要だが、活用できるユーザはごくわずか。
多くのユーザにとっては「使いやすさ」の方が重要。
• 計算科学、計算機科学、データサイエンスの発展のためには
「裾野のマーケット」を広げることが特に重要である。
• 「アカデミッククラウド」はそのために極めて有効である!
計算サーバ、シミュレーション環境としての利用
• 計算サーバ、シミュレーション専用のシステムをクラウド上に構築
• Lサーバ(10コア, Mem: 30GB)→ 高性能計算サーバ、WSの代替として
• XLサーバ(40コア, Mem: 128GB)→ シミュレーションシステム
• パソコン or 研究室クラスタ ∼ スパコンのギャップを埋める
創薬科学の”in silico screening”実施サーバとして
• Structure Based Drug Design (SBDD)を用いて、医薬品候補化合物を探索するための
大型計算機としてXLサーバを使用
• Management appとして、modeFRONTIER®を、Docking appとして、 AutoDockを使
用している。(XLサーバへは、 AutoDockをインストール)
大規模なパラメータサーベイ・最適化
• パラメータサーベイにおいてシミュレーションを並列実行
→ クラウド環境で必要なだけ並列度をあげられる
→ 進化計算などを併用することで自動最適化も可能となる
Simulator f1
x
decodes1
Simulator f2
x
decodes2
Simulator fn
x
decodesn
Genetic algorithm
with gene analysis
Parallel simulations
Evaluations
Gene analysis
Crossover
Mutations
( )
ビッグデータ処理パッケージの提供
• Hadoop, Hive, Mahout, R などをパッケージとした数百台規模のクラスタを自動
的に構築して利用者に提供
• ディスクI/Oの負荷分散のためスケジューリングをカスタマイズ
• 数百台規模のクラスタであっても、ポータルからの申請、設定後1時間程度で
構築が完了し、すぐに使える
 
 
 

 
  


  
Zone
POD
VM
I/O
VM
VM
VM
VM
HadoopVM
VM
VM
クラウドPaaS上での大規模なインタラクティブ進化計算
実行フレームワークの構築
• 数百万人規模の利用にも耐えうるiGAの実行環境を
CloudStack+CloudFoundry+Redis(分散DB)で構築
CloudStack
VM
Ubuntu
instance
VM
Ubuntu
Redis
VM
Ubuntu
Redis
VM
Ubuntu
Redis
Database
・・・
VM
Ubuntu
instance
VM
Ubuntu
instance
・・・
Applycation resource
iGA iGA iGA
Load Balancer
CloudFoundry
Sever
・・・
全国規模の分散データベース基盤の構築
• 災害対応などを想定した全国規模の分散データベース基盤を構築
• 北海道大学、北見工業大学(SINET北端)、琉球大学(SINET南
端)にCloudStack 4.1 によるIaaS基盤を構築済み
→ Cassandra 等の実証実験
• 原子力機構からの受託研究事業
として、放射線モニタリング
データの分散管理を実現
する予定
アカデミッククラウド連携の推進
• 全国規模の「インタークラウドシステム」の実現に向けた研究開
発を推進(JHPCN「分散クラウドシステムにおける遠隔連携技
術」など)
• 全国規模の連携(北大∼琉球大)
12/11/27%
Master%
Slave%Slave%
AWS1Specific%API%
Connec;ons%
StarCluster%
Mul;1Cloud%API%Connec;ons%
(Apache(LibCloud)(
Launch%Plan% Configura;on%
via%local%scripts%
Launch%
Coordina;on%
Monitoring%&%
Repair%
CloudInit.d%
Mul;1Cloud%API%Connec;ons%
(Apache(LibCloud)(
Launch%Plan% Configura;on%
via%local%scripts%
Launch%
Coordina;on%
Monitoring%&%
Repair%
Master%
Slave%Slave%
Slave%
Modifica;on%&%
Integra;on(
SHINCLOM%Clusters%
Drupal'Core' Drupal'Modules'
IaaS$
Eucalyptus'
'
'
IaaS$
Amazon'EC2'
IaaS$
CloudStack'
Drupal'
Public$
Private$
Private$
UI'Module'
SHINCLOM$
CloudStack'
Autonomic'
Func=ons'
Cluster'Tool'
VPC'Tool'
Eucalyptus'
AWS'
Management'
Func=ons'
!
インタークラウド基盤と研究支援
• 研究者、研究グループ、研究プロジェクトの必要性に応じて、全国規模のクラ
ウドを連携させた「インタークラウドシステム」から必要な資源を切り出し
て、専用のVPC (Virtual Private Cloud) として利用可能とする。
 
   
 
Cloud A IaaS
 
 
 
 
Cloud B IaaS
 
 
 
 
 
Cloud C IaaS
User
   
   
 
VPC 1
 
 
  
 
 
 
 
Internet
VM
VM
VM
 
 
 
 
 
 
 
  
VPC 2
 
 
研究支援向けのインタークラウド基盤はどうあるべきか
• 集中型:大規模なクラウドデータセンターを集中配置
→ 規模の経済、効率性において優れる
→ 災害対応等において問題あり
• 分散型:拠点となる大学等に複数(10カ所程度?)のクラウドデータセンタ
ーを分散配置
→ ある程度の効率性、規模の経済を確保
→ 分散して存在する研究設備、センサー、データなどに対応可
→ 災害対応や分散性が本質的な研究テーマ(ネットワーク等)にも対応可
• 完全分散:全ての大学の資源フラットに相互連携
→ 自主性を尊重できるが、効率性、規模の経済において不利
本事業での対象範囲、考慮すべき点
• 研究分野に係るビッグデータの代表例:バイオ情報(遺伝子など)、地理情
報、ネットワークログ(SNSなど)、加速器、スパコン、センサーデータ
• 代表的な事例については、ある程度分かっている部分も多いが、それ以外に
どこまで、多種多様な研究データとアカデミッククラウドに対するニーズを掘
り起こせるかが重要
• データの量など(いわゆる3Vsと呼ばれるもの)だけではなく、データの正確
性や再利用の頻度など、その重要性に関する情報も調査すべき
調査のポイント
• 比較的少数の研究者を対象とするのではなく、「裾野を広く」 想定し、さまざまな
研究分野において役立つアカデミッククラウドシステムのあり方について検討すべき
• 研究データやシステムだけではなく、広く研究者のコミュニティや海外や民間との連
携も踏まえた「エコシステム」を構築するという観点で検討すべき
• 標準仕様の策定にあたっては、情報技術の立場に偏りすぎることなく、利用者とし
ての研究者の視点に立って検討すべき
• ある特定のアーキテクチャやシステムに限定するのではなく、相互運用性を確保しつ
つ、複数のアーキテクチャやシステムの混在など多様性を許容する標準仕様を検討
すべき
F E BRUA RY 8 , 2 011
Vivek Kundra
U.S. Chief Information Officer
FEDER AL CLOUD
COMPUTING STR ATEGY
“Applying cloud technologies across the entire Federal
Government can yield tremendous benefits in
efficiency, agility, and innovation“
研究∼開発∼運用の一体化
• DevOps →「開発」(Development) と「運用」(Operations) の密な連携を目指
したムーブメント → クラウド時代に適合したソフトウェア開発&運用
• 情報系でも「つくりっぱなし」ではなく「運用」までを見据えた研究が必須
• アカデミッククラウドの構築にあたり、ビッグデータに係る研究、開発、運
用を一体的、統一的に推進する「エコシステム」の実現が求められる。
• 情報基盤センターのメリット:研究∼開発∼運用が一つの組織にある
ResDevOps
Research & Development & Operations
Academic Cloud + Big Data = Innovations
• 全国規模のアカデミッククラウドの連携により、ありとあらゆるデータ、コ
ンテンツ、リソースなどを統一的な枠組みで利用できるようにする
→ ネットワーク効果、規模の経済による研究開発の効率化
• データやリソースなど予想外の「組み合わせ」をうながす環境を整備する
→ 新たな研究分野の開拓を支援するイノベーションの基盤を実現する
• 基本的な技術については特に新しいものではなく、基盤となるソフトウェア
も整備されつつあるので、どれだけ徹底的かつ早く「やるのか」が重要
→ 大規模な運用システムを実現するのは結構難しい
→ 研究者コミュニティを含めた「エコシステム」を構築することが本質的

Mais conteúdo relacionado

Mais procurados

研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
Masahito Nose
 
データベース技術について
データベース技術についてデータベース技術について
データベース技術について
yuu1988
 

Mais procurados (13)

AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみたAWS朝会2022/1	セッション① 数年間、レイクハウスを設計運用してみた
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
 
PCCC21:東京大学情報基盤センター 「mdx: データ活用社会に向けた産学官連携のための共創プラットフォーム」
PCCC21:東京大学情報基盤センター 「mdx: データ活用社会に向けた産学官連携のための共創プラットフォーム」PCCC21:東京大学情報基盤センター 「mdx: データ活用社会に向けた産学官連携のための共創プラットフォーム」
PCCC21:東京大学情報基盤センター 「mdx: データ活用社会に向けた産学官連携のための共創プラットフォーム」
 
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
 
Recsys2016勉強会
Recsys2016勉強会Recsys2016勉強会
Recsys2016勉強会
 
データ共有基盤の構築に向けて
データ共有基盤の構築に向けてデータ共有基盤の構築に向けて
データ共有基盤の構築に向けて
 
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
 
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
 
福岡クラウドUG-BigQuery
福岡クラウドUG-BigQuery福岡クラウドUG-BigQuery
福岡クラウドUG-BigQuery
 
データベース01 - データベースとは
データベース01 - データベースとはデータベース01 - データベースとは
データベース01 - データベースとは
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
 
データベース技術について
データベース技術についてデータベース技術について
データベース技術について
 
データベースの使い分けを考える
データベースの使い分けを考えるデータベースの使い分けを考える
データベースの使い分けを考える
 
28th mtg
28th mtg28th mtg
28th mtg
 

Semelhante a 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)

オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
Ikki Ohmukai
 

Semelhante a 研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University) (20)

20151029 CODATA
20151029 CODATA20151029 CODATA
20151029 CODATA
 
20130811_dtk2013_研究データのオープンアクセス
20130811_dtk2013_研究データのオープンアクセス20130811_dtk2013_研究データのオープンアクセス
20130811_dtk2013_研究データのオープンアクセス
 
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
レガシーシステムに残されたナレッジを救う~1億ドキュメント超の全社ドキュメント管理サーバの検索を実現~
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
分散クラウドシステムにおける遠隔連携技術
分散クラウドシステムにおける遠隔連携技術分散クラウドシステムにおける遠隔連携技術
分散クラウドシステムにおける遠隔連携技術
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
【日商USA】Webinar 2023.12.13 AWS re:Invent ハイライト ~データ活用の最先端を垣間見る~
 
分散クラウドシステムにおける遠隔連携技術
分散クラウドシステムにおける遠隔連携技術分散クラウドシステムにおける遠隔連携技術
分散クラウドシステムにおける遠隔連携技術
 
データベース09 - データベース設計
データベース09 - データベース設計データベース09 - データベース設計
データベース09 - データベース設計
 
Lab-ゼミ資料-5-20150512
Lab-ゼミ資料-5-20150512Lab-ゼミ資料-5-20150512
Lab-ゼミ資料-5-20150512
 
NeurIPS2019参加報告
NeurIPS2019参加報告NeurIPS2019参加報告
NeurIPS2019参加報告
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
 
Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014Panel Discussion@WebDB forum 2014
Panel Discussion@WebDB forum 2014
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
 
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
 
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
 
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
 
情報爆発シンポジウム infoplosion
情報爆発シンポジウム infoplosion情報爆発シンポジウム infoplosion
情報爆発シンポジウム infoplosion
 
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
オープンデータと「つながる社会」@オープンデータ京都勉強会(2013.04.20)
 
Azure Data Explorer
Azure Data ExplorerAzure Data Explorer
Azure Data Explorer
 

Mais de Masaharu Munetomo

進化計算シンポジウム200712
進化計算シンポジウム200712進化計算シンポジウム200712
進化計算シンポジウム200712
Masaharu Munetomo
 
20110824弱小クラウド連合は大規模クラウドに勝てるか
20110824弱小クラウド連合は大規模クラウドに勝てるか20110824弱小クラウド連合は大規模クラウドに勝てるか
20110824弱小クラウド連合は大規模クラウドに勝てるか
Masaharu Munetomo
 

Mais de Masaharu Munetomo (8)

APAN Cloud WG (2015/3/2)
APAN Cloud WG (2015/3/2)APAN Cloud WG (2015/3/2)
APAN Cloud WG (2015/3/2)
 
インタークラウドシステムの実用化に向けて
インタークラウドシステムの実用化に向けてインタークラウドシステムの実用化に向けて
インタークラウドシステムの実用化に向けて
 
研究者のためのアカデミックインタークラウド
研究者のためのアカデミックインタークラウド研究者のためのアカデミックインタークラウド
研究者のためのアカデミックインタークラウド
 
遺伝的アルゴリズムにおけるリンケージ同定
遺伝的アルゴリズムにおけるリンケージ同定遺伝的アルゴリズムにおけるリンケージ同定
遺伝的アルゴリズムにおけるリンケージ同定
 
進化計算シンポジウム200712
進化計算シンポジウム200712進化計算シンポジウム200712
進化計算シンポジウム200712
 
20110824弱小クラウド連合は大規模クラウドに勝てるか
20110824弱小クラウド連合は大規模クラウドに勝てるか20110824弱小クラウド連合は大規模クラウドに勝てるか
20110824弱小クラウド連合は大規模クラウドに勝てるか
 
Realizing Robust and Scalable Evolutionary Algorithms toward Exascale Era
Realizing Robust and Scalable Evolutionary Algorithms toward Exascale EraRealizing Robust and Scalable Evolutionary Algorithms toward Exascale Era
Realizing Robust and Scalable Evolutionary Algorithms toward Exascale Era
 
Hokkaido University Academic Cloud: Largest Academic Cloud System in Japan
Hokkaido University Academic Cloud: Largest Academic Cloud System in Japan Hokkaido University Academic Cloud: Largest Academic Cloud System in Japan
Hokkaido University Academic Cloud: Largest Academic Cloud System in Japan
 

研究支援のためのアカデミッククラウド(CloudWeek2013@Hokkaido University)