増大するスパコン需要にこたえる新技術 パブリッククラウドを利用したクラウドバースティングを実装
研究成果のポイント
・大阪大学のスーパーコンピュータOCTOPUSが、混雑状況に応じて民間のクラウドサービスであるMicrosoft社のAzureを簡単に使えるようにする技術(クラウドバースティング )を実装した。今後、OCTOPUS利用者への実証実験により精度を高め、将来的には医療データなど機密性の高いデータを扱える技術として拡張していく計画である。
・大阪大学が導入したスーパーコンピュータOCTOPUSは2017年12月に導入以降、国内の研究者らの科学計算やデータ分析に使われているが、年々研究者からの需要が増大し混雑していた。そのため、研究者がスーパーコンピュータを使えるまでの待ち時間も長くなる傾向があり、科学現象のシミュレーションやAI研究を行う研究者らの研究に支障をきたしつつあった。
・民間のクラウドサービスとの共同による本技術の実装により、需要逼迫時に研究者がスーパーコンピュータを使うまでの待ち時間を短くし、わが国の科学研究の効率アップにつなげることができる。また、これまで計算機リソースの問題で解決できなかった事象を解析できるとともに、クラウド上の計算機資源を利用することにより、これまでとは違ったアプローチの研究も可能となる。
概要
国立大学法人大阪大学のサイバーメディアセンター(以下、CMC)伊達進准教授らの研究グループは、日本電気株式会社(NEC)と日本マイクロソフト株式会社と共に、大規模計算機システム(スーパーコンピュータ)環境で利用者の計算需要が急激に増加した場合に、パブリッククラウドにオフロード するクラウドバースティングを実装しました。
大阪大学のスーパーコンピュータOCTOPUS(以下、OCTOPUS)は、研究者の需要増大により、計算要求から計算完了までの待ち時間が定常的に長時間になるという問題が深刻になりつつありました。これに対し、IaaS型クラウドサービスを利用した解決法が望まれていましたが、これまでスーパーコンピュータと民間のクラウドサービスの同時利用は、利用者の管理、計算の管理等に相違があったため運用的な視点で困難でした。
今回、スケジューラと呼ばれるジョブ管理機能、クラウドサービス制御機能の新たな開発を大阪大学とNECで行うことで、大幅なシステム変更・開発を必要とせず、OCTOPUSとクラウドサービスAzureのクラウドバースティング環境が実現できました。CMCのスーパーコンピュータから、日本マイクロソフト株式会社が提供するパブリッククラウドMicrosoft Azureに、近年急速に期待と関心を高めているクラウドバースティング技術を応用することで、OCTOPUSの負荷をAzure上に構築した計算機資源にオフロードします。2019年内にOCTOPUSの利用者である研究者を対象に実証実験を行い、今回構築したOCTOPUS-Azureクラウドバースティング環境での検証を通じて、将来の本格運用に向けた技術課題の抽出を行いつつ、医療データなどの取り扱いを想定したオンプレミス環境 とパブリッククラウド環境間でのセキュアなデータ共有 についても検証します。
本研究成果により、OCTOPUSのクラウドバースティング拡張が可能になると、利用者の待ち時間の縮減、ジョブスループット の向上が期待されます。
本研究成果は、2019年12月12日(木)から開催される大学ICT推進協議会2019年度年次大会にて発表されます。(発表は2019年12月13日(金)です。)
図1 クラウドバースティング拡張
負荷状態が高くなると、スーパーコンピュータと民間クラウドサービスを同時に利用する計算環境になる。
研究の背景・詳細
CMCのスーパーコンピュータOCTOPUSは、利用者からのスカラ型スーパーコンピュータに対する様々な計算ニーズ・需要を収容可能であり、利用者に定常的かつ安定的に高い性能を提供することが期待される中、2017年12月に導入されました。本格運用開始から非常に高い利用率で利用される状況になっています。しかし、その一方で、利用者の計算要求から計算完了までの待ち時間が定常的に長時間になるという新たな問題が深刻になりつつあり、利用者からの問い合わせ・相談の声も大きくなりつつあります。
一方近年では、利用者の計算ニーズ・要求に基づく、個別のソフトウェアスタックを配備する計算資源群をオンデマンドに必要量だけ利用可能なIaaS型クラウドサービスが成熟しつつあります。IaaS型クラウドサービスでは、クラウドベンダの保有する膨大な計算資源量により、その利用者はその資源量、負荷状況を気にすることなく利用が可能です。パブリッククラウドを用いたクラウドバースティングにおいては要求要件として、クラウド資源の利用に応じて最低限であるように構成すること(オンデマンド性)、利用者がクラウドとオンプレミス環境で異なるジョブ投入方法とならないこと(透過性)、利用者がクラウド資源の利用可否を選択できること(選択性)、クラウド環境とオンプレミス環境で計算結果に相違がないこと(同一性)、システム全体としてスループット向上がされること(ハイスループット性)が挙げられます。
Microsoft Azureでは、InfiniBandやGPUを搭載した仮想マシンを提供しており、オンデマンドに必要な時に起動し、不要な場合は停止するHPC環境を構築することが可能です。また、最新のCPU、GPU、高性能なノード間通信等のHPC関連技術がリリースされた際には、対応する仮想マシンが迅速に提供されます。このため、HPC分野における大型計算機のオフロード用途において適していると考えられます。一方で、利用者がオンプレミスとクラウドを意識させることなく透過的に利用させるためには、HPC環境をハイブリッドクラウド型のシステムとして構成し、利用者からの計算ニーズ・要求に対して、システム側でオンプレミスとクラウドを自動的に使い分ける仕組みの実装が求められます。
伊達准教授らの研究グループは、CMCのOCTOPUSの負荷をMicrosoft AzureのIaaS型クラウドサービス上に構築した計算機資源にオフロードするOCTOPUS-Azureクラウドバースティング環境を構築しました。今後、パブリッククラウドを利用することによって、オンデマンド性、透過性、選択性、同一性、ハイスループット性,並びにデータ共有のセキュリティという観点で、将来の本格運用に向けた技術課題の抽出を行いつつ実現可能性を考察・評価していきます。具体的には、OCTOPUSとMicrosoft Azureを接続し、既に実証研究しているセキュアステージングも含めて、クラウドバースティング技術の実現可能性を検証する実証研究を実施し、より安定した計算資源を利用者に提供し、さらにはこれまでオンプレミスのスーパーコンピュータだけではできなかったコンピューティング環境を提供することを目指します。
本研究成果が社会に与える影響(本研究成果の意義)
本研究成果により、大型計算機におけるクラウドバースティングが実現可能であることが実証されると、計算需要のピーク時における利用者が計算結果を得られるまでの時間の削減ができるだけでなく、大型計算機を使った研究分野において計算機リソースの問題で解決できなかった事象を解析できるようになり、クラウド上の計算機資源を利用することにより、これまでとは違ったアプローチで研究することも可能になります。これにより、大型計算機を用いた研究分野において、学術的・教育的に大きな成果がでることが期待されます。
特記事項
本研究成果は、2019年12月12日(木)から開催される大学ICT推進協議会2019年度年次大会にて発表されます。(発表は2019年12月13日(金)です。)
タイトル:“OCTOPUSのクラウドバースティング拡張”
著者名:伊達進, 片岡洋介, 五十木秀一, 勝浦裕貴, 寺前勇希, 木越信一郎
また、2019年11月17日(日)から米国コロラド州デンバーで開催される国際会議・展示会SC19にて、サイバーメディアセンターの出展する研究展示ブースで実装技術のデモ展示を行っています。
研究者のコメント
大阪大学サイバーメディアセンターは科学立国である日本の科学研究を支援する研究開発を行なっています。本研究成果は、高まるスーパーコンピュータ需要に柔軟に対応するための技術です。
参考URL
大阪大学サイバーメディアセンター応用情報システム研究部門 下條研究室HP
https://www.ais.cmc.osaka-u.ac.jp
用語説明
- クラウドバースティング
IaaSで用いられる概念。コンピューティングリソースの需要が極端に高まったピーク時(バースト)に、処理をクラウド上のリソースに迅速に切り替えることを可能にするもの。内部リソースで需要を満たすのが難しいときや、企業ネットワーク内の容量が上限に達したときなどに行われる。
- オフロード
ここでは、利用者による計算要求・計算負荷をあるシステム(OCTOPUS)から他のシステム(Azure)へ移すことの意。
- オンプレミス環境
自組織内で使用・利用・運用する情報システムの環境。
- ジョブスループット
ある一定期間の間に実行できるジョブ数のこと。ジョブスループットが大きければ大きいほど、たくさんの利用者からの計算要求を処理できる。
- セキュアステージング
医療データなど持出しがナイーブなデータを計算機センターで扱えるようにするためのデータストレージのセキュアな取扱い方法。計算処理を実行する時だけ、処理に必要な計算機、ネットワーク接続、データストレージを準備し、処理実行後はそれらを元通りセキュアに分割された状態に戻す。これにより、セキュリティ・レベルを高める事ができる。サイバーメディアセンターで2017年から取組み、SC17、SC18でデモ展示を行った。