工学系

2020年9月29日

研究成果のポイント

・大阪大学、日本オラクル株式会社、日本電気株式会社(NEC)が連携し、大阪大学のスーパーコンピュータOCTOPUSにOracle Cloud Infrastructureの計算資源を活用する機能(クラウドバースティング※1)を拡張した。その結果、すでに実装済みである他クラウドサービス事業者の仮想計算機資源に加え、Oracle Cloud Infrastructureの提供する、ハードウェア性能を高効率に引き出せるベアメタル計算資源※2をあたかもオンプレミス計算環境OCTOPUSであるかのように利用できるようになった。
・ジョブスケジューラNEC NQS※3を基盤技術とし、実装方式の異なる複数の民間クラウドサービス上の計算資源を一元的に統合・制御・管理するマルチクラウドバースティング機構を実現した。この結果、利用者の計算要求・ニーズに応じた多様な計算資源の提供が可能となった。
・大阪大学はOracle for Research※4を利用し、新型コロナウイルス感染症対策などのための計算資源提供をはじめとした学術支援を目的に、OCTOPUSのクラウドバースティング機能を通じてOracle Cloud Infrastructureのベアメタル計算資源を提供する。

概要

国立大学法人大阪大学のサイバーメディアセンター(以下、CMC)伊達進准教授らの研究グループは、日本オラクル株式会社(日本オラクル)と日本電気株式会社(NEC)と共に、新型コロナウイルス感染症対策のための計算資源提供をはじめとした学術支援を目的とし、大阪大学のスーパーコンピュータOCTOPUSにOracle Cloud Infrastructure(OCI)の計算資源を活用する機能(クラウドバースティング)を拡充開発し、従来のクラウド資源として一般的な仮想化技術を活用した仮想計算資源に加え、ハードウェア性能をより高効率に引き出せるベアメタル計算資源も利用可能となりました。

大阪大学のスーパーコンピュータOCTOPUSでは、すでに他社のクラウド資源を利用するクラウドバースティング技術を実装済みであり、実際運用のための技術検証を推進しています。その結果、仮想計算機資源を利用するクラウドバースティングは、仮想計算機資源の稼働する物理計算機資源に依らない柔軟な資源分割・利用が容易であり、利用者の多様な計算要求・ニーズを収容できる有用性がある一方、その仮想計算機資源が稼働する物理計算機資源の構成や設定の相違が一部のプログラムで性能面等に影響を及ぼしうる場合があることがわかっていました。

今回、大阪大学、日本オラクル、NEC、は、この問題に対処する手段としてオンプレミス環境※5のOCTOPUSとOCIを連動させることにより、OCTOPUSの提供するハードウェア性能と同等以上の性能を有するベアメタル計算資源を、OCTOPUSから利用可能となるクラウドバースティング技術の実現に成功しました。今回、他クラウドサービス事業者の仮想計算機資源をターゲットとしたクラウドバースティング機能を拡張し、異なる実装方式の複数の民間クラウドサービス上の計算資源を、その差違を意識することなく同一のインタフェースで統合・制御・管理できるマルチクラウドバースティング機構をジョブスケジューラNEC NQSII3を基盤技術として開発しました。OCIの提供するベアメタル計算資源が利用可能になったことにより、将来的に低遅延のRDMA環境を備えた高性能コンピューティング(HPC)といった高度な計算要求をもつ利用者にも対応可能となり、他者のクラウド資源とOCIを連動させるマルチクラウドバースティングにより、大阪大学のスーパーコンピュータOCTOPUSはより多様かつ高度な計算要求・ニーズを収容可能となることが期待されています。

近年急速に期待と関心を高めているクラウドバースティング技術を応用することで、OCTOPUSの負荷をOCIを含む商用クラウド環境上にオンデマンドに構築した計算機資源にオフロード※6できるだけでなく、今後利用者の要求に応じた高性能なベアメタル計算資源を提供することが可能となる見込みです。2020年内は、OCTOPUSの利用者である研究者を対象に継続的な実証実験を行うと同時に、今回構築したOCTOPUS-OCIクラウドバースティング環境で利用可能なベアメタル計算資源提供を通じた、新型コロナウイルス感染症対策向けを含めた支援を行なっていきます。

図1 マルチクラウドバースティング機構を通じたOCIベアメタルクラウド計算資源.

研究の背景・詳細

CMCのスーパーコンピュータOCTOPUSは、利用者からのスカラ型スーパーコンピュータに対する様々な計算ニーズ・需要を収容可能であり、利用者に定常的かつ安定的に高い性能を提供することが期待される中、2017年12月に導入されました。本格運用開始から非常に高い利用率で利用される状況になっています。しかし、その一方で、利用者の計算要求から計算完了までの待ち時間が定常的に長時間になるという新たな問題が深刻になりつつあり、利用者からの問い合わせ・相談の声も大きくなりつつあります。

このような視点から、大阪大学では他社クラウドを活用した仮想化計算資源を利用したクラウドバースティング技術をすでに開発済みですが、OCTOPUSを利用する研究者からはOCTOPUSと同様の計算環境としてベアメタル計算資源への高い関心と強い要求があります。一方、OCIでは、RoCEv2(RDMA over Converged Ethernet version 2)※7やGPU、NVMe SSDを搭載したベアメタルマシンおよび仮想マシンを提供しており、ベアメタルマシンも仮想マシンと同様にオンデマンドに必要な時に起動し、不要な場合は停止するHPC環境を構築することが可能です。また、最新のCPU、GPU、高性能なノード間通信等のHPC関連技術がリリースされた際には、対応するベアメタルマシンおよび仮想マシンが迅速に提供されます。さらに一般的にHPC用途では多くの分野でデータが大きくなる傾向があるため、CMCと商用クラウドサービスのデータセンターとの間で発生する転送データ量にかかるコストも課題でしたが、OCIでは学術情報ネットワークSINET(Science Information NETwork)※8を介する通信および専用ネットワーク接続サービスのOracle Cloud Infrastructure FastConnectを利用することで、転送データ量が無制限に無料となることも大きなメリットです。このため、HPC分野における大型計算機のオフロード用途において適していると考えられます。

そのような背景と、今日の新型コロナウイルス感染症の拡大状況を鑑み、大阪大学サイバーメディアセンター伊達准教授らの研究グループは、CMCのOCTOPUSの負荷をOCIのベアメタル計算機資源を含むIaaS型クラウドサービス上にオフロードするOCTOPUSのクラウドバースティング機能を開発しました。

今回OCIのベアメタルの計算資源拡充開発においては、Oracle for Researchにて提供されるリソースを用いてコストおよび性能の観点で検証が行われ、優れた成果が得られています。

コスト最適化:クラウドバースティング技術により大幅に計算待ち時間を削減することが可能になるのに加えて、オフロードされる計算要求に応じてジョブサーバがOCIの計算資源の作成/起動、削除/停止する機能を実装したことで、OCIの利用料を最小化できることを確認できました。これによりシステム全体の計算資源利用の向上と、クラウド利用のコスト最適化の両立を図ることが可能となりました。

性能
1、オンプレミスの計算機と同様の計算能力:OCTOPUSのユーザが利用するアプリケーションやライブラリの中には、仮想マシンのハイパーバイザやハイパースレッド設定などの影響で、計算精度や計算時間がユーザの要望を満たせないものも含まれます。検証では、それらのアプリケーションやライブラリに対して、ハイパーバイザが無く、ハイパースレッドが無効となっているOCIのベアメタル計算資源であれば、オンプレミスのOCTOPUS計算ノードと同様にユーザの計算要求を実行出来ることが確認されました。この結果から、クラウドコンピューティングでより多くのOCTOPUSユーザの計算要求に応えられることが期待できます。

2、RDMA環境での性能:OCTOPUSでは複数の計算ノードを用いた並列計算処理が多数実行されています。並列計算の実行においては、ノード間通信が広帯域かつ低遅延であることに加え、ノードの組合せによるバラツキが小さいことが重要です。今回OCIのベアメタル計算資源へのクラウドバースティング技術の応用に先立ち行われたRDMA性能評価試験では、OCIのHPCインスタンス8ノードでRDMA網のノード間の通信遅延を計測したところ、帯域で91.16Gbpsから92.72Gbps、通信遅延はRoCEv2※7レベルで1.44マイクロ秒から1.62マイクロ秒、OpenMPIを用いた計測では1.63マイクロ秒から1.65マイクロ秒の範囲に収まっていることが確認されました。この結果をもとに、将来的にOCTOPUSクラウドバースティングの計算資源としてこのRDMA通信環境も利用できる機能拡充を進め、多くの計算ノードを利用する並列計算においてクラウド計算資源を利用した場合でも高いスケーラビリティが得られることが期待できます。

これらの検証結果により、OCIのベアメタル計算資源としての活用がOCTOPUSスーパーコンピュータを利用する研究者に対して有用であることが確認でき、多種多様な計算要求を充足可能なクラウド連動型計算資源の一つの形を実現しました。今後、本研究成果を活用し、OCTOPUS-OCIクラウドバースティング環境で利用可能なベアメタル計算資源提供を通じた、新型コロナウイルス感染症対策向けを含めた支援を行なっていきます。

本研究成果が社会に与える影響(本研究成果の意義)

本研究成果により、大型計算機におけるクラウドバースティングが実現可能であることが実証されると、計算需要のピーク時における利用者が計算結果を得られるまでの時間の削減ができるだけでなく、COVID-19対策のような急な計算需要拡大への対応含め、大型計算機を使った研究分野において計算機リソースの問題で解決できなかった事象を解析できるようになり、クラウド上の計算機資源を利用することにより、これまでとは違ったアプローチで研究することも可能になります。これにより、大型計算機を用いた研究分野において、学術的・教育的に大きな成果が出ることが期待されます。

また、HPCの産業利用における高性能計算機システムのリファレンスとして低コストでのスケールアウトを示すことにより、学術機関と企業との連携による産業利用・産学連携の加速、企業・社会課題の解決が加速されることが期待されます。

用語説明

※1 クラウドバースティング
IaaSで用いられる概念。コンピューティングリソースの需要が極端に高まったピーク時(バースト)に、処理をクラウド上のリソースに迅速に切り替えることを可能にするもの。内部リソースで需要を満たすのが難しいときや、企業ネットワーク内の容量が上限に達したときなどに行われる。

※2 ベアメタル計算資源
物理計算機上に仮想的な計算機を構成する仮想計算機資源に対して、物理的な計算機を提供するベアメタル計算資源がある。

※3 ジョブスケジューラNEC NQSII
日本電気株式会社(NEC)製ジョブ管理システム(NQSII)及びスケジューラ(JobManipulator)が一体となったシステム。OCTOPUSシステムのジョブスケジューラとして、利用効率向上を目的とし、ジョブ管理、計算資源管理、スケジューリングを集中管理している。

※4 Oracle for Research
「Oracle for Research」は、世界中の複雑な問題への対処および重要な変革の推進に取り組むグローバルコミュニティです。このプログラムは、科学者、研究者、大学の革新者に、高価値で費用効果の高いクラウドテクノロジ、Oracleの研究ユーザー・コミュニティへの参加、およびOracleのテクニカル・サポート・ネットワークへのアクセスを提供します。プログラムの無償クラウドクレジットにより、ユーザはOracleの実績豊富なテクノロジーおよびインフラストラクチャを活用しながら、研究開発された知的財産をプライベートかつ安全な状態で保つことができます。詳細は https://www.oracle.com/oracle-for-research/ をご覧ください。

※5 オンプレミス環境
自組織内で使用・利用・運用する情報システムの環境。

※6 オフロード
ここでは、利用者による計算要求・計算負荷をあるシステム(OCTOPUS)から他のシステム(Oracle Cloud Infrastructureなどのパブリッククラウド)へ移すことの意。

※7 RoCEv2
RoCE(RDMA over Converged Ethernet)は、IBTA(InfiniBand Trade Association)によって標準化された、イーサネットネットワークでリモートダイレクトメモリーアクセス(RDMA)を有効にするネットワークプロトコル。

※8 学術情報ネットワークSINET(Science Information NETwork)
日本全国の大学、研究機関等の学術情報基盤として、国立情報学研究所(NII)が構築、運用している情報通信ネットワーク。大学、研究機関等に対して先進的なネットワークを提供するとともに、多くの海外研究ネットワークと相互接続している。

研究者のコメント

今回の成果により、本学のスーパーコンピュータOCTOPUSは、技術的には複数社の民間クラウドサービスを活用可能なマルチクラウドバースティング機能を備えたスーパーコンピュータとなり、多種多様な計算ニーズを収容可能になりました。民間クラウドサービスと連動・連携するスーパーコンピュータの資源提供方法など運用面についての制度整備の問題は今後の課題ですが、本学のスーパーコンピュータOCTOPUSが本学だけでなく全国の研究者の研究開発にお役に立てる計算基盤となれば、と切に願います。

参考URL

サイバーメディアセンター 伊達准教授HP
http://ds-server.ais.cmc.osaka-u.ac.jp

この組織の他の研究を見る

Tag Cloud

back to top