高性能コンピュータをクラウドで柔軟に提供可能に!
IoT、BigDataなど高度データ分析や科学技術計算を誰もが手軽に
本研究成果のポイント
・高性能コンピュータをクラウドで柔軟に提供可能な世界初のシステムを開発
・これまでの高性能コンピュータのクラウド提供は、専用のサーバを用いてかつ計算機の構成が固定されていたため、高コストで利用効率がよくなかった
・今後、IoT 、BigDataといった高度なデータ分析や科学技術計算を、誰もが手軽にクラウド環境で始められるようになる事に期待
概要
大阪大学サイバーメディアセンター招へい教授吉川隆士らの研究グループは、高性能コンピュータをクラウドで柔軟に提供可能にする世界初のシステムを開発 (図1) しました。
これまでの、高性能コンピュータのクラウド提供は、専用のサーバ機を用いて、固定された構成で提供していたため、高コストで利用効率のよくないものでした。
本システムでは、ユーザの処理要求(JOB )に沿った性能を有する計算機システムを、多数の通常のサーバを制御する事で提供でき、これまでより効率的になりました。
本システムにより、IoT、BigDataなどのデータ分析や科学技術計算を、誰もが手軽にクラウド環境で始められるようになります。今日の科学、工学は高度な計算機利用がますます進んでおり、この成果がその裾野を広げると同時に、高度化を促進することに役立つと期待されます。
本研究成果であるシステムは、米国のソルトレイクシティで11月13日~18日に開催される「Super Computing 16」において、動態展示されます。
図1 HIaaS用Software Defined高性能計算機システムプロトタイプ
研究の背景
BigData、人工知能など、これまでの自然科学計算に加えて高性能コンピュータに求められる機能、性能が多種・多様化しています。一方、迅速で安価な計算機環境の導入のためのクラウドの利用が広まっています。その結果、先進のクラウドにおいては、高性能なGPU コンピューティングやMPI を用いた分散並列計算機などの環境が提供されるようになりつつあります。
これらの実現のためには、クラウド内部で大量に用いられている標準的なサーバが使えない問題があります。例えば、GPUを搭載するための巨大な拡張機構や大電源、強冷却機構、あるいはInfiniBand などの高速なネットワークアダプターが必要です。その結果、クラウド内のほかのサーバに比べて数倍も高価であり、かつ大量の電力を消費してしまう問題があります。
さらに、計算機の構成があらかじめ固定されてしまうという問題もあります。例えば、GPUが4台搭載されたGPUマシン、あるいは、InfiniBandで密結合された16台のPCクラスタ、というように、ある特定の計算機構成を、システム導入時点で始めから作りこんでおく必要があります。このように計算機の構成が固定されてしまうと、ユーザにとっては、自分のやりたい計算に最適な構成が自由に選べません。逆にクラウド業者にしてみると、多様なユーザの要求に応えるには幾種類もの計算機構成を用意する必要があり、個々の構成ごとのユーザの数は少なくなってしまい、使われない時間が増えてしまいます。結果として、高価なシステムなのにリソースの利用効率が極端に低くなってしまいます。
研究成果の内容
今回、システムの構成要素であるサーバの数、ネットワーク接続、データストレージだけでなく、さらにはサーバを構成するGPUやSSDなどのハードウェアデバイスまで、管理ソフトウェアで構成を簡単に変更できる計算機システムを開発しました。これに加えて、計算JOBを投入する際に、投入されるJOBの性質や必要な機能・性能にあわせてシステムの構成まで変化できるJOB・リソース連携管理マネージメントシステムを開発しました。
これにより、ユーザの要求に適した計算機システムをJOBごとに構築して計算リソースを提供できるようになるだけでなく、クラウドに流れるJOB全体の待ち時間を減らして効率よく流せるようになりました。
実現したものは下記の通りです。
- ・ユーザから実行を要求されたMPI及びSpark ベースのジョブに対して、これを実行する際に、計算機リソース(サーバ、ネットワーク、アクセラレータなど)を、ベアメタル 環境で動的に再構成できるJOB~リソース連携管理システム (図2)
- - ジョブの特性に応じてJOBごとに、ネットワーク・リソース(トポロジ/帯域)とハードウェア・リソース(デバイス、アクセラレータ等)を、システム全体の運用状況も考慮しながら、ポリシーベースで最適化構成します。
- ・上記のシステムには以下の研究協力からなるシステム要素技術が用いられています。
- - JOB・ネットワークリソース連携管理ソフトウェア(大阪大学サイバーメディアセンター応用情報システム研究部門、奈良先端科学技術大学院大学)
- - GPU・FPGAアクセラレータを用いたヘテロ・コンピューティング用実行管理ソフトウェア(UCLA、Falcon Computing Solutions)
- - ハードウェアレベルのダイナミックなサーバ再構成技術とその上の高速分散ストレージ技術、並びにOpenStackベースのリソース管理技術(NECシステムプラットフォーム研究所、ExpEtherコンソーシアム)
図2 JOB~リソース管理連携動作
JOBの投入に連動してGPUが2個追加された(左→右)
本研究成果が社会に与える影響(本研究成果の意義)
この成果により、IoT、BigDataなどのデータ分析や科学技術計算を、誰もが手軽にクラウド環境で始められるようになります。特に高価なデバイスを使ったDeep LearningやAI処理などで高価なGPUなどのアクセラレータを大量に利用したい場合にも、大きな投資を行うことなく大規模な計算機環境が安価に利用できるようになります。今日の科学、工学は高度な計算機利用がますます進んでおり、この成果がその裾野を広げると同時に、高度化を促進することに役立つと期待されます。
参考URL
大阪大学 サイバーメディアセンター
http://www.cmc.osaka-u.ac.jp/
用語説明
- IoT
(Internet of Things):
コンピュータなどの情報・通信機器だけでなく、世の中に存在する様々な物体(モノ)に通信機能を持たせ、インターネットに接続したり相互に通信することにより、自動認識や自動制御、遠隔計測などを行うこと。
- JOB
コンピュータの処理の単位。一連のプログラムの流れで一つのまとまった業務。
- GPU
(Graphics Processing Unit):
3Dグラフィックスの描画をする際に必要な計算処理を受け持つ半導体チップ。
- MPI
(Message Passing Interface):
並列コンピューティング利用するための標準化された規格。複数のCPUが情報をバイト列からなるメッセージとして送受信することで協調動作を行えるようにする。
- InfiniBand
Intel社を中心に設立された業界団体が推進する次世代インターフェイス技術。主に外付けインターフェイス用の技術として開発されており、サーバのクラスタリングや外部ストレージとの接続など、超高速での通信が求められる分野での活用が期待されている。
- Spark
(Apache Spark):
巨大なデータに対して高速に分散処理を行うオープンソースのフレームワーク。
- ベアメタル
OSなどが何も導入されていない状態。
- OpenStack
クラウドコンピューティングの基盤を構築するためのソフトウェアの一つ。クラウドOS(cloud operating system)を標榜しており、IaaS(Infrastructure as a Service:サービスとしてのITインフラ)システムの展開に必要な一通りの機能を提供する。