世界のスーパーコンピュータとそれを動かす人々


7月 25, 2014

スーパーコンピュータのスナップショットは必要?

HPCwire Japan

Tiffany Trader

オリジナルなHPCクラウドベンダーのひとつ、Nimbix社は、11月に発表したJARVICEプラットフォームで、異種クラウドコンピューティングの新時代の先駆けになろうとしていた。そのPaaS(Platform-as-a-Service)の提供は、高スループットなバッチ処理のためのNimbixアプリケーション環境(NAES)を作成する高性能なクラウドハードウェアを使用している。一度環境が作成され、 JARVICEに展開されると、Nimbix Accelerated Compute Cloud(NACC)内でランタイムを実行することができる。

Nimbixは、最新のNVIDIA GPU、Intel Xeon Phiコプロセッサ、Texas InstrumentsのDSP、およびFPGAなどのアクセラレーションハードウェアを介した異種コンピューティングを常に重要視しており、 JARVICEがベアメタルな性能とクラウドの利点を併せ持って機能するためにこの技術を推進する。

プラットフォームが数ヶ月前にデビューしたにも係らず、Nimbix最高経営責任者のSteve Hebertは、最近のブログエントリではかなり興味深いユースケースを提示している:スーパーコンピュータのスナップショット。

「クラウド上でHadoopクラスタを直ぐに構築できた場合、その後要請に応じて後で使用するためのスナップショット取れたらどうですか? 」とHebertは問いかける。

スナップショットは、多くのクラウドプラットフォームの特徴となっており、ユーザが仮想マシンの現在の状態を保存して、将来の任意の時点でそのスナップショットに戻すことが可能である。HPCの主流では、 VM上で数値計算および/またはデータ集約型ワークロードの実行を試す結果に終わっていた。NimbixエンジニアがJARVICEに機能を追加するように、彼らはスーパーコンピュータのスナップショットをとるというアイデアをふと思いついた。

「その機能が斬新である一方、どんな恩恵とユースケースがあるでしょうか?」とHebertは尋ねる。「さて、あなたが仕事を成し遂げるためにスーパーコンピューティング資源の特定クラスにアクセスする必要のある学生やポスドク研究員であることを想像してみてたら? スーパーコンピュータを構築するため実際のハードウェアを纏めるために、助成金申請を書かなければならないか、予算を掻き集めなる必要はあることは知っています。私は、Texas A&M大学のポスドクの化学海洋学者としての兄の仕事を思い出します。彼は、文字通り、コンピューティング環境を構築する必要があり、彼の科学を始めることができる前にハードウェア供給者と仕事をし、マシン仕様を取得し、資金を配分し、環境を構築するのに数週間を要しました。」

クラウドに適したHPCアプリケーションを持つ一部のユーザーが、パブリッククラウドプラットフォームにジョブをサブミットすることもできるが、JARVICEは数分でクラウドスーパーコンピュータを構築するためにこの仮説上の研究者を可能にするだろう、とHebertは書いていて、それにはGPUとInfiniBandのような要素が含まれている。

一度マシンがプロビジョニングされると、ユーザは自分のワークロード管理ソフトウェア、アプリケーション、およびその他の管理ツールを選択することで環境をカスタマイズすることができる。この時点で、ヘッドノード上のNimbixアプリケーション環境(NAE)は、後にプロビジョニングまたはクローンスーパーコンピュータを作るために保存(つまり、スナップショットを作成)することができる。

Hebertはさらに、彼はJARVICE内の4ノードのHadoopクラスタを作成する方法と、彼がHadoopクラスタの専門家でもないにもかかわらず、どれだけ迅速かつ簡単にプロビジョニングしてセットアップし、スナップショットを行い「驚かせた」のかを詳細に説明する。

彼は書いている: 「既定のベンチマークを実行した後、私はRDMAを有効にすることで、それはTCPに対してはほぼ2倍速く実行されたことが判りました。私は、数日間そこに戻って来る予定は無かったので、終了したときに、スナップショットを実行し、マウスをクリックしてHadoopクラスタを単純に終了し、そのプロビジョニングを解除しました。私は今、更なるベンチマーキング実施のため、いつでも、後からそれを再起動することができます。かなりイカシテル! 」