世界のスーパーコンピュータとそれを動かす人々


12月 12, 2022

HPCとクラウド ~課題と将来像~ 2/4回 『増大する外部利用とクラウドの導入』

HPCwire Japan

スポンサー記事

HPCワークロードをクラウド環境で実現するアイデアは随分長いこと話されているが、なかなか普及していない。これは日本だけの問題なのか?それとも世界的にHPCのクラウドへの展開は進んでいないのだろうか?

ハイペリオン社の予測では次の5年間でHPCクラウドは年間17.6%成長する見込みで2026年には約120億ドルになる予想だ。これは2021年におけるオンプレミスのHPC市場の全体規模である148億ドルに迫る勢いだ。それにも関わらず日本では依然としてリアルマシンであるスーパーコンピュータの調達が続いている。HPCのクラウド化が進まないのがどこに問題があるのか?HPC側なのか?それともクラウド側なのか?

今回の対談ではPCクラスタコンソーシアム主催で2022年6月23日、24日に開催されたPCクラスタワークショップ in 神戸2022「クラウドとHPC」を元に、九州大学情報基盤研究開発センター先端計算科学研究部門の南里豪志准教授、NVIDIA HPC/AI ネットワーキングプロダクトマーケティング部マーケティング ディレクター 岩谷正樹氏、NVIDIA エンタープライズ マーケティング部マーケティングマネージャ 愛甲浩史氏の三名の方に、HPCとクラウドの間に積まれた課題と将来像について話を伺いました。この対談内容を4回に分けてお届けします。


前回からのつづき

HPCwire:
ありがとうございます。さきほどの南里先生のお話をお聞きして、外部利用っていうのは九大でも増えてきているのでしょうか?外部の方にサービスを拡大していく上で新たに上がってきた課題はありますか。

南里:
大学以外でも利用できる外部利用はやっぱり増えてますね。当然アカデミックセンターですので、用途としてはアカデミックということで利用申請を頂いて審査をした上ですが、特に大学の方と民間企業の方の共同研究の場として使っていただくのは大分増えてきました。

数年前から特に各センターでセキュリティ的な要件を明示して欲しいと民間企業から出てきています。それまではそういうことがなかったので改めて整備をしています。今のところ、これができていないから利用を止めますっていう企業はまだいないようです。とにかくまずポリシー、紙に書いたポリシーがあることが大前提で、その上で社内で稟議して利用を進めるということになっています。今後はもう一歩踏み込んだ、プライバシーに関わるようなデータを扱う研究になってくるとまた状況が変わってくると思います。

岩谷:
私共NVIDIAとして考えているのは我々の課題でもあるのですが、エンタープライズのユーザはまだリサーチを中心とした形で研究室レベルのAIの解析をやっています。ところが一方で、世界的に見るとここ2年でデータが飛躍的に増加していて、解析に関しては研究所のレベルを超えると考えています。そうした時に、大規模なシステムを使いたい場合、思いつくのはやはり大学のセンターとか研究所等の大規模なシステムではないかなと思います。そういう意味で、九州大学を含め大学のシステム資源を民間の方がこれからもっと使いたいという要望はどんどん増えてくるでしょう。

一方でそういったユーザは必ず自分達の製品開発に使うのであるならば、セキュリティは高いものが必要になるでしょうし、もしくは自分たちが借りている時間のパフォーマンスは絶対に重要で、他のパフォーマンスに影響されるのは困るというユーザも出てくると思います。また、パフォーマンスは要らなくてやっぱり即効性が欲しいユーザは一方でいて、そういうユーザはセキュリティが既に確立されたパブリッククラウドを使っていくという意味で二極化もしくは三極化していく、そういった世界が起こっていくのではないでしょうか。

HPCwire:
ありがとうございます。興味本位なんですが、スパコンの調達において、スパコン汎用機からPCクラスタに導入を切り替えた時に、いわゆるそのPCクラスタは既製品ではないですよね。調達する側にとって、これまでのスパコンを調達するやり方とPCクラスタみたいなものを調達するやり方と大きな変化はありましたか。

南里:
それはやはり提案してくる企業の広がりが全然違います。それまでは提案できる企業というのはほんの数社一握りだったのが、PCクラスタの場合、仕様書によっては誰でも提案できてしまうことになりますので、その中でサービス品質をちゃんと維持して、導入するという、そういう仕様書をしっかり書くことに非常に気をつけるようになりました。

ただ逆にLinuxベースになり、x86ですので、利用者がこれやりたいとか、このツール使いたいとか、そういうのに対する対応は楽になりました。OSがプロプライエタリなものだった頃に比べるとちょっと楽になりました。

HPCwire:
先日開催されたPCクラスタコンソーシアムのワークショップでは、「クラウドとHPC」というテーマで議論されました。この際にも話題となったHPCとクラウドの連携は、現在のいわゆる大型計算機センターやHPCデータセンターにとって、どのような位置づけとお考えでしょうか。

南里:
まずスーパーコンピュータITOを入れた際に、Rescale社のScaleXというクラウドツールを導入しました。利用者がクラウドインターフェースから利用できたり、さらに利用者がAWSだったりAzureだったりクラウド側を選んでジョブを投入するということもできる仕組みを作ってきました。その時に考えたのはやはりまずクラウド・バースティングです。センターが混雑しているときにクラウド側にスケールしていくっていうところを狙っていました。

この動きはいろんな大学で現在も進められてます。いわゆるクラウド・バースティングというのが一つの道筋としてあると思ってます。もう一つITOで試験的に取り組んだのはオンプレミスの中のサービスの一種をクラウド的に提供するというものです。

それまでバッチが主体で間接的にしか使えませんでしたが、対話的な利用の要求というのが非常に増えてきていますので、今日の何時から明日の何時でまでとウェブで時間で予約をして、その時間に1ノードとか4ノードとか占有した状態でログインをして対話的に使えます。これは稼働率としては高くはないのですが、今までになかったサービスとして利用して頂いているので、今後も次のシステムでもぜひ取り組んでいきたいと思っています。

もう一つ最近になって思ったのが先日のPCクラスタワークショップで話して頂いたKlab株式会社の話です。元々クラウドのAWS上でクラウドネイティブなワークフローの形で機械学習の仕組みを組まれていたのですが、九州大学と共同研究をすることになってスーパーコンピューターも使えるようになると、料金的には圧倒的に安いのでスーパーコンピュータの方を使いたいと。

クラウドネイティブからオンプレミス大計センターのシステムに対するバースティングっていうこれまでとは逆方向のバースティングがあるということを初めてお聞きしました。こちら側としてどういう環境で適応すればいいのか、どういう整備をすればいいのか、今模索している段階です。その一環としてAWS、FUJIC、九州大学と三つの組織で共同で取り組んでオンプレミスシステムとクラウドシステムの連携の試験環境を構築して、実際に試していただこうということです。9月から始めて来月まで2ヶ月間やってみようと現在三つのグループに参加していただいています。その中で何をやりたいのかとお聞きしたり、それに対してサポートしたりということをやっています。

三グループのうちのひとつのグループが広域分散並列の研究をやられていて、AWS、それから自分の研究室、それとスーパーコンピュータでそれぞれ計算リソースを確保しお互いに連携することに取り組まれています。あとの二つはそれぞれ機械学習をやられているグループです。基本的にはこれまで研究室の中でやられていましたが、最研究室では収まりきれない部分について、クラウドもしくはオンプレミスの大計センターを使うということに興味を持たれています。今回のお願いしているのは、両方を試して頂いて双方の利点欠点というのを明らかにしたり、その中で当然プログラムの共有だったりデータの共有だったり学習モデルの共有だったり、そういったところが必ず必要になってくると思うので、そういう連携に必要なソフトウェア周りの環境を問題として提起していただけると非常にありがたいと思っています。こういう知見を通して次のシステムでより自由に利用者である研究者の皆さんがリソース選択して使っていただけるような状況にしたいと思ってます。

次回につづく

left-arrow

第1回 第2回 第3回 第4回

right-arrow