世界のスーパーコンピュータとそれを動かす人々


12月 12, 2022

HPCとクラウド ~課題と将来像~ 4/4回 『HPCクラウドは普及するのか』

HPCwire Japan

スポンサー記事

HPCワークロードをクラウド環境で実現するアイデアは随分長いこと話されているが、なかなか普及していない。これは日本だけの問題なのか?それとも世界的にHPCのクラウドへの展開は進んでいないのだろうか?

ハイペリオン社の予測では次の5年間でHPCクラウドは年間17.6%成長する見込みで2026年には約120億ドルになる予想だ。これは2021年におけるオンプレミスのHPC市場の全体規模である148億ドルに迫る勢いだ。それにも関わらず日本では依然としてリアルマシンであるスーパーコンピュータの調達が続いている。HPCのクラウド化が進まないのがどこに問題があるのか?HPC側なのか?それともクラウド側なのか?

今回の対談ではPCクラスタコンソーシアム主催で2022年6月23日、24日に開催されたPCクラスタワークショップ in 神戸2022「クラウドとHPC」を元に、九州大学情報基盤研究開発センター先端計算科学研究部門の南里豪志准教授、NVIDIA HPC/AI ネットワーキングプロダクトマーケティング部マーケティング ディレクター 岩谷正樹氏、NVIDIA エンタープライズ マーケティング部マーケティングマネージャ 愛甲浩史氏の三名の方に、HPCとクラウドの間に積まれた課題と将来像について話を伺いました。この対談内容を4回に分けてお届けします。


前回からのつづき

HPCwire:
他の大型計算機センターではクラウドに対してどのようにやられていますか?

南里:
例えば大阪大学はかなり進んでいると思います。ONIONでストレージの連携を強化されていますし、クラウドバースティングもやられています。あと富岳もクラウド連携は進められていてREST-APIから呼び出せるような仕組みを作られています。それぞれでいろいろな取り組みを始められている段階で、とりあえずは技術的な部分での取り組みを始めて用途を探しています。これから今までになかったサービスができるのではないかと。それで、だったらこれを使ってみたいと思う人たちが増えてくるのを期待している段階です。

それに対して経済的な部分だったり、利用制度だったりといった議論は後回しにしようという雰囲気ではないかと思います。一番ややこしい部分でもありますし、実際利用者がつかなかったら意味のない議論です。

HPCwire:
大型計算機センター同士でリソースの融通とかはしないんですか?

南里:
当然HPCIはそのための組織ですし、それを今目標としてシングルサインオンもできるようにしています。Gfarmでのストレージの共有もできるようになっています。

ただ、それぞれのセンターがクラウドセンターではないので、今お話に出ているようなクラウド的な特徴、可用性の高いというものではなく、特に繁忙期がほぼ同じような繁忙期になっていますのでリソースが全然余っていないので、お互いにバースティング受け入れる余地がないということです。

愛甲:
リソースを共有できるような融通できる仕組みを作ったら、結局みんな同じような時期にピークを迎えてしまった。そういう意味ではHPCはいわゆるエコシステムといいますか仕組みというのが成立しづらい部分があると思います。

技術的にはいろいろな取り組みが始まっていて、逆にオンプレ側から他のクラウドも含めた他のものに対してクラウド的なサービスの利用提供ができるようなクラウドネイティブスーパーコンピューティングのような仕組みがあって、技術的な部分は検討が進んでいます。しかし、実際それを使ってどこまで上手く回せるのかっていうと、先ほどのHPCIの話じゃないですが、みんながリソースをうまく共有できる仕組みを作ったとして、みんなが同じ時期に突っ込んだら結局変わらないという話になるところはなかなか悩ましいですね。

もしかすると民間のスーパーコンピューティングを活用する方々が同じ土俵に乗ってきて、いろんな意味でピークがずれてくることも含めて変わってくるのかもしれません。逆に言うとそこまで待たないとエコシステムな的な話で全部回収していくのっていうのは難しいのかなと思っています。

南里:
多分、その時は来ないと考えてます。例えばうちに大体2000ノードありますが、4月5月にこのうちの1000ノードしか動いてないという状況を許容できるかというと多分できないですね。とにかくもう置いてあるならそれを一杯一杯なるべく使うように皆さんに入ってきていただきたい。

うちのシステムで対話的なノードを別途用意して予約して使えますという話をしましたが、これは予約すると大体使えます。何故使えるかというと160台あるうち予約で使われているのが大体20台とか30台だからです。稼働率が目茶苦茶低いんです。ですので利用統計を取るといつも突つかれます。これはどうしてこんなに稼働率低いのかと。バッチシステムだと90%なのに、何故フロントエンドの対話的なシステムは20%もいかないのかと。税金で運用しているシステムで10数%は有り得るのかという攻められ方をします。やはりクラウドはそういうもんだと思うんです。

クラウド的なサービスは使いたいときに使いたいリソースを確保できて、お金さえ払えば確保してすぐに使える状態にできるというのは、そういうものだから必ず半分以上使ってないリソースっていうのがあって初めて成り立つ。そういうものだと思っています。これは税金で運用している我々のようなセンターではかなり贅沢なやり方で、、160台程度で全体に比べると10%にも満たないようなノード数なので現在の対話的なシステムっていうのはギリギリ許されていると思うんです。これを2000ノード全体でやれと言われるとちょっと自信がないです。

愛甲:
結局スーパーコンピューティングっていうのはどうしてもリソースセントリックなサービスですので、基本はバッチ処理であったりとかスケジューラーで単位時間あたりではリソースを100%取るというシステムです。例えばクラウドサービスだったらそもそもスケジューラーじゃなくてやっぱりマルチスレッド、マルチプロセスで稼働率10何%で動いていますっていうのは、別に残り80%が死んでいますってわけではなくって、みんなそこそこなんとなく半分暇だけど仕事しながら結果的にはそれくらいのリソースを消費しているっていう状態にあるわけじゃないすか。現実のクラウドサービスの場合稼働率が10%だからと言って別に遊んでいるマシンがあるわけでもなく、1人で見ればサービスレベルではそれぞれがそれぞれの仕事をこなしながらやってるわけです。

そういう考え方とか、お金の勘定の違いとかが今後どういうふうに寄っていくのかなと思います。逆に言うと、今のやり方のまま稼働率を上げることを至上命題としてHPCを考えていくならば、もう技術的な話は抜きにしそれぞれのシステムでガチガチで運用するしかないという話に当然帰結するので、そのあたりも含めた議論が進まない限り、技術的検証トライアルで終わって、先ほど言ったようにそういう日は来ないというが本当にそうなってしまうのかなと思います。

岩谷:
これからユーザのデマンドって増えてきてパターンも増えてきて、それによって合わせてAWSなんていうパブリッククラウドを使う人、オンプレミスが欲しい人っていうのもいると思うんです。今のところどっちかというとクラウドよりはオンプレミス側からクラウド側に手を伸ばしています。逆に今度、クラウドの方でもクラウドではなくてやっぱりこれを大規模なシステムで使いたいというユーザもいるんだろうと思っています。そういう相互連携をもっと強化していくことによって、それぞれのデータセンターの利用も上がってくると思っています。

南里:
とにかくお互いがお互いのことを知らなかったっていうのが何ヶ月前の状態ですね。やっぱり今回AWSやFUJICとやり始めた時は、最初にうちの運用形態はどういうふうにやっていてパッチはどういうふうに流していてとか、アカウントを発行してとか、料金体系とかという事をほぼ1から全部お話して、我々もAWSのいろんなクライアントのツールを教えていただいて、もうお勉強会ですね。

まず、どこがどう違うのかというのを理解しているのが今の段階です。例えばうちは可用性が足りなくて、クラウドには可用性があるということに今回注目して取り組んではいるところですが、ひょっとするとそれ以外にも切り口が見つかって、それで今度はこういうふうに組み合わせようかとか、今こっちでやってたので実はこっちでやった方がよっぽど良いとか、そういうところは期待してます。

岩谷:
またそういったことで新たなデマンドとかも生まれる可能性も当然ありますね。

南里:
今の大計センターも昔ながらの大計センターみたいなバッチベース大前提という組織は需要として残ると思ってます。あえてクラウド的、あまりにもクラウド的なサービスになる必要は多分なくて、足りないところを外に助けていただきながらというのが一番わかりやすいところかなと。

岩谷:
そう思います。ただユーザの利便性としてはクラウドを利用するにしろ、オンプレミスを利用する人はある程度共通化してあげないと駄目なのかというところを我々NVIDIAとしては考えてクラウドネイティブスーパーコンピューティングを考えているんです。

NVIDIA クラウドネイティブスーパーコンピューティング アーキテクチャが目指すのはデータセンターにおいてスーパーコンピューターとしてのパフォーマンス特性を維持しながら、クラウド サービスの要件である最小権限のセキュリティ ポリシーと分離、データの保護、オンデマンドですぐに利用できる AI サービスや HPC サービスを提供することである」

 

HPCwire:
最後に今後ベンダーやクラウドプロバイダに対して期待することはありますか?

南里:
先日のPCクラスタワークショップもそうですけど、案外ああいった場が少ないんですね。利用者、センター関係者、ベンダーの皆さんが同じ題材で話し合うという機会がなかなかなくて今回非常にあのワークショップが参考になりました。

そういった取り組みがこれからも増やしていって、まずお互いに考えて、やりたいこと、考えていること、足りないこと、というのを出し合って、そうするとなんかいろいろ話が広がって行くかなと。ワークショップでさくらインターネットの方が言っていただいたのですが、うちみたいなアカデミックセンターの用途として、企業の方が産業目的でアカデミックセンターを使うということが民業圧迫になるという心配を私がしたら、いやいやもうそんなに気にしなくていいですよと、いうことをワークショップ最後に言って頂きました。

とにかくそうやっていろんな形で計算の需要が増えていくというか、計算利用の裾野を広げていくっていうメリットの方がよっぽど大きいので、そんなに民業圧迫というのを気にしすぎないで、もっと自由に企業の方とも連携して行っていただけるといいなっていうお話いただいて、非常にその点もありがたかったんですね。やっぱり集まって、それぞれに思ってることを言い合って、そういう場所を是非お互いに増やしていきたいなと思います。

岩谷:
ベンダーとしては、やはり我々も気を付けなくてはいけないのは、製品を作るコンセプトとしてWe are Betterだけじゃ駄目だと。やはりお客様というかエンドユーザの先まで見据えた上で本当にかゆいところに手が届くようなシステムをお客様に提供していくには将来的にどういったものに繋がるんだろうかなというところまで深く考えた上でお客様に提供していかなきゃいけない、そういうふうな感じで思っています。あくまで一に性能、二に性能、三に性能みたいな性能がよければいいのかと、そうではないよね。その性能が良いことによって良くなることによって何がコンシューマーというか我々、本当に身近な人間から含めて良い方向に向くのかなということを考えながらやはり製品作りしていくべきだと思います。

あと良い意味でデータオンプレミスもクラウドセンターもお互いが連携してちょっと不便なところを出し合って、良い形にすればもっともっとユーザーも呼び込んでくれると思うし、ある意味AWSだGoogleとかだけじゃなくて日本にいるクラウドベンダーにも多く期待して盛り上げていきたいなと思っております。

HPCwire:
皆さん本日はありがとうございました。


民間のCAEを含めたテクニカルコンピューティングの分野ではクラウドを利用することが一般的になってきている。その反面、アカデミアにおいてはHPCクラウドの利用にまだまだ大きな壁があるようだ。今回の対談で、クラウドプロバイダー側が大学のユーザを理解することも必要だが、さらにクラウドの利用を拡大するためには大学側の経費支出を含めたシステムの変更が必要だと感じた。これは大学側の問題というよりは予算を支出する側にも問題があるのかもしれない。

left-arrow

第1回 第2回 第3回 第4回