世界のスーパーコンピュータとそれを動かす人々


12月 12, 2022

HPCとクラウド ~課題と将来像~ 3/4回 『クラウドネイティブスーパーコンピューティング』

HPCwire Japan

スポンサー記事

HPCワークロードをクラウド環境で実現するアイデアは随分長いこと話されているが、なかなか普及していない。これは日本だけの問題なのか?それとも世界的にHPCのクラウドへの展開は進んでいないのだろうか?

ハイペリオン社の予測では次の5年間でHPCクラウドは年間17.6%成長する見込みで2026年には約120億ドルになる予想だ。これは2021年におけるオンプレミスのHPC市場の全体規模である148億ドルに迫る勢いだ。それにも関わらず日本では依然としてリアルマシンであるスーパーコンピュータの調達が続いている。HPCのクラウド化が進まないのがどこに問題があるのか?HPC側なのか?それともクラウド側なのか?

今回の対談ではPCクラスタコンソーシアム主催で2022年6月23日、24日に開催されたPCクラスタワークショップ in 神戸2022「クラウドとHPC」を元に、九州大学情報基盤研究開発センター先端計算科学研究部門の南里豪志准教授、NVIDIA HPC/AI ネットワーキングプロダクトマーケティング部マーケティング ディレクター 岩谷正樹氏、NVIDIA エンタープライズ マーケティング部マーケティングマネージャ 愛甲浩史氏の三名の方に、HPCとクラウドの間に積まれた課題と将来像について話を伺いました。この対談内容を4回に分けてお届けします。


前回からのつづき

HPCwire:
岩谷さん側の立場からすると、HPCとクラウド連携についてはどういうふうにお考えですか?

岩谷:
南里先生がおっしゃられたクラウドバースティングっていう考え方がまずあるんだろうなと思っています。それともう一方でクラウドネイティブスーパーコンピューティングというコンセプトに合っているように、まさにクラウドから逆にオンプレミスを使いたいというユーザもいるでしょう。

クラウドネイティブのスーパーコンピューティングプラットフォームは、ベアメタルのパフォーマンスと高いデータセンター効率を、セキュリティの分離とマルチテナントのための最新のゼロトラストモデルと組み合わせて、両方の長所を初めて提供します。このアーキテクチャの移行を可能にする重要な要素の 1 つは、完全に統合されたデータセンター オン チップ プラットフォームであるデータ処理ユニット (DPU) です。

 

ユーザによってはたまにHPCを使いたい、つまりITOシステムみたいなのを使いたい、だけど自分が持っている研究の中のもう一方では特に計算リソースがそれほど必要ないからAWSで回しておくというような、様々なユーザのニーズっていうのがこれから出てくるでしょう。計算需要がこれからいろんなパターンで増えていくと、オンプレミスを管理しているデータセンターの方でいかに交通整理していくかによって、ユーザが増えていくか、このデータセンターは駄目だとか、というふうに分かれいていくのではないでしょうか。

我々としてはできるだけお客様に有効活用していただきたいという想いもあり、そういうクラウドとオンプレミスがうまく連携するような環境のためのソリューションを展開していきたいと思っているところです。

HPCwire:
データという観点ではどういう問題があるとお考えでしょうか?

南里:
オンプレミスにデータを置きっぱなしというのは可用性の問題があって、使えるタイミングと使えないタイミングがあります。そういうことで24時間使える場所に必要なデータを同期をしながら置いておくってことをやりたいだろうと思っています。ただクラウドではストレージというよりは出し入れのネットワークの方を特に気にされる方が多いです。ストレージの容量は予算的な見積もりができますが、ネットワーク使用に関してはなかなか見積もりができなくて、いくら掛かるのか、年度予算に対してどのくらいになるのかっていう不安を感じられてる方もいます。見通しの難しさという点がクラウド側のストレージにはあるという気がします。

HPCwire:
九大を利用される方はそれぞれの料金体系に合わせて利用料を支払わなくてはならいのでしょうか?

南里:
そうです。これは大学の会計の仕組みとして、一旦大学で集めた利用負担金を、さらにクラウド側に利用料金として支払うお金の流れの処理が難しいことがあります。現在少なくともうちの大学ではそれができていません。クラウド側の契約も料金支払いも全部完全に独立してやっていただいています。

HPCwire:
そういう意味でデータストレージの容量というものは予測はすることはできるけど、出し入れのIO部分が予測することが難しいと。

南里:
不安要素になっています。そんなに怖がるほどに無茶苦茶使うということは多分ないとは思いますが、やはりわからないっていうところで不安に感じられています。

HPCwire:
HPCとクラウドの連携において問題となってくる点、もしくは今後重要となる点というのはいかがでしょうか?

南里:
クラウドはいろんなことができます。クラウドはAWSにしてもAzureにしてもOracleにしてもGoogleにしても、サービスが多様化していてまずどこから始めていいのか分からない。今回共同で取り組んでいる中で三グループ、特に機械学習でのグループでは、クラウドではこれもありますあれもありますって説明された後で、結局私達はどれを選べばいいんでしょうと。全体から見てこうしましょうっていうのが分かり難い。

逆にオンプレミスの方はもうあるものしか提供できないので、最初の導入の時に入れたインターフェースでそのまま五、六年運用するしかありません。マニュアルがこれだけありますので見てやりたいことは探してくださいって言うので押し付けにもなりますけど、逆に選択の余地がない分迷わずに済むというところはあります。

文化が違うっていう言い方がいいのか分かりませんが、取っ掛かりのところがだいぶ違うのでそれも含めて、我々みたいな取り組みを増やして、せめて具体的な事例を公開していきながら、こういうことをしたいんだったらこういうふうにすすればよかったよ、こういうことでできたよとか、これやっちゃったからちょっとまずいことになっちゃったよとか、そういう情報交換の場っていうのが非常に重要だろうと思っています。

もう一つ特にこれはオンプレミス側の問題なんですが、導入をした時に整備した環境から大きく変えることができないので、新しいユーザがWindowsではできてるんですけどとか、Jupytor Notebookでこうやっているんですけどって言われて、そのまま持ってこられると、すいませんそれ難しいんですっていうようなことになり始めています。その部分のインターフェースを研究室、クラウド、オンプレミスの三つで共通化したりとか、違いがあるならこうやると吸収できるとか変換できるという、そういった知見が増えてくるといいと思ってます。ここの部分はOpen OnDemandっていうツールがあって、是非こういう利用を広げていきましょうと理研で導入に取り組まれているグループに誘っていただきました。それだとNotebookをブラウザ上とかで立ち上げて違和感なく使えそうな雰囲気です。こういったインターフェイスの整備は進めていってなるべく敷居を低くできるようにしないといけないと思っています。

岩谷:
おっしゃる通りで、まずインターフェースを合わせて行かなくてはならないと思います。オンプレミスのシステムは南里先生の言われたように制限が多い、AWSは逆にいろんなことができる割にはベターなところがあってこうやって使うんです的な所が無いです。ストレージやネットワーク速度の高速化だとか、あるいは可用性だとか運用性だとかそういったところを上げることはやって行かなくてはなりませんが、データが今後様々なインターネットを経由してやりとりされることから、当然セキュリティの部分も考えなくてはいけないと考えています。

私達NVIDIAはインフラ屋なので結局はソリューションを提供して、なんとかお客様の要望というよりデータセンターの要望に応えることがエンドユーザに対する要望に応えることに繋がるのと思っています。

HPCwire:
オンプレミスもクラウドもクラウドというものをベースに考えることによって、垣根をなくそうということですね。

岩谷:
そこが重要にはなると思います。クラウド、オンプレミスって分けるのではなくて、様々なところで連携しなくてはいけないところと連携していくんだろう。

HPCwire:
クラウド化の意味はいろいろあるかもしれませんけども、将来的に全部クラウド化するような方向性あるのでしょうか?

南里:
技術的には十分可能な状態にあると思っています。ただ経済性としては、1年中ずっとジョブが流れていて、ディスクをバンバン使って、ネットワークもどんどんやりとりがあるというサービスをクラウド上で維持しようとすると、おそらくリース料として現在払っている金額ではクラウド上で実現するのは難しいと思います。

うちのようなセンターというのは冗長性を完全に排除して、1本もので運用していて予備系というか遊ばせてる資源がほとんどありません。その分、資源に対する金額はかなり低く抑えることができていると思ってます。ただ今後クラウド側でいろいろな技術革新があったり、特にスケールメリットはものすごいものがあると思いますので、そこが逆転するというふうになってくると、クラウド化ということは俎上には載ってくるかと思います。

もう1件は利用制度です。基本的にセンターは、ハードウェアはリース料金予算で出しています。また運用に係る電気代は利用者に受益者負担という形で負担していただくというモデルで何十年も運用しています。その点、丸ごとクラウドに持っていくとそこが切り分けられなくなってしまい、かといってクラウドの料金を全部受益者負担にするというわけには当然いきませんので、制度を丸ごと見直すことが当然必要になってくると思います。

岩谷:
私は別の面で考えると、パブリッククラウドはご存知のようにほぼ外国製ですね。そうすると技術が日本からどんどん流出していくのではないかと危惧しています。私はクラシカルHPCずっとやっていますが、やはりクラシカルHPCのデータセンターはこういう研究をしたいからこのマシンを買いたいみたいな、ある意味尖ったところが研究に対してあって、それはまさに日本の最先端技術を担っていかれる方々のためのシステムであるというふうに思っています。

ですがクラウドっていうのはやはり利用者を増やさなくてはいけないという意味で、計算機を購入していくデマンドって尖ったものに対してではなく、ある程度こう言うユーザブルなユーザが多い形であろうというような構成になると思います。その点から考えると大計センターをクラウド化することには反対で、やはり尖ったシステム、つまり尖った研究を継続するためにはオンプレミスのシステムが絶対必要ではないかと思います。そういう意味で日本がやっている各大学センターで個々にシステムを特長付けているのは正しい方向でしょう。

NVIDIA 愛甲浩史氏(以下、愛甲):
私は元々はクラウド系のエンジニアで、クラウド事業者はビジネスをしなくてはいけないのですが、クラウドのビジネスって何で成り立ってるかっていうと用意したマシーンやリソースを誰かが四六時中占有していないからなんです。

要は1台の機械を1人で抱えている場合、クラウドで持ったいてもオンプレで持っていてもランニングコストって一定の費用が掛かり差異がありません。そこに何かビジネスになるようなものが出てくるわけではないのです。ただ、多くのクラウドで成功しているようにサービスというのは四六時中それを占有しているわけではありません。

 
   

大体コンピュータというのはある時に忙しくてある時は暇です。暇な時間があるんだったらそこに詰め込みまくる、詰め込んで仕事をさせて休ませないようにしようというのが究極の意味でのクラウドなわけです。そうすることで同じ時間、同じ機械、同じリソースを用意しているにも関わらずサービスを提供できる対象が増えることによって、相対的にサービスにかかるランニングコストを下げることができるということにクラウドの経済的な意味での大きなポイントがあります。この話と、どこかの大学の研究室が尖った研究をしたいといったようなリクエストは根本的に相反するわけです。

何故かと言いいますと、尖った研究をしてる人は例えば全国に1人しかいないといった場合、シェアリングすることによる経済的なベネフィットはどこにもないわけです。むしろ人に使われてる分だけ高くなってしまいます。それではクラウドというメリットはないかと言うとそういうわけでもありません。

わずかな要求のために一時的なリソースの確保に対してそれを見越したオーバースペックなものを自分たちで用意するのかというと、それは買う側は当然ナンセンスな話ですので、いわゆるレンタル、いわゆる車のレンタルであったりとか、いわゆる建機のレンタルとか、四六時中必要としないような大型建設機っていうのは大体レンタルですよね。同じような研究をしてるにしても、それを例えば性能であったり、機能が必要とする人が全国に何人かいることで、そういう方々にレンタルサービスを提供するイメージでクラウドのリソースを活用することができるとするならば成立すると思います。

経済的な意味でも特にスーパーコンピューティングにおいてクラウドサービスというか、いわゆる外部でリソースを持たせて、それを活用するサービスというのは単独の組織がそこを議論しても、実はクラウド側からすると結局、僕らが買って貸せっていう話でしょっていう話にしかならなくなってしまうのではないかと思います。クラウドを、外部リソースを活用するという、その貸方であったりとか含めて様々な関係者がそこに向けて動き出したときに時代が動くんじゃないかと思います。

今はリサーチの段階でやられてる方がまだ多いと思うので、提供する側もその感覚で提供してる部分が正直あると思っています。ただ、いろんな大学がそういったいわゆるピークカットも含めてですけれども、活用するということを前提に皆が考え出したときに結構この話は大きく動くんじゃないかなと考えています。

次回につづく

left-arrow

第1回 第2回 第3回 第4回

right-arrow