ベンダーが早期にサポートを打ち切る中、スーパーコンピュータを10年間稼働させる【富岳】
Agam Shah オリジナル記事「Labs Keep Supercomputers Alive for Ten Years as Vendors Pull Support Early」
ベンダーがハードウェアのサポートを打ち切り、早期に製品を終了しているが、研究機関では、通常の耐用年数を超えてスーパーコンピューターを稼働させている。一般的なスーパーコンピューターの耐用年数は5~6年程度である。しかし、日本の理化学研究所は、既存の「富岳」を10年間稼働させる予定であり、ローレンス・リバモア国立研究所(LLNL)では、7~10年間稼働しているシステムもある。
「私たちはマシンの寿命を延ばすつもりです」と、ISC 2024のスーパーコンピューティングの持続可能性に関するパネルディスカッションで、日本の理化学研究所計算科学研究センターの所長、松岡聡氏は述べた。
パネルメンバーには、スーパーコンピューティング研究所のトップクラスの人物も含まれており、ベンダーがハードウェアを意図的に早期に陳腐化させていることを批判し、この慣行の廃止を求めた。
スーパーコンピュータ「富岳」 | |
「これらのマシンは5年経ってもまだ使えますが、サポートが終了してしまうため、仕方なく廃棄せざるを得ないこともよくあります。このような慣習はやめて、ベンダーに寿命を大幅に延ばすよう要求すべきです」と松岡氏は述べた。
LLNLでは、ハードウェアのメンテナンスが通常それ以上になるとコスト的に困難になるため、システムの寿命を5年と計画している。
「実際には、システムの稼働期間は7~8年です。10年間稼働したシステムもいくつかあります」と、LLNLの最高技術責任者ブロニス・デ・スピンスキー氏は語った。
スーパーコンピュータを廃棄するかどうかは、新しいシステムのエネルギー効率と電力性能の利点に大きく左右される。
RISE Research Institutes of Sweden のデータセンター研究主任であるジョン・サマーズ氏によると、アップタイム・インスティテュートの報告書では、システムの寿命は 18 か月から 7 年とされている。
理化学研究所の「富岳」は10年間稼働する予定で、2030年頃に予定されている「富岳NEXT」と時期が重なる。松岡氏は「2~3年程度は稼働させるつもりです。また、それだけの価値があると考えています」と述べた。
ARMプロセッサを搭載した「富岳」は、設計上低消費電力で、データの移動に重点が置かれている。専門家は、「富岳」が現在でも最高のアーキテクチャを持つスーパーコンピュータの1つであることに同意している。ソフトウェアとアルゴリズムを最適化することは、「富岳」の寿命を延ばす上で大いに役立つだろう。
HPCは主にデータやメモリに依存しており、その両方で高い効率性を保っている。松岡氏によると、「富岳」は10年後も十分な電力効率を維持するだろう。
「インメモリ技術に何らかの革新的な進歩がない限り、マシンの寿命を延ばすことが持続可能性のベストな方法であることは、時間の経過とともに明らかになるでしょう」と松岡氏は述べた。
ISCのパネルディスカッションに参加したパネリストは、スーパーコンピュータが部分的に長寿命化しているのは、多くの技術革新にもかかわらず、システムの電力効率が大幅に改善されていないためだと述べた。
Top500リストに掲載されたシステムの平均年齢は、2024年6月のリストでおよそ35か月となり、過去最高を記録した。1995年から2011年までのシステムの平均年齢はおよそ5~10か月であった。
また、システムがトップ500リストに留まる期間も長くなり、リストに掲載されているシステムの平均稼働年数は大幅に上昇している。
「これは単にリストの動的な結果というだけでなく、実際に現場で目にする現象でもあります。システムを交換するインセンティブが以前ほど強くないため、システムはより長く使用されるのです」と、Top500リストの主催者であるエリック・ストロマイヤー氏は述べた。
また、新しいシステムの構築には多額の費用がかかるため、スーパーコンピュータの寿命も長くなっている。
大規模なスーパーコンピュータ施設では、直接液冷方式やエヌビディアGPUのようなグラフィックプロセッサやアクセラレータの増設など、効率性を高めるためのさまざまな方法を試している。
例えば、LLNLは冷却能力を28,000トンに増強し、さらに18,000トンを追加した。また、現在のシステムと将来のシステムをサポートするために、電源を85メガワットに引き上げた。
「El CaptainはRFPの要件を満たす容量です。出力は40メガワット未満、約30メガワットとなりますが、それでも膨大な電力です」とデ・スピンスキー氏は述べた。
El Capitanのようなスーパーコンピューターは、最も環境にやさしいシステムではないかもしれないが、気候変動のような問題を解決し、社会を正しい方向に導くという、他のニーズにも役立つ。
「30メガワットのスーパーコンピューター?それが持続可能な資源だとは言いませんが、私たちが取り組みたいと考えている社会問題の解決に大きく貢献できるでしょう」とデ・スピンスキー氏は述べた。
パネリストたちは、持続可能性を測る単一の指標は存在しないという点では一致していた。20年前にGoogleが最初に採用したPUEは広く受け入れられている指標だが、問題もある。
デ・スピンスキー氏は、PUE(Power Usage Effectiveness)は、消費電力量に対する作業効率を測定しないため、有効な指標ではないと述べた。
パネリストたちはこの点について意見が一致した。例えば、気候変動の研究はビットコインのマイニングよりも電力消費量の範囲内で実施するほうがより価値があるかもしれない。
測定が難しいカーボンオフセットなど、その他の持続可能性の指標についても議論された。また、パネルディスカッションでは、無駄になった熱を回収して再利用することや、電子廃棄物を効果的に処分すること、素材を再利用することについても話し合われたとサマーズ氏は述べた。
「サーバーには、地球上で最も重要な原材料が17~25種類使用されており、私たちはそれらを大量に廃棄しています。その一部をリサイクルすべきですが、すべてが回収されているわけではありません」とサマーズ氏は述べた。
研究所では、コンピューティングを持続可能にするために再生可能エネルギーと液体冷却を使用している。
ドイツの LRZ は、ラックあたり 16~24 の GPU を搭載し、PUE(Power Usage Effectiveness)が 1.65~1.80 の空冷式エヌビディア DGX A100 と、ラックあたり 144 の A100 チップを搭載し、PUE が 1.05 とより電力効率に優れた水冷式エヌビディア HGX を比較した。
クランツミュラー氏は、HPCユーザーはスーパーコンピュータの観点からエネルギー効率を考えるのではなく、「建物に入るエネルギー、建物から得られるもの、そしてエネルギー全体について何をすべきか」についてもっと考えるべきだ、と述べた。
パネリストたちはエヌビディアの名前は挙げなかったが、同社の「持続可能な」GPUについて冗談を飛ばした。3月に発表されたチップメーカーの超高性能GPU「Blackwell」のTDPは1200ワットである。
「先日ニュースを見ていたら、あるプロセッサメーカーについて話していました。そのメーカーは自社のプロセッサを『持続可能』で『エネルギー効率が良い』と宣伝したがります。彼らはつい最近、1000ワットのプロセッサを作りました。1000ワットのプロセッサは環境に優しいとは言えません」とデ・スピンスキー氏は述べた。
「それは緑色だ」と松岡は冗談めかして答えた。