世界のスーパーコンピュータとそれを動かす人々


12月 19, 2022

SC22、二酸化炭素排出量とエネルギーコストがハードウェアの効率よりも優先

HPCwire Japan

Oliver Peckham オリジナル記事

これまで HPC の持続可能性に関する話題は、ワットあたりの処理能力や PUE(Power Use Effectiveness)を向上させる競争が中心であったが、先月ダラスで開催された SC22 では、何かが違っているように感じられた。持続可能性に焦点を当てたパネルや一般的なセッションを通して、この会議の目が二酸化炭素排出量とエネルギーコストに移ったというメッセージが明確に示されたのだ。

おそらく最も盛り上がったセッションは「Addressing HPC’s Carbon Footprint」で、7人の参加者があった。Dell 社の HPC および AI テクノロジーストラテジストであるジェイ・ボワソー氏、シカゴ大学教授でアルゴンヌ国立研究所のシニアコンピューターサイエンティストであるアンドリュー・チエン氏、Lancium Compute 社社長(およびセッションのモデレーター)のアンドリュー・グリムショウ氏ディーター・クランツルミュラー氏(ドイツ・ライプニッツスーパーコンピューティングセンター(LRZ)所長)、ヴィンセント・リム氏(シンガポール・NSCC)、松岡聡氏(理化学研究所)、アラン・シル氏(テキサス工科大学ハイパフォーマンスコンピューティングセンター(HPCC))の7名だ。

PUEとflops-per-wattを越えていく

グリムショウ氏の会社である Lancium は、このパネルの前身である SC21 で初めて私たちの注意を引き付けた会社だ。同社は、テキサス州西部に安価で高温のデータセンターを設置することを基本方針としている。この地域では、供給過剰な再生可能エネルギーにより、負のエネルギー価格(ユーザーがエネルギー負荷を受け入れるために支払われる)が頻繁に発生し、残りの多くの時間はほぼ一定した低価格が維持されることになる。残りの5%の時間(需要が高まり、化石燃料の発電所が稼働し、価格が上昇する時間)、Lanciumはデータセンターでのワークロードの実行を停止している。その結果、完全に再生可能なデータセンターが、割安なエネルギー価格で利用できるようになった。

グリムショウ氏(ヘッダーの写真)は、「もし私たちが低炭素な…コンピューティングを本当に安価で行いたいのであれば、コンピューティングを負荷に移行する必要があります」と述べている。「信じられないかもしれませんが、私たちは一時停止できる負荷を持っているので、HPCでそれを行うのに適しているのです。HPCのワークロードは、バッチで動作する傾向があり、通常、ループ内に人間は介在しません。20 分間停止しても、1 日の終わりには誰も本当のことを知らないでしょう。」


「グリッドと連携すれば、低コストの低炭素電力にアクセスできるようになります。」


グリムショー氏は、昨年このパネルのホスト役を務めたチエン氏とともに、この言葉を口にした。「この問題を研究してきたこの 5 年間で分かったことは、正しい方法でこれらのことを考えれ ば、より大きな容量と低コストの HPC を実現する機会があるということです。電力網に対応すれば、低コストの低炭素電力にアクセスすることができます。…これは、ダウンさせる必要はなく、制限する必要もなく、より高価な(オプション)である必要はありません。」マクロレベルの電力網のトレンドも、この方向に向かっているとチエン氏は言う。HPCと同じように電力網も必要としているのだ。 「取り残された電力や再生可能エネルギーの余剰電力という概念は、テキサス西部よりもずっと広く存在しています。ですから、あなたの地域では存在しないと思わないでください。」

シカゴ大学教授でアルゴンヌ国立研究所のシニアコンピューターサイエンティストであるアンドリュー・チエン氏

 

つまり、安価で非効率的なハードウェアとインフラを、その場所と運用によって持続可能なものにしようというのだ。グリムショウ氏は、このことを恥ずかしげもなく語った。「少なくとも過去10年か15年間は、電力効率やフロップスパーワットといった指標を使ってきました。というのも、ワット数が無料なら(カーボンフリーも含めて)、なぜそれを重視するのでしょうか。(電力が問題なのだから)1ドルあたりのフロップ数、あるいはCO2が問題なら1キログラムあたりのフロップ数が重要なのです。…1ワットあたりのフロップ数は、私たちが本当に気にしていること、つまりCO2やエネルギーコストの代用品だったのです。」

ボワソー氏も同様に、エネルギー効率化体制に疑問を 投げかけた。「何年も何年もかけて、電力効率の良いシステムを構築し、PUEを1.3から1.2、あるいは1.2から1.1にできるデータセンターを作るにはどうしたらいいかを考えていました。とはいえ、テキサスでは、とにかく化石燃料ばかりでしたから、どこかでサステナブルなエネルギーで1.0に対応する必要がありました。」ボワソー氏は、Lancium社の取り組みに好感を持ち、Dell社はハードウェアのリーダーでありながら「デリバリーモデルの革新者ではなかった」とし、「今後はより積極的にアプローチしていくだろう」と述べた。


「何年も何年もかけて、電力効率の良いシステムを作るにはどうしたらいいかを考えました・・・それでも、テキサスでは、とにかく化石燃料ばかりだったんです。」


「PUEよりも炭素効率という指標を見たい」とボワソー氏は後に語った。これは、翌週のデルのウェビナーでも繰り返し述べている。「私は、フロップスパーワットではなく、フロップスあたりの炭素数で測定することを提案しました。フロップスパーワットは増加する数字ですが、本当にゼロにしたいのは炭素ですから、フロップスパーカーボンをゼロにすることは素晴らしいことだと思います。100%グリーンエネルギーを使えば、エネルギーに対する考え方も変わってくるでしょう。

チエン氏はまた、PUEを削減するような高効率のハードウェア対策は、ワークロードを電力網に合わせる取り組みとうまくかみ合わない可能性があることも示唆している。「何人かの人は、温水冷却を使うことでPUEを下げられたことを非常に誇らしげに話しています。それは良いアイデアだと思いますが、この世界に入るには間違ったアイデアだと思います。容量を上下させたいのであれば、データセンターの外への熱輸送能力を高めることが必要です」と彼は述べている。「建物の外への熱輸送能力を高める方法は、水の温度を下げることと流量を増やすことですが、どちらもPUEを増加させます。」

リム氏は、高湿度・高熱環境におけるエネルギー効率管理の難しさを共有した上で、国境を越えてワークロードを再配置する際の問題点を指摘した。他国でのホスティングにも前向きだが、「最も難しいのは、データ主権の問題に対処することです」と述べた。

エネルギーコストの上昇

エネルギー価格の高騰は、他のパネリスト2名にもパラダイムシフトを引き起こした。第2位の「富岳」の松岡氏は、「富岳」の1年間の稼働状況をグラフで示し、ここ数カ月で急激に低下したため、理化学研究所も劇的な変化を余儀なくされたことを語った。「というのも、電気料金の高騰で経営危機に陥ったため、30%のノードを停止せざるを得なくなったからです」。しかし、松岡氏は、可変容量方式を全面的に支持することには消極的であった。10億ドルの富岳の費用を5年で償却すると、1年当たり2億ドルの設備投資になる。年間4千万ドルのエネルギーコストを考えても、富岳を止めることは投資に対する純損失となる。

BOFで発表する松岡聡氏。後ろに見えるのは、富岳がエネルギーコストの上昇により30%のノードをスピンダウンさせた時のグラフ。画像提供:Lancium Compute

 

理研は、ユーザーコミュニティに対して、エネルギー効率を追求するよう働きかけていくそうだ。「来年からは、実行時間ではなく、人にエネルギーを割り当てる予定です」と松岡氏は言う。


「私たちは、実行時間の代わりに、人のエネルギーを割り当てることを計画しています。」


一方、クランツルミュラー氏は、エネルギー価格の上昇により、LRZのSuperMUC-NGシステムからの熱を管理する道が開かれたと語る。SuperMUC-NGは温水冷却によりPUEが1.06と非常に低く、LUMIシステムのような廃熱の再利用は最近までできなかったという。「このシステムから出る熱を暖房に使いたいというのは、非常にシンプルで簡単なことです。10年前からこれをやりたかったのですが、熱をループにつなぐなど手間がかかりすぎるため、誰も引き取りたがりませんでした。しかし、世界情勢がおかしくなってきた今日、突然、私たちの熱を欲しがるようになった。…それがいかに愚かなことかおわかりになりますか?何年も前にそうすることができたはずなのです。」

この種の技術を使用した、より持続可能なコロケーションサイトへのワークロードの移動に関する聴衆の質問に対して、シル氏は、超再生可能なHPCデータセンターの熱をカナダの冬に温室を暖めるために使用しようとする、ケベック州のスタートアップQScale社に言及した。HPCwireは10月にQScaleの最初のデータセンターを訪問する機会を得たが、同社はLanciumと同様にSC22でブースのデビューを果たした。

異なる議論

このセッションは SC22 でこれらのテーマを議論した多くのセッションの一つに過ぎない。翌日には別のカーボン・フットプリントのセッションが開催され(残念ながら我々は参加できなかった)、他にも持続可能性を重視したいくつかのセッションやミーティングが開催された。また、ACM は、今後数年間に授与される Gordon Bell Special Prize の対象として、気候変動研究が Covid-19 研究に取って代わると発表した。

SC22 では、サステナビリティに関するニュースの中で不思議なほど静かだったのが、Green500 とそれに関連した birds of a feather のセッションだった。もちろんニュースもあった。カンファレンスで取り上げたように、Nvidia の H100 GPU は Henri という名の小型システム(Flatiron Institute が運営)でデビューし、その Linpack 実行で比類ないワットあたりのフロップ数を達成し、5 月のリストでデビューしたときよりもさらに上位を占めるようになった Frontier 系 HPE/AMD システムを駆逐したのである。

しかし、カンファレンスでは、AMD のハードウェアが世界で最もエネルギー効率の高いスーパーコンピュータを駆動していることを宣伝するバナーがいたるところに貼られていたにもかかわらず、こうした効率化の成果に関する議論は比較的控えめなものであった。その代わりに、1 ワットあたりの処理能力や PUE に関する話題は、スーパーコンピュータに電力を供給するための気候上および金銭上のコストがついに無視できないほど大きくなり、ハードウェアだけではそれを止めることはできないという、これまで以上に緊急性の高い認識に対して、薄れつつあるように感じられた。