世界のスーパーコンピュータとそれを動かす人々


3月 24, 2022

Nvidia、「Eos」スーパーコンピュータを発表

HPCwire Japan

Oliver Peckham

今週のGTC22で、Nvidiaは新しい「Hopper」アーキテクチャの最初のGPUであるH100と、それに付随する多数の構成、システム、および付随する技術やソフトウェアを発表した。また、これらの進歩を示すために、数ヶ月以内に米国内でデビューする予定の新しい巨大なスーパーコンピュータも発表された。ギリシャ神話の夜明けの女神にちなんで名づけられた「Eos」だ。

Eosは、今回発表された第4世代のDGXシステム、DGX H100をベースにしており、8倍のNVLinkで接続されたH100 GPUを搭載している(詳しくはこちら)。このDGX H100は、外部NVLinkスイッチによってPodに接続され、最大1エクサフロップのAI性能を発揮し、32ノード単位でリンクしてEosなどのシステムを構成することが可能だ。

Eos(ヘッダーのレンダリング写真)には、この32-DGX H100 Podsが18台、合計で576台のDGX H100システム、4608台のH100 GPU、500台のQuantum-2 InfiniBandスイッチ、360台のNVLinkスイッチなどが搭載される予定だ。Nvidiaのプロダクトマネジメント&マーケティング担当シニアディレクターであるParesh Kharyaは、プレスやアナリスト向けの事前説明会で、「Eosは18エクサフロップスという驚異的なAI性能を提供し、導入時には世界最速のAIスーパーコンピュータとなる見込みです」と述べている。

DGX H100ポッド。画像提供:Nvidia

 

各H100は30テラフロップスのFP64(IEEE)ピーク演算能力を発揮するため、従来のHPCピークは138.2 FP64ペタフロップスとなり、NvidiaのFP64テンソルコア処理形式はそのHPCピーク性能を275ペタフロップスに倍増させることになる。18エクサフロップスのAI性能は、Eosを最も高性能なAIスーパーコンピュータにするかもしれないが、Linpackの指標で他の「AIスーパーコンピュータ」を最高にするかどうかはまだわからない。(世界最速のAIスパコンを目論む他のいくつかのシステムについては、こちらこちらのような記事をお読みください)。

Eosは、Nvidia社内のAI開発チームやソフトウェアエンジニアリングチームが、自律走行車や会話型AIソフトウェアなどの製品に活用する予定だ。また、Eosは気候科学やデジタル生物学などの分野で、Nvidiaが主導する研究プロジェクトにも力を発揮する予定である。NvidiaのDGXシステム担当副社長兼ゼネラルマネージャーであるCharlie BoyleはHPCwireに対し、「H100の恩恵を本当に受けられるワークロード、リコメンダーや言語モデルがある場合、現在、明らかに、そのワークロードはまずEosになります」と述べている。

しかし、Nvidiaはもちろん、Eosがクライアントが同様の大規模システムを構築するための道を開くことも意図している。Boyle は、「Nvidia は、研究開発チームが社内で使用するための最高のツールを求めています」としながらも、Nvidia の顧客にとってより重要なのは、「彼らが実行していることの正確なコピーを入手できること」であると述べている。…「そして、1つのものを構築することの利点と、その1つのものから独自のスーパーコンピュータを構築することの利点は、顧客がどんな規模のシステムを持っていても、それと同等かそれ以上のシステムを社内に持っていることです。」

さらに、Eosのスケールの大きさは、スケールアップしたテストに有利に働くと彼は続けた。「Eosは、社内のユーザにとって素晴らしいツールであるだけでなく、顧客に提供するものが確かなものであることを確認するのに役立ちます。また、質問があったときにも、簡単に再現することができます。サポートチームは自分たちでDGXを使用していますが、もっと大きなものが必要な場合は、今日Seleneチームに電話して、明日はEosチームに電話して、ちょっとこれを試してもらえませんか?と言うだけです」。

Eosは、ギリシャ神話の月の女神の名を冠し、2020年6月にTop500の7位でデビューすることになったEosの姉妹であるSelene(「Helios」システムに賭けるのは早計か)の後継としてされている。Nvidiaによると、Seleneの構築にはわずか数週間しかかからず、DGX A100システム280台をベースに、Nvidiaのサンタクララ本社に設置されているとのことだ。先行するシステム「Circe」は、36台のDGX-2Hシステムをベースにしていた。

Eosは年内(表向きは今後数カ月以内)にデビューすることになっているが、NvidiaのハイパースケールおよびHPC担当副社長のIan Buckは、GTCライブセッションで、H100ハードウェアは第3四半期まで出荷開始しないため、H100ベースのシステムは6月のTOP500リストに登場しない、と述べている。