世界のスーパーコンピュータとそれを動かす人々


11月 28, 2024

エヌビディア、Top500リストに再び関心を寄せるも、GPUではない

HPCwire Japan

Agam Shah オリジナル記事「Nvidia Shows Renewed Interest in Top500 List, But Not for GPUs

エヌビディアはTop500リストに強い関心を示しており、同社のGPUと技術を搭載したシステムをリストにさらに追加していくと述べている。しかし、エヌビディアの関心は、同社のネットワーク技術の信頼性を高めることであり、GPUの性能を証明することではない。

エヌビディアのSpectrum-Xネットワークを搭載した2つのスーパーコンピュータシステムが、最新のTop500リストのトップ50に初登場した。

このシステムには、ベンチマークで42ペタフロップを記録したエヌビディア独自のIsrael-1システムと、GMOインターネットグループが構築したもう1つの38ペタフロップシステムが含まれている。

デルは、Bluefield-3データ処理ユニットとSpectrum X800スイッチを使用して、両システムを構築した。42ペタフロップのIsrael-1には936個のH100 GPUが搭載されており、38ペタフロップのGMOインターネットグループのシステムには768個のH200 GPUが搭載されている。

「これは、これから登場する多くのシステムの第一号となるでしょう」と、アクセラレイテッドコンピューティングのディレクターであるディオン・ハリス氏は述べた。

 
   

最新のHopperとBlackwell GPUにより、エヌビディアは主にAIおよびHPCシステム向けの広帯域幅で低ジッターのネットワークインターフェースとしてInfiniBandをサポートしている。Spectrum-Xは、NVLinkインターフェースを越えたより広範なシステムのスケールアウトを可能にする、とハリス氏は述べた。

Spectrum-Xイーサネットインターコネクトは、「従来のイーサネットではわずか60%だった理論上のデータスループットを、95%という素晴らしい数値で達成しています」とハリス氏は述べた。

また、このシステムは、3層のネットワークファブリック全体で、レイテンシの劣化やフロー衝突によるパケットロスをゼロに維持している。

「これまでのところ、Xはシステムのパフォーマンスに非常に満足しています」とハリス氏は述べた。

Top500で意味するものは

ネットワークは、AIのパフォーマンス向上に不可欠であり、エヌビディアは自社のイーサネット技術が大規模な導入でも機能することを証明しようとしている。

トップ5のシステムのうち、Frontier、Aurora、Lumiの3つにはHPEのSlingshotインターコネクトが搭載されている。エヌビディアのInfiniBandインターコネクトは、3位のEagleと7位から10位のスーパーコンピュータに搭載されている。

昨年、Top500の主催者は、2017年以降リスト入りしている新システムの継続的な減少について懸念を表明した。システムの平均性能もここ数年低下している。

この減速は、システム規模の拡大が不可能であることや、アーキテクチャ上の制限とも関連している。このケースでは、エヌビディアは性能賞を狙ったわけではなく、同社のネットワーキング技術を証明するためにトップ10圏外のシステムを提出した。

また、リスト上のシステムが老朽化しているため、Top500では新たな提出も必要としている。Top500システムの平均年齢は、2018年から2019年には約15カ月だったが、2023年には30カ月に倍増した。

AIは科学計算のワークロードにも浸透しつつあり、スーパーコンピューティング2024では、混合精度のベンチマークについて多くのセッションで議論される予定である。

Blackwell

Blackwellは、今年初めの設計上の問題を乗り越え、順調に進んでいる。エヌビディアは、多くのパートナーがSC2024でBlackwellサーバーを発表すると述べた。

Blackwellは、需要の高い成功したHopper GPUの後継機種である。クラウドプロバイダーは、エヌビディアのHopper GPUを搭載した新しいAIデータセンターを構築しており、Blackwellは大幅に高速化されているが、より多くの熱を発生させる。

「Blackwellの展開は、パートナーが独自のカスタマイズを加えながら製品を迅速に市場に投入することを可能にするリファレンスアーキテクチャにより、順調に進んでいます」とハリス氏は述べた。

同社は今年、2つのGrace CPUに接続された最大4つのエヌビディアBlackwell GPUをホストできる柔軟なサーバーであるGB200 NVL4サーバーを発表した。

AIおよびHPCのワークロード向けに設計されている。このサーバーは、1年前のスーパーコンピューティング2023で発表された4GPU搭載のGH200 NVL4サーバーの後継機種である。

エヌビディアは、この新しいCPUとGPUの組み合わせを「Grace Blackwell」スーパーチップと呼び、CPUとGPUはエヌビディアのNVLinkインターコネクトを介して相互接続されている。

ハリス氏は、パートナー企業は、4つのGPU NVLinkドメイン間で共有される1.3テラバイトのコヒーレントメモリを備えた、HPCとAIのハイブリッドワークロードに最適化されたシングルサーバーBlackwellソリューションを提供できると述べた。

GB200 NVL4システムは、シミュレーションで2.2倍、推論で1.8倍高速である。シミュレーションは、科学コンピューティングのベンチマークであるMILCを使用してベンチマークされた。推論速度1.8倍は、FP16データタイプにおけるLlama2-7Bで測定された。

4つのGPUのみを搭載したこのサーバーは、推論に最適な設計となっている。このシステムは、約5.4キロワットのベースTDPで構成可能である。

今月、エヌビディアはBlackwell用のMLPerfベンチマークもリリースしたが、これはHopperと比較して世代ごとに大幅な改善が見られた。

エヌビディアは、DGX B200システムをベースとする社内スーパーコンピュータ「Nyx」のベンチマークを提出した。

MLPerfによると、BlackwellはH100 Tensor Core GPUと比較して、GPUあたりLLMの微調整性能で2.2倍、LLMの事前学習性能で2倍の高速化を達成した。ベンチマークは、Llama 2 70Bの微調整モデルとGPT-3 175Bの事前学習モデルに対して実施された。

その他のニュース

エヌビディアは、科学者が研究にAIを導入するためのソフトウェアとマイクロサービスの発表を行った。

エヌビディアは、科学者がAI推論サービスを実行するためにGPU上に展開できる、すぐに使える仮想化コンテナである新しいNIM(Nvidia Inference Microservices)を発表した。

同社のBioNeMo大規模言語モデルから新たに登場したコンテナにより、研究者はAIを創薬や生物学研究に活用することができる。NIMは、他の生物学モデルやデータセットに加え、AlphaFold2 AIモデルもサポートしている。AlphaFold2の開発により、Google DeepMindのデミス・ハサビス氏とジョン・ジャンパー氏は今年ノーベル化学賞を受賞した。

また、エヌビディアは、科学者が材料発見のワークロードを実行できる新しいコンテナ「ALCHEMI」を発表した。ALCHEMIコンテナには、エヌビディアGPUが必要である。

同社は、気象予測用のAIモデル「CorrDIFF」用のEarth-2 NIMも発表した。

「また、米国の気象予報機関と協力して、米国本土全体を対象としたCorrDIFFモデルの開発も行っている。これは、台湾をベースとしたオリジナルモデルの約300倍の面積に相当する地域だ」とハリス氏は述べた。

また、エヌビディアはNumPyのドロップイン代替品であるcuPyNumericを発表した。cuPyNumericはPythonのワークロードを自動的にCPUとGPUに分散し、より高速なパフォーマンスを実現する。

「CPU、GPU、マルチGPU、マルチノードに自動的にスケールし、検出することができます。これが本質的に、スケーリングプロセスを非常にシームレスにするように設計されている理由です」とハリス氏は述べた。

ハリス氏によると、cuPyNumericは複数のエヌビディアGPU世代で動作する。

「現在、当社のグレースホッパーシステムを活用して展開されている多くの当社のスーパーコンピュータシステムにとって、これは本当に素晴らしいことだと思います」とハリス氏は述べた。