世界のスーパーコンピュータとそれを動かす人々


6月 19, 2023

Nvidia、生成AI向けネットワーキング・プラットフォーム「Spectrum-X」を提供開始

HPCwire Japan

John Russell オリジナル記事

Nvidiaは、生成AIワークロードをターゲットにした新しいEthernetベースのネットワーキングプラットフォーム「Nvidia Spectrum-X」を発表した。Computexで発表を行ったNvidiaによると、Nvidia Spectrum-4イーサネットスイッチとNvidia BlueField-3 DPUの緊密な結合に基づき、Spectrum-Xは、マルチテナント環境で一貫した予測可能なパフォーマンスとともに、1.7倍の総合AIパフォーマンスと電力効率の向上を実現するとしている。

事前説明会で、Nvidiaのネットワーク担当上級副社長であるラッド・シャイナー氏は、「AIクラウドシステムは、2つのイーサネットネットワークを利用します。1つはクラウド制御とユーザーアクセスに使用され、(これは)しばしばノース・サウス・ネットワークと呼ばれるものです。もうひとつはGPUとCPUをつなぐコンピュートファブリックで、一般にイースト・ウェスト・ネットワークと呼ばれます。イースト・ウェスト接続に使われる従来のイーサネットは、現代の生成AIワークロードを扱うには遅すぎます。」

Spectrum-Xプラットフォームは、AI向けに特化した世界初のEthernet製品であるとシャイナー氏は言う。「Spectrum-Xは、ロスレスEthernetネットワークを導入しており、データパケットをドロップしないため、非常に短いテールレイテンシを維持することが可能です。RoCE RDMAオペレーション用の新しいアダプティブ・ルーティング・テクノロジーを含んでおり、GPU接続を拡張した場合、従来のイーサネットに対して2倍高いネットワーク性能になります」と述べた。

バッファサイズは有限であり、エンドツーエンドの輻輳制御を行う場合、パケットの再送が一般的であるが、Spectrum-Xではどのようにしてパケットを落とさないようにしているのか、という質問がQ&Aでシャイナー氏にあった。

 
  Nvidia Spectrum-4
   

「従来のイーサネットにおける輻輳制御は、例えばスイッチで発生したケースを検出し、輻輳制御を行うための通知を作成しようとすることで行われている」とシャイナー氏は言う。「我々が(Spectrum-4とBlueField-3を使って)行ったことは、すでに発生した輻輳のホットスポットを発見しそれに対処するために、ネットワークに依存しない輻輳制御の新しいメカニズムを作ることです。」

「その代わり、高度なテレメトリーを用いて、ネットワーク全体のレイテンシーや、ネットワーク全体のレイテンシーの小さな変化を把握し、ホットスポットを特定することができるようになりました。その情報をDPUに非常に素早く伝えることで、データ注入レートをコントロールし、ネットワークのホットスポットをなくすことができます。ロスレスで、アダプティブ・ルーティングを行うことができ、素晴らしいパフォーマンスを得ることができるのです」とシャイナー氏は述べた。

Nvidiaの説明によれば:

「新しいプラットフォームは、AIネットワーク専用に構築された世界初の51Tb/秒イーサネットスイッチであるSpectrum-4から始まります。Spectrum-4スイッチ、BlueField-3 DPU、LinkXオプティクスが連携し、AIクラウドに最適化されたエンドツーエンドの400GbEネットワークを構築することで、高度なRoCE拡張を実現します。Spectrum-Xは、パフォーマンス分離によりマルチテナントを強化し、テナントのAIワークロードが最適かつ一貫して動作することを保証します。また、パフォーマンスのボトルネックを特定できるため、AIパフォーマンスの可視性が向上し、完全に自動化されたファブリック検証機能を備えています。」

「Spectrum-Xを駆動するアクセラレーション・ソフトウェアには、Cumulus Linux、pure SONiC、NetQといった強力なNvidia SDKが含まれており、これらが一体となってネットワーク・プラットフォームの極めて高い性能を実現しています。また、BlueField DPUの心臓部であるNvidia DOCAソフトウェアフレームワークも含まれています。Spectrum-Xは、1台のスイッチで接続された256個の200Gb/sポート、または2層のリーフスパイントポロジーで16,000ポートという前例のないスケールを実現し、高いレベルのパフォーマンスを維持しながら、ネットワークレイテンシーを最小限に抑え、AIクラウドの成長と拡張をサポートします。」

Spectrum-X、Spectrum-4スイッチ、BlueField-3 DPUは、Dell Technologies、Lenovo、Supermicroなどのシステムメーカーから発売中である。

発表へのリンク、https://www.hpcwire.com/off-the-wire/nvidia-launches-accelerated-ethernet-platform-for-hyperscale-generative-ai/