世界のスーパーコンピュータとそれを動かす人々


3月 10, 2022

来るべきAI時代に備えるNVIDIA Quantum-2 InfiniBand Platformの実力とは

HPCwire Japan

スポンサー記事

最大400Gbpsの高速ネットワークを提供するNVIDIA Quantum-2 InfiniBand Platformは、現在主流となっているHDR InfiniBandの次の規格であるNDRを初めて実現した製品だ。HPCwire JapanではNVIDIA Quantum-2 InfiniBand PlatformについてNVIDIA社ネットワーキング シニア・バイスプレジデントのギラッド シャイナー氏とHPC/AI ネットワーク プロダクトマーケティング ディレクター 岩谷 正樹氏とに製品について伺った。


NVIDIA Quantum-2 Platformのネーミングの由来

 
  NVIDIA ネットワーキング シニア バイスプレジデント
ギラッド シャイナー 氏
   

今回発売された製品は【NVIDIA Quantum-2 InfiniBand Platform】と名付けられており、以前のものから特にネーミングを変更した点についてギラッド氏は次のように述べている。「NVIDIA Quantum スイッチは、NVIDIAの一世代前の200Gb/s InfiniBand スイッチの名称でした。400Gb/sの新世代のInfiniBand製品を発売するにあたり、エンドツーエンドで新世代の製品であることを明確に表現するために、NVIDIA Quantum-2 InfiniBand Platformというブランドで製品群を展開することと致しました。このNVIDIA Quantum-2製品群は、NVIDIA ConnectX-7 400Gb/s InfiniBandアダプタ、NVIDIA BlueField-3 400Gb/s InfiniBand Data Processing Unit (DPU)、NVIDIA Quantum-2 400Gb/s InfiniBandスイッチ、LinkXケーブル、関連ソフトウェアで構成されています。これによりマルチテナントで実施するためのバンド幅が増加することによって遜色のない運用が可能となります。」

HPC/AIビジネスへの400Gbps InfiniBandの必要性

そもそも現在のHPC/AIにおいて、400Gbpsもの高速ネットワーク環境が必要なのだろうか。現在の200Gbpsでも十分ではないのだろうか?その点について岩谷氏は、「今日のハイパフォーマンス コンピューティング(HPC)、AI、およびハイパースケールのインフラストラクチャでは、膨大なデータを分析し、より高速かつ効率の高い複雑なシミュレーションを実行するために、より高速な相互接続とよりインテリジェントなネットワークが必要です」と述べ、次のように続けた。「リアルタイム処理、シミュレーション、AIのあらゆる分野で生成および消費されるデータの量、学習に使われるパラメタは、データセンターのサーバとストレージ・インフラストラクチャに対するネットワークの需要を更に高いものにしています。また、スーパーコンピュータセンターは、そのデータセンターを多数のユーザー(多くは組織外)に開放する傾向が強まっています。逆に、世界のクラウドサービスプロバイダーは、何百万人もの顧客に対してより多くのスーパーコンピューティングサービスを提供し始めています。今日のスーパーコンピューティングセンターとパブリッククラウドの要件は収束しつつあり、これらの次世代のHPC、AI、データ分析の課題に対して可能な限り最高のパフォーマンスを提供するとともに、ワークロードを安全に分離し、ユーザートラフィックの多様な要求に対応する必要があります」とインタビューに回答している。

ネットワークパフォーマンスの障壁を押し通すために、NVIDIAは400Gb/秒のパフォーマンスとIn-Network Computing技術を搭載したNVIDIA Quantum-2 InfiniBand Platformを導入している。NVIDIA Quantum-2 とクラウドネイティブスーパーコンピューティングアーキテクチャは、 クラウド サービスの要件を満たすインフラストラクチャ プラットフォームで妥協のないパフォーマンスを提供する HPC および AI プラットフォームだ。

既存の HDR 環境を NVIDIA Quantum2 Platformに置き換える利点

NVIDIA Quantum-2は、ソフトウェア定義のネットワーキング、In-Network Computingアクセラレーション、RDMA、そして最新のInfiniBand世代に対する優れた進歩を含む最速の速度とフィードを提供している。NVIDIA Quantum-2 InfiniBand は、ネットワーク速度を 400 Gb/秒に倍増し、前世代のネットワークポート数を 3 倍にした。パフォーマンスを3倍高速化し、データセンターのファブリックスイッチの必要性を六分の一に削減することで、データセンターの消費電力を削減し、データセンターのスペースをそれぞれ7%縮小することができる。しかし、利点はポート帯域幅とOPEXだけではない。NVIDIA Quantum-2スイッチには、第3世代のスケーラブルな階層集約/縮小プロトコル(SHARP)が付属している。SHARPv3は、ネットワークを介した小規模および大規模なデータ集約に対して、SHARPv2では2つまでの同時論理ツリーが、

SHARPv3では64までに拡張されることにより、実質的に無制限の拡張性を実現し、従来世代と比較して32倍高いAIアクセラレーションパワーを実現する。これによりさらに、複数のテナントまたは複数の並列アプリケーションが、パフォーマンスの低下なしにインフラストラクチャを共有できるようにするのだ。MPIタグマッチングハードウェアエンジン、および高度な輻輳制御、適応ルーティング、および自己修復ネットワーキングなどの機能は、HPCおよびAIクラスタに重要な機能強化をもたらし、これまで以上に高いレベルのパフォーマンスを実現している。

性能向上について岩谷氏は、「このSHARPとAI演算ではよく用いられるNCCL (NVIDIA Collective Communication Library)によるAll reduceを実行することによってより、下のグラフに示すように、1世代前のHDR InfiniBandにおいても約2.5倍の性能向上が可能です。SHARPv3ではこれらのバンド幅も倍となり同時に作成可能な論理ツリーも大幅に増加することから同時に大量のAIワークロードを拘束に実行することが可能となります」と述べている。SHARPv3では64までに拡張されることにより、実質的に無制限の拡張性を実現し、従来世代と比較して32倍高いAIアクセラレーションパワーを実現する。これによりさらに、複数のテナントまたは複数の並列アプリケーションが、パフォーマンスの低下なしにインフラストラクチャを共有できるようにするのだ。MPIタグマッチングハードウェアエンジン、および高度な輻輳制御、適応ルーティング、および自己修復ネットワーキングなどの機能は、HPCおよびAIクラスタに重要な機能強化をもたらし、これまで以上に高いレベルのパフォーマンスを実現している。

 

NVIDIA Quantum-2普及の鍵

 
  NVIDIA HPC/AI ネットワーキングプロダクトマーケティング部
マーケティング ディレクター
岩谷 正樹 氏
   

現在でもAIの世界では並列計算よりは単一ノードでの計算が主流のようだ。そのような利用者の環境下でNVIDIA Quantum-2は普及していくのだろうか?普及する鍵について岩谷氏は次のようにコメントしている。「前の資料でも申し上げている通り、AI演算で使われるデータの増加、解析用モデルパラメタの増加は非常に早い速度で増加しております。そうなると恐らく現状の単一ノードでの計算(たとえ復数GPUを搭載したマシンであっても)メモリ等のキャパシティを超えてしまうか、計算結果を出すまでに膨大な時間がかかってしまうかの何れかになると思われます。そうなると近い将来にはAI演算用のクラスタシステムが主流となると考えておりその外部ネットワークにはNVIDIA Quantum-2 InfiniBand Platformが最適ではないかと考えております」。

それにしても現在のPCIバスの帯域幅に対するNDRサポートについてNVIDIAはどのように考えているのだろうか。現在のPCIバスの帯域幅で十分に性能を引き出すことが可能なのだろうか。「PCIe Gen5の16レーンにおける理論上のスループットは、63.02GB/sであり、1ポートのNDRにおけるスループット性能は、400Gb/s(50GB/s)ですので、とても相性がいいのです。PCIe Gen4のシステムで使用する場合、NDRで必要な帯域を得るために、32レーンでの接続を行うこともできます」と岩谷氏はコメントしている。

今後の製品ロードマップ

今後の製品ロードマップについて、ギラッド氏は次のように語った。「InfiniBandは2年ごとに新しい世代を披露させて頂いております。NDRにつきましては、2021年後半にリリースされ、現在パートナー様やお客様に向けて出荷しております」 また、これ以上速いネットワークが必要なのかという点についてギラッド氏は「他のデータセンターコンポーネントと同じ観点でお答えさせて頂きます。より高性能なCPUが必要なのか?より高性能なGPUが必要なのか?より計算能力の高いデータセンターが必要なのか?等と問われるのと同じことで答えとしては、「もちろん必要です!」となります。ご存知の通り現在解決できない問題を解決するために、よりハイパフォーマンスなデータセンターやスーパーコンピューターを構築する必要があるのです。AIロボットの構築や、病気の解明などです。もし、より高速なネットワークがなければ、どうやってより多くのデータを未来のCPUやGPUに送り込むことができるでしょうか?」。


今回発表された【NVIDIA Quantum-2 InfiniBand Platform】は3月21日よりオンライン開催されるテクノロジーカンファレンス”NVIDIA GTC”の中のセッション「[S42353] AI クラスタ演算に最適な AI インフラストラクチャのご紹介」で岩谷氏から直接話を聞くことができる。参加登録はこちらから無料で行えるので、ご興味のある読者は参加してみるといいだろう。