世界のスーパーコンピュータとそれを動かす人々


9月 1, 2025

マルチテナントHPCとAI:ネットワークがシステムの成否を分ける

HPCwire Japan

オリジナル記事「Multi-Tenant HPC and AI: How the Network Can Make or Break the System

人工知能(AI)とHPCアプリケーションが急速に進化し多様化する中、企業はこれらのシステムを支えるインフラの設計と拡張方法を再考している。この変革の中心となっているのが、マルチテナントAIクラスタのコンセプトだ。このような環境では、複数の組織やチームが共通のコンピュート・ファブリックを共有しながら、異種のAIやHPCワークロードを実行できる。基礎モデルのトレーニング、エッジ分析の処理、従来のHPC MODSIMアプリケーションの実行、デジタルツインシミュレーションの実行など、これらのクラスタはパフォーマンス、スケーラビリティ、信頼性に対する相反する要求を両立させなければならない。

このインフラの中心にあるのがネットワークだ。コンピュート・リソースとストレージ・リソースは不可欠だが、それらを結束したシステムにするのはネットワークだ。マルチテナントAI環境では、ネットワークは効率性を高める強力なイネーブラーにも、スケーラビリティとパフォーマンスを制限する重大なボトルネックにもなり得る。この記事では、マルチテナントHPC-AIクラスタにおける基本的なネットワーキングの課題と、さまざまなネットワーキング技術がどのように対応するかを検証する。

マルチテナントAIのコアネットワークの課題

 
  クラスタ上のネットワークスイッチ。画像提供:Karpathy/テスラ社
   
  1. リソースの分離: あるユーザーの高負荷ワークロードが他のユーザーのパフォーマンスを低下させないよう、テナントは互いに隔離されていなければならない。この要件には、厳密なトラフィック分離と、ネットワーク・ファブリック全体で予測可能なパフォーマンスが要求される。
  2. テナント間のネットワーク負荷分散: ダイナミックなトラフィックパターンにより、ネットワークはインテリジェントに負荷分散を行い、ホットスポットを回避し、公平性を確保する必要がある。
  3. オーバーレイ・オーバーヘッドなしのマルチテナント: ネットワーク・オーバーレイ(VXLANなど)はテナント分離のためによく使用されるが、特に規模が大きくなると、大きなオーバーヘッドと複雑さが加わる。ネイティブ・ソリューションが望ましい。
  4. フレームサイズに関係なく、ファブリックをフル活用: AIワークロードでは、大きなパケット(モデルのチェックポイントなど)と小さなパケット(パラメータの更新など)が混在して生成される。ネットワークは、すべてのトラフィック・プロファイルにわたって高い利用率を維持する必要がある。
  5. すべてのトラフィック・タイプをフルに利用: RDMA over Converged Ethernet(RoCE)、TCP、独自プロトコルのいずれであっても、ネットワークは一貫したパフォーマンスを提供しなければならない。
  6. 最悪なノード割り当てでもピーク性能を発揮: 共有クラスタでは、テナントは物理的に離れたノードや最適でないノードにスケジューリングされる可能性がある。ネットワークは、このような理想的でないシナリオでもピークパフォーマンスを維持しなければならない。
  7. 障害発生時のシームレスな復旧: HPCやAIのトレーニングジョブは数日から数週間に及ぶことが多い。ネットワークに障害が発生した場合、多大なコストがかかるため、回復力と高速フェイルオーバーが不可欠である。
  8. ノードとサイト間でのダイナミックなスケーリング: 需要が拡大するにつれ、クラスタはラック、列、さらには地理的にも拡大する。ネットワークは、この弾力性をサポートするためにシームレスにスケールしなければならない。

ネットワーク技術の比較

InfiniBand

長所:InfiniBandは非常に低いレイテンシーと高いスループットを提供するため、パフォーマンスに敏感なAIワークロードに自然に適合する。また、CPUのオーバーヘッドを最小限に抑えて効率的なデータ移動を可能にするRDMAをネイティブサポートしている。

制限: その長所にもかかわらず、InfiniBandはプロプライエタリなエコシステムの一部である。単一のベンダーによって管理されているため、柔軟性と相互運用性が制限されている。リソースの分離は複雑なプロセスであり、多くの場合ホスト・レベルのソフトウェア・レイヤーに依存している。さらに、単一のデータセンターやベンダー固有の設計を超えてInfiniBandを拡張することは重要な課題である。コア・スイッチの故障は、大規模な故障ドメインのためにインフラの広範囲に影響を及ぼす可能性がある。

標準イーサネット

長所:標準イーサネットは、さまざまなハードウェアやソフトウェアのエコシステムで広く使用され、コスト効率が高く、十分にサポートされているプロトコルである。大規模ネットワークを構築する上で、使い慣れた相互運用可能な基盤を提供する。

制限: 標準イーサネットは、AIワークロード下で予測可能なパフォーマンスを提供するのに苦労している。輻輳とパケットロスは一般的で、AIシステムのレイテンシ要件を損なう。RoCEのパフォーマンスを達成するためには、管理者はフロー制御、ECN、QoSメカニズムの複雑なチューニングに取り組まなければならない。さらに、テナントの分離を実装するためにネットワーク・オーバーレイが必要になることが多く、オーバーヘッドが増え、トラブルシューティングが複雑になる。

エンドポイント・スケジューリング・イーサネット

長所:エンドポイント・スケジューリング・イーサネットは、サーバレベルでトラフィックのオーケストレーションを導入し、予測可能性とパフォーマンスを向上させる。コンピュートレイヤーとネットワークレイヤー間の調整が可能な、厳密に制御された環境で効果を発揮する。

制限: このアプローチは、調整の複雑さをかなりもたらす。ハイエンドで高価なネットワーク・インターフェイス・カード(NIC)とネットワークの緊密な結合関係に依存するため、拡張が難しい。テナントとノードの数が増えれば、この調整を管理するオーバーヘッドも増える。さらに、トラフィックのスケジューリングは、多くの場合、マルチテナント環境では適切でないかもしれないワークロード間の信頼レベルを前提としている。

ファブリック・スケジューリング・イーサネット

長所: ファブリック・スケジューリング・イーサネットは、トラフィックのスケジューリングをネットワーク・ファブリック自体に移行することで、根本的に異なるアプローチをとっている。このアーキテクチャは、RoCEとTCPトラフィックの両方において、決定論的でロスのないパフォーマンスを保証する。オーバーレイに依存することなく、複数の仮想レーンを使用して完全なテナント分離をサポートする。ファブリックに内蔵されたインテリジェンスにより、さまざまなトラフィック・タイプやフレーム・サイズにわたって最適な帯域幅利用が可能になる。また、パスの多様性と高速フェイルオーバー回復メカニズムにより、高可用性を確保し、ラック、列、さらにはサイト間でシームレスなスケーリングをサポートする。

制限: ファブリック・スケジュール・イーサネットは包括的なソリューションを提供するが、その実装には最新のファブリック・スイッチを使用する必要がある。

マルチテナントHPC-AIに最適なネットワークアーキテクチャは?

 
   

これらの技術は全てリソース分離機能を提供するが、2つの異なるコンセプトがある。1つ目のコンセプトはパーティション・キー、仮想レーン、輻輳制御メカニズムといった高度な機能を含むが、これらの機能は最適な分離を提供するのに苦労し、追加ペイロードのオーバーヘッドや設定の複雑さを伴う。ファブリック・スケジューリング・イーサネットが提供する2つ目のコンセプトは、複数のイグレス・バーチャル・キューのおかげでオーバーヘッドを伴わないアイソレーションを実現し、固有のアイソレーション機能を含んでいる。

ロードバランシングメカニズムは、機能の重要性とAIクラスタの帯域幅への影響により、常に進化している。パケットを小さく統合されたセルにカットし、利用可能なすべてのネットワーク・リンクに散布するという革新的なコンセプトは、ワークロードが変化しても設定やチューニングを必要とせず、エレファントフローの問題を解決しながら、最高のロードバランシングを提供する。セル・スプレーは現在、ファブリック・スケジューリング・イーサネット・テクノロジーによってのみ提供されている。

ファブリック・スケジューリング・イーサネット・アーキテクチャは、要所要所で優れた機能を提供し、その結果、次のような主な利点がある:

  • 決定論的でロスレスなファブリック:ファブリック全体で輻輳を考慮したロスレス転送を行い、RoCEとTCPの両方をサポートする
  • ネイティブ・マルチテナント:ファブリック・レベルでのセグメンテーションと分離により、オーバーレイや過剰なチューニングなしに厳密な分離を実現する
  • ファブリックのフル活用:あらゆるフレーム・サイズとワークロード・タイプでスループットと効率をネイティブに最大化
  • 高い可用性と回復力:組み込みの冗長性と高速なHWベースのコンバージェンスにより障害から保護する

ネットワークがHPC-AIクラスタの成功を決める理由

従来のコンピューティング環境では、ネットワークは二次的な役割を果たすことが多い。しかし、何千ものGPUやアクセラレーターがリアルタイムで同期し、通信しなければならないAIワークロードでは、ネットワーク・ファブリックはミッションクリティカルである。

ディープラーニングのトレーニング中にノード間通信が1~2%遅くなると、計算時間が数時間失われることになる。数十のジョブと数千のノードにまたがる場合、これらの非効率性は急速に増大する。

マルチテナント環境では、これらのリスクはさらに高くなる。分離が不十分だと、あるワークロードが他のワークロードを中断させるというノイジー・ネイバー問題につながる可能性がある。ネットワークの混雑はシステム的なものとなり、連鎖的な遅延を引き起こす可能性がある。また、スムーズな拡張ができないことは、AIのイノベーションがアルゴリズムではなく、インフラによって制約を受けることを意味する。

ファブリック・スケジューリング・イーサネットは、必要な機能を提供するために特別に設計されたと思われる。完璧なロードバランシング、オーバーレイ・オーバーヘッドのないアイソレーション、フレーム・サイズやトラフィック・タイプに関係なくファブリックをフルに活用し、最悪のノード割り当てでもピーク・パフォーマンスを発揮する。

結論: ネットワークはAIを実現する

AIが普及し、マルチテナント(HPC)クラスタが主流になるにつれ、堅牢でインテリジェント、かつスケーラブルなネットワーク・ファブリックの重要性はいくら強調してもしすぎることはない。InfiniBandや標準イーサネットのような従来のテクノロジーは、これまでHPC-AIワークロードに貢献してきたが、最新のマルチテナント環境の要求を満たすには不十分だった。

ファブリック・スケジューリング・イーサネットは、リソースの分離、高い利用率、シームレスなスケーラビリティを可能にする次世代のソリューションとして注目されている。ファブリック・スケジューリング・イーサネット・テクノロジーを利用することで、企業はマルチテナントHPC-AIインフラの潜在能力を最大限に引き出し、ネットワークがイノベーションの制約ではなく触媒となることを確実にすることができる。