Meta、MITなどが光AI基盤のロボットアームを試験的に導入
Agam Shah オリジナル記事

Meta、MITなどの研究者が、12個のNvidia GPUを搭載したサーバーを光スイッチとロボットアームで接続し、機械学習に利用できる新しいインターコネクトを考案した。「TopoOpt」と呼ばれるこのファブリックは、コンピューティングのニーズに応じて、その場でネットワークのトポロジーを作り出すことができる。この技術は、マイクロソフトのAIスーパーコンピューティングの限界を試すChatGPTのようなAI技術の幅広い採用により、高性能コンピュータが疲弊している中で生まれた。
![]() |
|
TopoOptダイレクトコネクトファブリックのセットアップ。画像提供:研究者 | |
この技術に関する論文は、米国で開催された「USENIX Symposium on Networked Systems Design and Implementation」において発表さ れた。
TopoOptは、処理要件、利用可能なコンピューティング・リソース、データ・ルーティング技術、ネットワーク・トポロジーなどの情報をもとに、アルゴリズムを使用して最速の並列計算技術を探し出す。また、GPUと他のコンポーネント間の通信時間を最小化するNvidiaのAllReduce機能を改良した。
「TopoOptは、再構成可能な光スイッチとパッチパネルを使用して各トレーニングジョブの専用パーティションを作成し、各パーティション内のトポロジーと並列化戦略を共同で最適化します」と、研究者は書いている。
研究者らは、A100 GPU、HPE NIC、100 Gbps Mellanox ConnectX5 NICを搭載した12台のAsus ESC4000A-E10サーバーを使用して、Metaインフラストラクチャ内でTpoOptをテストした。NICには、ブレイクアウトファイバー付きの光トランシーバーが搭載されていた。
「TopoOptは、MLワークロードのトポロジーと並列化戦略を協調最適化する初めてのシステムで、現在Meta社での展開に向けて評価中です」と研究者は述べている。
このセットアップでは、「送信側のファイバーを掴んで受信側のファイバーに接続するロボットアーム」を使ってネットワークを再構成するTelescent社のパッチパネルも使用されている、と論文は述べている。ソフトウェアで制御されるロボットアームは上下に動き、送信側ファイバーをシステム内の任意の場所にある受信側ファイバーとリンクさせることができる。これにより、ネットワークを素早く再構成するのに必要な柔軟性と弾力性を実現する。 パッチパネルはすでに商業用途で広く使われているが、現在ではデータセンターでの使用も提案されている。
Googleは最近、光回路スイッチを備えたAIスーパーコンピュータを使用して、消費電力を抑えながらTPU v4チップのトレーニング速度を向上させた方法を詳述した論文を発表した。Googleのセットアップの光回路スイッチ(OCS)は、ロボットアームのような機動性はなく、ミラーを使って入力ファイバーと出力ファイバーを切り替える。また、Googleのセットアップは、4,096個のTPUに渡ってアットスケールで展開されており、より大規模なテストベッドとなっている。
研究者たちは、Google式の光スイッチが「5倍も高価」であること、また対応するポート数が少ないことを知り、パッチパネルを選択した。同時に、研究者は、Googleで使用されているようなOCS技術は、アットスケールな展開のためのものであると述べている。「OCSの主な利点は、再構成の待ち時間がパッチパネルより4桁も速いことです」と研究者は書いている。
TopoOptは、コンピュートとネットワークの要件を事前に準備し、サーバーの準備が整い、タスクの展開が可能になった時点で、すぐに利用できるようになっている。「我々はすでに、ジョブの到着順序と各ジョブが必要とするサーバーの数を知っています」と研究者は書き、「この設計により、各サーバーは2つの独立したトポロジーに参加できます」と付け加えている。
TopoOptは、ネットワークバックボーンをインフラストラクチャの中心とし、コアネットワークのバックエンドハードウェアとフロントエンドサーバーを結ぶ複数層のスタティックスイッチにデータを扱う「ファットツリー」と呼ばれる別の手法に比べて、トレーニング反復時間が3.4倍速くなったと研究者は結論付けている。この手法は、現在広く使われている。
データセンターでの光ネットワークの使用は新しい概念であり、研究者はAIネットワークインフラを構築するための安価な方法として、ロボットアームと新しい通信プロトコルを導入している。この技術の実行可能性は、Metaによって検証されている。