世界のスーパーコンピュータとそれを動かす人々


2月 20, 2023

IBM、インテルとNvidiaを搭載したクラウドAIスーパーコンピュータ「Vela」を発表

HPCwire Japan

Oliver Peckham オリジナル記事

約5年前、オークリッジ国立研究所は、IBMとNvidiaのハードウェアを搭載したIBM製のスーパーコンピュータ「Summit」を発表し、Top500リストのトップに躍り出た。そして今、かつてのHPCジャガーノートが、同社の方向転換を反映した新たなスパコンを発表している。Velaは、インテルとNvidiaのハードウエアを搭載したAIに特化したクラウドネイティブのスーパーコンピュータである。

まずはスペック。Velaの各ノードは、デュアルIntel Xeon “Cascade Lake” CPU(2021年に導入さ れたIBM独自のPower10チップは見送り)、8基のNvidia A100 (80GB) GPU、1.5TBのメモリ、4台の3.2TB NVMeドライブを搭載している。IBMはこのシステムを発表したブログ記事で、ノードは「複数の100Gネットワークインターフェイス」を介してネットワーク化されており、各ノードは異なるトップオブラックスイッチに接続され、さらに各ノードは4種類のスパインスイッチに接続されており、ラック間の強力なバンド幅とコンポーネント故障からの隔離の両方を保証していると述べている。Velaは、IBM Cloudの仮想プライベートクラウド(VPC)環境と「ネイティブに統合」されている。

Velaのアーキテクチャ 画像提供:IBM

 

昨年5月からオンラインになっているVelaは、60ラック(Forbes誌による)と不特定のノード数で構成されているが、上の図(他のすべての点で正確)を信ずるならば、ラックあたり6ノード、合計360ノードと2880個のA100 GPUと推測される。

IBMは、AIをしっかりと念頭に置いてVelaを設計した。特に、IBMが「多くの異なるタスクに使用できる、ラベルのない幅広いデータセットで学習したAIモデル」と表現している基盤モデルの開発を念頭に置いている。そのため、同社はあらゆるレベルで充実したメモリを選択した。A100の大容量メモリバリアントと充実したDRAMおよびNVMeは、すべてAIトレーニングデータおよび関連タスクのキャッシュに適している。

興味深いのは、IBMがVelaで仮想マシン(VM)構成を可能にする選択をしたことで、AIのパフォーマンスにはベアメタルが望ましいが、VMはより柔軟性をもたらすと主張していることだ。パフォーマンスへの影響を改善するために、IBMは「ノード上のすべての機能を…VMに公開する方法を考案」し、仮想化のオーバーヘッドを5%未満に抑えたとしている。

この発表の中で、IBMはVelaで敬遠している従来のHPCの要素に関しても、いくつかの鋭い指摘を行っている。著者らは、高性能ネットワーキング・ハードウェアなどの要素を持つ「従来のスーパーコンピュータ」は、「AI用に設計されたものではなく、米国の国立研究所が定義したようなモデリングやシミュレーションのタスクで優れたパフォーマンスを発揮するように設計されている」と記している。著者らは、OpenAIのために作られたマイクロソフトのAzure AIスーパーコンピューターを、”コストを上げ、展開の柔軟性を制限する技術選択 “を推進する「従来のデザイン」の一例とさえ呼んでいる。

「Vela をクラウドの一部として運用することを考えると、このシステムのためだけに別の InfiniBand のようなネットワークを構築することは、この取り組みの目的を達成することにはならないでしょう。クラウドでよく使われる標準的なイーサネットベースのネットワークにこだわる必要があったのです」 と著者らは説明している。

今のところ、IBMはVelaをIBM研究コミュニティにのみ提供しており、同社はこのシステムを、AIに取り組むIBM研究者のための新しい「Go-to環境」であると説明している。ただし、IBMはVelaがより大規模な展開計画のための概念実証であることもほのめかしている。

「この取り組みは、大規模なAIワークロードのパフォーマンスと柔軟性を実現することを視野に入れて行われましたが、このインフラは、世界中のどのデータセンターでも、どのような規模でも展開できるように設計されています。」と著者らは記しています。そして 「この作業はパブリッククラウドの文脈で行われましたが、このアーキテクチャはオンプレミスのAIシステム設計にも採用することができます。」