Meta社、巨大新AIスパコンは「世界最速」
Oliver Peckham

昨年10月にブランド名を変更したばかりのMeta社(旧Facebook社)は、「AI Research SuperCluster(RSC)」と呼ばれる大規模な新しいAIスーパーコンピュータを導入し、メタバーサルな未来のビジョンに力を注いでいる。Meta社によると、RSCは、新しいAIモデルの構築、拡張現実ツールの開発、マルチメディアデータのシームレスな分析などに使用されるとのことだ。このスーパーコンピュータの第1フェーズはすでに稼働しており、年央にはフルビルドアウトする予定。HPCwireは、最終的なシステムの性能は220 Linpackペタフロップス以上になると推定している。
![]() |
現在構築されているRSC。画像提供:Meta社 |
システムについて
RSCの第1フェーズはすでに構築され、運用されている。760台のNvidia DGX A100演算ノード、合計約6,080個のNvidia A100 GPUで構成され、すべてNvidia社のQuantum 200Gb/s InfiniBandでネットワーク接続される。ストレージには、175PBのPure Storage FlashArray、10PBのPure Storage FlashBlade、46PBのキャッシュストレージがPenguin Computing社のAltusサーバに搭載されている。Meta社によると、この第1フェーズだけで、「(RSCは)現在稼働しているAIスーパーコンピュータの中で最速の部類に入ると考えている」とのことだ。
Meta社によると、7月頃に第2フェーズが完了すると、RSCには合計16,000個のGPU(おそらく1,240個のDGX A100ノードが追加され、これによりNvidia社は、顧客によるDGX A100システムの導入としては最大規模になると考えている)と、16TB/sの学習データを収容できるエクサバイトのストレージが搭載される。Meta社は、16,000 GPUがシステムの最大構成であると指摘している。「これは、1:1のオーバーサブスクリプションを確実に提供するために、ホップ数を減らすネットワーク構成になっているためです。」とMeta社の広報担当者は語っている。
Meta社によると、この第2フェーズにより、RSCのAIトレーニング性能は2.5倍以上に向上し(GPUの2.63倍と合わせて)、世界最速のAIスーパーコンピューターとしての地位を確立するとのことだ。
これまでのシステムとは異なり、RSCはオープンソース/パブリックデータだけでなく、Meta社の実際の社内生産データでの使用を想定している。Meta社によると、このシステムはインターネットから隔離されており、すべての接続はMeta社のデータセンターを経由するように設計されている。ユーザが作成したデータは、匿名性がチェックされた上で、ストレージシステムからGPUまで暗号化され、モデルのトレーニングに使用される直前にインメモリーで復号化される。
Meta社は、RSCの帯域幅と容量の増加に対応するため、ストレージサービス(AI Research StoreまたはAIRStoreと呼ばれる)を開発した。AIRStoreは、AIモデルの学習データを前処理し、転送速度を最適化するように設計されている。
Meta社はRSCの発表の中で、2017年に発表したAI研究用スーパーコンピューティングハードウェアの第1世代についても静かに詳述している。Meta社によると、この無名のクラスタは、22,000個のNvidia V100 GPUを搭載し、1日あたり35,000件のトレーニングジョブを実行する。Meta社によると、以前のシステムと比較して、RSCの初期のベンチマークでは、コンピュータビジョンのワークフローで20倍、大規模なNLPモデルのトレーニングで3倍の改善が見られたとのことだ(Meta社によると、数週間分の時間が節約できるとのこと)。
これまでのところ、Meta社はこれらのシステムで一貫したパートナーと協力している。アーキテクチャとマネージドサービスはPenguin Computing社、システム、GPU、ネットワーク、ソフトウェアスタックコンポーネントはNvidia社、そしてストレージ機能の大半はPure Storage社である。
![]() |
画像はMeta社提供 |
最速のAIスパコン
Meta社は、RSCが約5エクサフロップスの混合精度AIコンピューティングパワーを提供すると推定している。Nvidia社のスーパーコンピュータ「Selene」(同じく8基のGPUを搭載したNvidia DGX A100ノードで構成)をベンチマークとして使用した場合、HPCwireは、(Meta社がHPLベンチマークを実行した場合)RSCのフルイテレーションにより、227 Linpackペタフロップス(現在の86ペタフロップスから上昇)程度の計算能力が得られるのではないかと推定しているが、Nvidia社が暫定的に行ったさらなる最適化により、この数字は過小評価される可能性がある。
RSCの第1段階は11月のTop500で4位、完全な形では2位になると思われるが、「最速のAIスーパーコンピュータ」の競争は混沌としている。RSCがSelene(63.4 Linpack petaflops)やNERSCの同じA100ベースのPerlmutterシステム(70.9 Linpack petaflops)のような現在の同等の競合製品よりも優れていることはほぼ確実だが、近い将来にはもっと強力な挑戦者が現れるだろう。
最も似ているのは、EuroHPCの近日公開予定のLeonardoシステムかもしれない。これは、Atos社が開発したプリ・エクサスケールのスーパーコンピュータで、同じくNvidia A100を搭載している(RSCでは16,000台を予定しているが、こちらは約14,000台を搭載)。CINECAは、GPUを搭載したLeonardoのブースターモジュールを発表する予定で、そのモジュールだけで240.5Linpackペタフロップスを達成すると見込んでいる。また、Nvidia社は、来るべきシステムを「世界最速のAIスーパーコンピュータ」と称している(FP16のAI性能は推定10エクサフロップス)。
Tesla社もDojoと呼ばれる巨大なAIスパコンの構築を公開しており、このシステムは自律走行車開発のためのモデルトレーニングを目的としている。現在、A100ベースの前駆システムがあり、HPCwireはこれを約82 Linpackペタフロップスと推定しているが、Dojo自体はテスラ独自の「D1」チップを搭載する予定である。従来とは異なるハードウェアやその他の不確定要素のため、Dojoの将来のLinpack性能を推定することは困難だが、Tesla社はDojoが発表されたとき(まだ不確定)には、「最速のAIトレーニングコンピュータ 」になると述べている。
2つのメモ:まず、HPCwireは、RSCのV100ベースの前駆システムは、おそらく135 Linpack ペタフロップス程度の性能を発揮し、現在のTop500では、SeleneやPermutterなどのAIシステムとの競争をはるかに超えて、3位に入るだろうと推定している。これにより、少なくともTop500においては、世界最速のAIスパコンとなる。2つ目:Meta社(Facebook名義)は以前、2017年初頭に3.3LinpackペタフロップスシステムをTop500に出したことがある(現在は139位にランクイン)。そのシステムはPenguinサーバを使用しているが、仕様書にはV100ではなくNvidia Tesla P100とQuadro GP100が記載されているため、前駆システムの一部ではないかもしれない。
誰がトップに立つかは、時間(とベンチマーク)が解決してくれるだろう。
![]() |
画像はMeta社提供 |
メタヴァースの世界へ
RSCの第1フェーズは、すでに自然言語処理(NLP)やコンピュータビジョンの大規模モデルのトレーニングなどの用途に使用されている。しかし、長期的な目標はメタバースである。メタバースとは、漠然と定義された仮想世界のことで、Meta社(メタバースにちなんで命名)は、新たなデジタル革命を構成すると明確に信じている。
Meta社は、メタバースにおけるRSCの野心的なビジョンを持っている。その例として、RSCが大人数の間でリアルタイムの音声翻訳モデルを学習し、異なる言語を話す人々が言葉の壁を越えて仕事やゲームプレイで協力することを可能にすることを挙げている。
Meta社のCEOであるMark Zuckerbergは、「私たちがメタバースのために構築している経験には、膨大な計算能力(1秒間に5兆回の演算)が必要です。RSCは、何兆もの例題から学習し、何百もの言語を理解できる新しいAIモデルを可能にします。」と述べている。
パンデミック時のRSC構築
Meta社は、RSCのアイデアを2013年のFacebook AI Researchラボの設立にまでさかのぼらせているが、プロジェクトの本格的な開始は2020年初頭にさかのぼり、GPUやネットワークファブリック技術の進歩を活用するために新しいシステムが必要だと判断したと述べている。目標は、1兆個以上のパラメータを持つモデルを、1エクサバイト規模のデータセットで学習できるシステムの開発である。
![]() |
|
RSCに納入されたラック。画像提供:Meta社 |
このようなシステムの開発には、当然ながらCovidが邪魔をしている。Meta社によると、RSCは完全なリモートプロジェクトとしてスタートしたが、パンデミックの後半に現れたサプライチェーンの問題が、さらに道を塞いだという。Meta社は、サプライチェーンの混乱により、チップからGPUまでの部品の入手が困難になったと説明する。
Meta社のソーシングマネージャーであるGeorge Niznikは、「スーパーコンピュータは、単に購入して電源を入れるだけではありません。RSCは、従来の製品リリースサイクルの恩恵を受けることなく、非常に限られた時間の中で設計・実行されました。さらに、パンデミックと業界の主要なチップ供給不足は、まさにタイミングが悪かったのです。このような困難な状況を解決するためには、私たちのスキルと経験を最大限に活用しなければなりませんでした。」と述べた。
しかし、1年半後、チームは機能するクラスタを完成させた。Meta社はHPCwireの取材に対し、第1フェーズのサプライチェーンの問題を解決し、段階的な構築は計画通りに進んでいると語った。
Meta社のAI研究者であるShubho Senguptaは、「私が最も誇りに思っているのは、チームが完全に遠隔操作でこれを成し遂げたことです。」と述べている。「誰にも会わずにこのようなことができるなんて、正気の沙汰とは思えません。」
![]() |
Meta社が発表したビデオからの画像で、おそらくRSCの非公開の場所を示している。(バージニア州リッチモンドの郊外だと思われる)。 |