世界のスーパーコンピュータとそれを動かす人々


8月 21, 2023

セレブラス、ビッグAIチップに大きな計画: 独自クラウドを構築

HPCwire Japan

Agam Shah オリジナル記事

AIチップを誇示することは1つのことだが、商業市場でその有用性を証明することはより大きな課題だ。 

一部のAIチップ企業(まだチップの実現可能性を証明していない)は、顧客を教育し、チップの実現可能性を証明するために、独自のAIコンピューティング・インフラを設立している。

世界最大のチップを製造するセレブラス・システムズは現在、人工知能データセンターを設立し、実験的なAIメガプロセッサーを研究室から商業顧客に提供している。

セレブラスは昨年、同社のハードウェアがCovid-19の研究に貢献したことで、誰もが憧れるゴードン・ベル賞を受賞しており、同社のハードウェアは学界や国立研究所で高い知名度を誇っている。しかし、今回の商業的な拡大は、グーグル、アマゾン、マイクロソフト、オラクルなどの大手クラウドプロバイダーが提供するNvidiaのGPUで構築されたコンピューティング・インフラと同社のハードウェアを戦わせることになる。 

わずか数百人の従業員しかいない同社は、人工知能とクラウド・コンピューティングを手がける中東のクラウド・プロバイダーG42の協力を得て、AIインフラを構築しようとしている。両社は提携し、今年末までに米国内に3つの商用AIデータセンターを建設する予定だ。

グループ42がセレブラスからAIシステムを購入したのは、この新興企業を吟味した後だった。 

「我々は大規模スーパーコンピューターの構築と運用管理の経験がありました。大規模な生成AIモデルを実装した経験もありました。そして、巨大なデータセットのクリーニングと管理に関する深い専門知識を持っていました」とセレブラスのアンドリュー・フェルドマンCEOはHPCwireに語った。

しかしセレブラスは、自社のシステムで商業クライアントを獲得するという困難な道のりに直面している。AI市場で圧倒的なソフトウェアとハードウェアの足場を築いているNvidiaを追い落とすのは難しいだろう。マイクロソフトやフェイスブックなどの大企業は、エヌビディアのGPUにAIの未来を賭けている。

Nvidiaはまた、開発者がAIアプリケーションを試作できるLaunchpadと呼ばれる独自のGPUデータセンターを持っている。インテルもまた、開発者や顧客がアプリケーションを試作・実行できるよう、独自のAIチップを搭載したクラウドサービスを立ち上げている。インテルのDev Cloudには最近、開発者がAIアプリケーションをテストするためのData Center GPU Max 1100が追加された。

セレブラスとG42が構築した3つのデータセンターは、FP-16の性能で12エクサフロップスのAI演算性能を提供する。セレブラスはコンドル・ギャラクシー(Condor Galaxy)というブランドで3つの新しいシステムを構築し、それぞれ4エクサフロップスの性能を実現する。

 
   

最初のシステムはCondor Galaxy-1(CG-1)と呼ばれ、すでにカリフォルニアのデータセンターに導入されており、5400万コアを搭載する。同社は来年にかけてデータセンターを増やす予定だ。

「2024年末までに…9台のエクサフロップス、合計36エクサフロップスまで拡大する予定です」とフェルドマン氏は語った。

CG-1 AIメガクラスタは、セレブラスのAIチップ上で動作する既存のサーバーであるCS-2システムを64台集めたものである。CS-2はすでに米エネルギー省のアルゴンヌ国立研究所とピッツバーグ・スーパーコンピューティング・センターで使用されている。

中東でクラウドとAIの重鎮とされるG42は、大規模な言語モデルを訓練したい企業に計算能力を販売する予定だ。G42は、ヘルスケア、金融サービス、製造業などの業種の商用顧客をターゲットにしている。

LLMの有望性は、昨年末にOpenAIのLLM ChatGPTによって実証された。ChatGPTは数ヶ月で1億人のユーザーを獲得した。それ以来、グーグルやマイクロソフトなどは、検索や生産性アプリケーションに独自の大規模言語モデルを実装しようと躍起になっている。

大企業は独自のモデルを構築しているが、NvidiaのGPU不足で計算能力は不足している。そのため、セレブラスのような企業にとってはチャンスとなっている。セレブラスのAIチップは、営利団体の研究者が執筆した多くの学術論文で使用され、引用されている。

「我々は最大6000億のパラメータをサポートし、100兆のパラメータまで拡張可能です」とフェルドマン氏は言う。グーグルとマイクロソフトは、検索アプリケーションや生産性アプリケーションを動かすLLMのパラメータ数を公表していない。

G42はUAE政府が出資するムバダラの支援を受けている。ムバダラは、2019年に大規模な売却が行われる前はAMDにも出資していた。フェルドマン氏は以前、自身のサーバー新興企業SeaMicroが2014年にチップメーカーに吸収された後、AMDに在籍していた。

セレブラスとG42のパートナーシップにUAE政府が関係している可能性は、貿易や政策における半導体やAIの兵器化を考慮すると政治的陰謀を伴うが、フェルドマン氏は懸念はないと述べた。

「我々は最速のAIプロセッサーを開発し、最速のAIシステムを構築しました。もちろん、我々は(米)商務省や規制当局と協力しています。我々は彼らと連携しています。我々はルールの内容を理解しています」とフェルドマン氏は語った。

セレブラスのCG-1実行モデルは、メモリ、コンピューティング、ネットワークを別々のクラスタに分割する「ウェイト・ストリーミング」と呼ばれる技術に依存している。 AIコンピューティングは主にモデルのサイズに依存し、システムはメモリとコンピューティングを別々に拡張する技術を持っている。  すべてのデータ処理は、セレブラスのメインAIチップであるWSE-2で行われる。WSE-2は、85万コア、2兆6000億トランジスタ、40GBのSRAMメモリ、毎秒20ペタビットの帯域幅を持つ。

フェルドマン氏によれば、デカップリングによって、CG-1システムはシステムを追加しても線形に拡張できるという。線形スケーリングが可能なのは、メモリとコンピューティングエレメントが独立して動作するためであり、各チップが独自のメモリとキャッシュを持つGPUの大規模展開とは異なる。MemoryXと呼ばれるシステムレベルのテクノロジーは、モデルのパラメーターを個別に保存し、それを演算コアに伝達する。

「何千もの小さなGPUがあり、それぞれが異なるパラメータの塊を持っています。そのため、1000億個のパラメータがどこにあるのかを追跡する必要があります。私たちは集中型のパラメータストアを用意しています」とフェルドマン氏。

SwarmXと呼ばれる同様のテクノロジーは、クラスタレベルでコンピューティングとメモリ管理をオーケストレーションする。MemoryXからパラメータを受け取り、シリコン内の複数の100GbEレーンである相互接続ファブリックを介して複数のCS-2にブロードキャストする。

セレブラスのAIチップは、GPUと同様、従来の科学計算を加速させる多くの望ましい特性を持っている。G42の顧客がセレブラス・システムを従来のHPCに使用するリスクもあり、これはスタートアップがAI市場に注力していることを混乱させる可能性がある。

しかしフェルドマン氏は、このチップは従来のHPCではなく、AIコンピューティングのために設計されていると主張した。

「私たちはこのマシンをAIのために作りました。64ビット倍精度はサポートしていません。我々はHPCの仕事もしています……それはAIとHPCのちょうど交差点です」とフェルドマン氏は言う。

米国では、エネルギー省の国立エネルギー技術研究所が脱炭素化の取り組みにセレブラス・システムを使用しているが、このチップはそのコンピューティング・スタックでAIをテストする口実を与えてくれる。

「私たちは彼らと、計算流体力学のための巨大なシミュレーションを行っています。しかし、私たちはこれをAI用に最適化したのです」とフェルドマン氏は述べた。

セレブラスはまた、自社チップの基盤となるソフトウェア・インフラを構築しようとして、多くのオープンソースの大規模言語モデルをリリースしている。Nvidiaも強力なソフトウェアの存在感を示しており、A100とH100 GPUでのみ利用可能な機能を活用できる独自のCUDAソフトウェアスタックの方向に、AIコードベースの多くが傾いている。 

ハードウェア面では、セレブラスは最近AI向けGPU「MI300X」を発表したAMDや、「Gaudi」と呼ばれるAIアクセラレーターを持つインテルからの挑戦にも直面している。これらのチップはいずれも大きな商業的売上を記録していない。

セレブラス・システムズは、セレブラス・システムズCS-2人工知能システムが2022年エディターズ・チョイス賞を受賞した。