世界のスーパーコンピュータとそれを動かす人々


8月 28, 2023

AWS、AIスーパーコンピューティングクラスターに最大20,000個のNvidia GPUを搭載

HPCwire Japan

Agam Shah オリジナル記事

クラウドにおけるAIスーパーコンピューティングの選択肢は、ここ数週間でかつてないスピードで拡大している。

Amazonは、Nvidia H100 GPU上で動作するEC2 P5仮想マシンインスタンスをAWSで発表し、パーティに加わった。

P5インスタンスは、UltraScaleと呼ばれるGPUクラスタに結合することができ、最大20エクサフロップスの総合性能を提供する。

顧客は、各UltraScaleクラスタで最大20,000個のH100 GPUを拡張できる。ユーザーは、数十億または数兆のパラメータにスケーリングされたMLモデルを展開することができます。

AWSのデータベース、アナリティクス、機械学習担当バイスプレジデントであるスワミ・シヴァスブラマニアン氏は、ニューヨークで開催されたAWSサミットの基調講演で、P5インスタンスは大規模言語モデルの学習において最大6倍高速で、Nvidiaの前世代GPUであるA100をベースとしたEC2のP4モデルと比較して、学習コストを40%削減できると述べた。

「このような大規模な言語モデルをトレーニングする場合、数千億、数兆という膨大なパラメータが必要になるため、モデル全体を一度にメモリに収めることができず、トレーニングもできません」、AWSのプロダクト担当バイスプレジデントであるマット・ウッド氏は、ニューヨークで開催されたAWSサミットで次のように語った。

Googleは今年初め、最大26,000個のNvidia H100 GPUをホストできるA3スーパーコンピューターを発表した。セレブラス社は先週、中東のITインフラ企業G42を通じてAIスーパーコンピューターをクラウドに展開すると発表した。

AWSは、P5インスタンスにこれまでで最速のインターコネクトを導入した。インスタンス間の帯域幅は3200Gbpsで、学習プロセス中の重みの同期を極めて高速に行うことができる。

「Nvidiaのチップに加えて、我々はAWSで、この非常に高速な帯域幅を可能にするネットワーク・ファブリックについて、バックグラウンドで多くの作業を行ってきており、 これはコンピューティングを可能な限り高速化する鍵の一部です」。とウッド氏は言う。

Bloombergのような企業は、AWS上で独自の大規模言語モデルを作成している。また、AWSのリソースと既存のLLMを利用して、カスタムの機械学習アプリケーションを作成している企業もある。

AWSは、顧客が機械学習を導入するためのツールやミドルウェアに対して、多様なアプローチを取っている。

今年初め、同社はBedrockを発表した。Bedrockは、企業が大規模な言語モデルを試したり構築したりできる、クラウドベースの遊び場のようなものだ。Bedrockは、今月初めに発表されたMetaのLlama 2を含む多くの大規模言語モデルをホストしている。

 
  Nvidia H100ダイ
   

サミットでは、AWSはAnthropicのClaude 2.0チャットボットモデルをBedrockで利用可能にすることも発表した。Bedrockは、顧客がテキストを入力して画像を生成できるStable Diffusion XL 1.0もサポートする。

AmazonのAIへのアプローチは、検索や生産性アプリケーションに統合されている独自のモデルを持っているGoogleやMicrosoftと比較すると異なっている。 

Amazonはその代わりに、顧客が最適なオプションを選択できるように、トランスフォーマーモデルの網羅的なリストを提供しようとしている。

Amazonはまた、エージェントと呼ばれる一連のツールを紹介した。これは、基礎モデルを外部のデータソースに接続し、顧客によりパーソナライズされた回答を提供するものだ。データはAWSや他のホストに保存することができ、APIを介して接続することができる。

例えば、エージェントは、顧客の金融に関する質問に答えるために、個人のバンキング習慣をLLMに接続するのを助けることができる。

AWSの生成AI担当バイスプレジデントであるヴァシ・フィロミン氏はHPCwireに対し、「顧客が最新のデータに対応したエージェントを非常に迅速に起動できるようにすることは、実世界のアプリケーションにとって重要です」と語っている。

今日の話題のほとんどはモデルの種類に関するものですが、将来的にはそうではないかもしれない。

「モデルは差別化要因にはならないと思います。差別化できるのは、モデルを使って何ができるかだと思います。私にとってエージェントは、そのモデルを使って正しいことをするための第一歩なん です」とフィロミン氏は語った。