世界のスーパーコンピュータとそれを動かす人々


9月 1, 2022

テスラ、GPU搭載のAIスーパーを増強 – 次は「Dojo」か?

HPCwire Japan

Tiffany Trader オリジナル記事

テスラ社は、昨年記事にした同社最大の社内AIスーパーコンピュータが、合計7,360個のA100 GPUを搭載し、以前の合計5,760個のGPUから約28%アップしたことを明らかにした。これは、Top500のトップ7に入るのに十分なGPUのパワーだ。しかし、電気自動車で有名なこのハイテク企業は、システムを公にベンチマークしていない。もし公表していれば、NERSCのPerlmutter(Nvidia A100 GPU 6,144個、Linpackペタフロップス70.87)、Nvidiaの自社製A100システムSelene(A100 GPU 4,480個、Linpackペタフロップス63.46)など、同様の性能を持つGPUベースのシステムが相手になっていたはずである。

SeleneのTop500投稿をプロキシとして使用すると、テスラ社の7,360GPUクラスタは、倍精度で約100Linpackペタフロップスが可能だと推測さ れるが、テスラ社は主に単精度および低精度のワークロード(FP32、FP16、bfloat16など)を実行していると予想される。

さらに大規模なAIスーパーコンピュータ – Meta/Facebookによる – の詳細が今年初めに発表さ れている。AI Research SuperCluster(RSC)は、今夏に完成すれば、16,000個のA100 GPUを採用し、倍精度で200ペタフロップス以上を実現する予定だ。

Tesla GPUのシステム公開は、昨年6月、第4回コンピュータビジョンとパターン認識の国際合同会議(CCVPR 2021)で、テスラ社のAI担当シニアディレクターであるアンドレイ・カルパシー氏からだった。「今、我々が作って使っているこの非常識なスーパーコンピュータについて、簡単に紹介したいと思っていました」 とカルパシー氏は語った。当時、システムは720ノードに及び、各ノードにはNvidia A100 GPU(80GBモデル)が8個搭載されており、合計5,760個のA100が搭載されていた。1ノードあたり8GPUの場合、さらに1,600GPUが投入され、200ノード、合計920ノードになる。

このアップグレードのニュースは、テスラ社のエンジニアリング・マネジャーであるテム・ザマン氏のツイートからもたらされたもので、間もなく開催されるMLSysConfのプロモーションの一部だった。テスラ社は、2022年8月29日から9月1日まで開催される同カンファレンスのスポンサーを務めている。また、同社は2022年9月30日に第2回目のAI Dayイベントを開催する。

テスラ社のGPUクラスターは、同社が2020年8月にテスラ社のCEOイーロン・マスク氏がツイートして以来、開発を進めてきた次期国産スーパーコンピューター「Dojo」へのプロローグとなるものだ。「テスラ社は、本当に膨大な動画データを処理するために、Dojoという(ニューラルネットワーク)トレーニングコンピュータを開発しています。それは猛獣です! …事実上のFP32で真に有用なエクサフロップなのです。」

 
  テスラ社のD1チップ。画像提供:テスラ社

Dojoのデザインは、昨年8月に開催されたテスラ社の初イベント「AI Day」で明らかにされ、システムとそれを構成するD1チップの詳細が表面化した。テスラ社は間もなく、Hot ChipsでDojoの追加のお茶をこぼす準備が整うかもしれない。この(すべてバーチャルの)イベントは、8月16日(日)にキックオフし、2022年8月23日(火)まで開催さ れる。テスラ社のプログラムは3枠あり、すべて火曜日に行われた。午前中は、テスラ社のハードウェアエンジニアであるエミール・タルペス氏が、「Dojo」と題したプレゼンテーションを行う予定だ。「The Microarchitecture of Tesla’s Exa-Scale Computer」、そしてテスラ社のDojo担当プリンシパルシステムエンジニア ビル・チャン氏が「Dojo – Super-Compute System Scaling for ML Training」と題して講演を行う予定だ。

その後、テスラ社のオートパイロットハードウェア担当シニアディレクターであるガネッシュ・ヴェンカタラマナン氏が、「Beyond Compute – Enabling AI through System Integration 」という基調講演を行なった。これはHot Chips 2022で紹介される2つの基調講演のうちの2つ目で、もう1つ(「Semiconductors Run the World」)は8月22日(月)にインテルCEOのパット・ゲルシンガー氏による講演が予定されている。

世界最速のAIスパコンを動かすために、いくつかの技術が競い合っている。市場をリードするNvidiaのGPUに加え、AMDのGPUは現在、世界最速(公開ランキング)のスパコン「Frontier」を動かしている。また、インテルは、将来のスーパーコンピュータ「Aurora」の主要エンジンであるGPU「Ponte Vecchio」のリリースに向けて取り組んでいる。カスタムチップも急成長している。Googleは第4世代のTPUを、MicrosoftはAIワークロードを実行するためのFPGAに投資し、AmazonはAI用のTrainiumとInferentiaチップを発表している。