世界のスーパーコンピュータとそれを動かす人々


7月 14, 2021

『Dojo』に先駆けて、Tesla社が巨大なスーパーコンピュータ『Precursor』を公開

HPCwire Japan

Oliver Peckham

2019年春、Tesla社は映像データ処理のための「超強力なトレーニングコンピュータ」である「Dojo」というプロジェクトについて、暗号のような言及をした。そして2020年夏、Tesla社のCEOであるElon Muskがツイートした。「Teslaは、本当に膨大な量のビデオデータを処理するために、”Dojo”という(ニューラルネットワーク)トレーニングコンピュータを開発しています。それは野獣のようなものです。…事実上FP32で使える本当のエクサフロップです。」 2021年夏へようこそ – 毎年恒例のDojoアップデートの時間です。

Tesla社は、Dojoの詳細を明らかにする代わりに、世界で5番目に強力なスーパーコンピュータとなる可能性があると推定される前駆的なクラスタを公開することにした。

 
  新たに公開されたTesla社のクラスタ。画像提供:Karpathy/Tesla
   

さりげなく公開されたのは、テスラのAI担当シニアディレクターであるAndrej Karpathyが「4th International Joint Conference on Computer Vision and Pattern Recognition(CCVPR 2021)」で行った講演の中でのことだ。Karpathyは、「私たちが現在構築して使用している、この非常に優れたスーパーコンピュータを簡単に紹介したいと思います。」と語った。Karpathyが説明したように、このクラスタ(名前があるかどうかは不明)は720ノードあり、それぞれにNvidiaのA100 GPU(80GBモデル)が8個ずつ搭載されており、システム全体で5,760個のA100が使用されている。さらに、10ペタバイトの 「ホットティア 」NVMeストレージを搭載し、1秒間に1.6テラバイトの転送速度を実現している。Karpathyは、この「非常に高速なストレージ」が「世界最速のファイルシステムの一つ」を構成していると述べている。

Karpathyは、「これは巨大なスーパーコンピュータであり、フロップス(演算処理能力)という点では、世界のスーパーコンピュータの中でおよそ5位だと思います。」と述べている。

このKarpathyの驚くべき主張を裏付けるように、フロップスの計算結果が出ている。Nvidiaのマーケティング資料によると、A100は1台あたり9.7テラフロップスのピーク性能を持っているが、スーパーコンピュータ「Selene」などのシステムのベンチマークでは、8台のA100ノードがそれぞれ約113.3 Linpackテラフロップスを実現してる(GPUあたり約14.2リンパックテラフロップス、付随するプロセッサを含む)。8台のA100ノードを720個並べると、約81.6 Linpackペタフロップスとなり、前述のNvidia社が運営するSeleneシステムの63.5 Linpackペタフロップスを大きく上回り、最新のTop500リストで5位にランクインすることとなる。Top500には、企業秘密のためにTeslaのような企業のシステムは含まれていないことが多く、このリストはISC21で更新される。

このクラスタ、そして最終的には「Dojo」は、Tesla社が熱狂的に推進している次世代の車両自動化、すなわち完全自動運転(FSD)車両のために導入されている。Karpathyは講演の中で、電気自動車の巨大企業がFSDを目指す理由と、新しいクラスタを含むクラスタがどのようにその野望に貢献しているかを語った。

Karpathyは、最初のスライドの中でも特に印象的なものを紹介した。それは、写真写りの悪い脳がズームする車の運転席に置かれており、そこには、人間は「時速80マイルで1トンの物体を扱うタイトな制御ループ」の中で「250ミリ秒の反応遅延時間」を持つ肉コンピュータであるという統計データが添えられていた。Tesla社にとってFSDとは、その鈍重なコンピュータ(Karpathyは、詩を書くことはできても、道路の車線の中にいることができないことが多いと指摘している)を、より速く、より安全なものに置き換えることである。

しかし、カメラやLiDAR(光による検知と測距)が搭載されていても、道路を理解するためにコンピュータを訓練することは難しく、無数の偶発的な状況や奇妙なシナリオが、従来の方法で周囲の状況を処理する能力を妨げている。その一例として、Karpathyは、トラックが埃や瓦礫を巻き上げてカメラが見えなくなり、数秒間目が見えなくなる様子を紹介した。

 
クラスタに設置されたネットワークスイッチ。画像提供:Karpathy/Tesla  
   

このような障害に対処できるシステムを訓練するために、Tesla社はまず山のようなデータを収集している。Karpathyは、「私たちにとってコンピュータビジョンは、自動運転を実現するための基本中の基本です。そのためには膨大なデータセットが必要であり、それをフリートから得ています。」と述べている。確かにデータは膨大だ。サンプルのTeslasに搭載された8台のカメラは、それぞれ毎秒36フレームで動作しており、「非常に多様なシナリオ」を撮影している。これらの動画には、60億個のオブジェクトラベル(正確な奥行きと速度のデータを含む)が含まれており、合計で1.5ペタバイトになる。

「大規模なニューラルネットを学習させ、多くの実験を行う必要があります。」とKarpathyは言う。「このニューラルネットワークをトレーニングするには、先ほど述べたように、1.5ペタバイトのデータセットであるため、膨大な量の計算が必要になります。」そのため、Teslaはこの機能に「多くの投資」を行ったと言う。特に、今回発表されたクラスタは、前述の「信じられないほど高速なストレージ」と、ノード間での分散学習を可能にする「非常に効率的なファブリック」によって、動画の高速転送と処理に最適化されていると、Karpathyは説明している。

一方、「Dojo」はまだ発表されていない。Karpathyは、「我々は現在、Project Dojo に取り組んでおり、これにより次のレベルに進むことができます。しかし、今はまだその詳細を明かすことはできません。」謎に包まれた近日公開予定のシステムについては、エクサフロップの目標値に言及したMuskの数回のツイート以外にはほとんど知られていない。「DojoはGPUクラスタではなく、ニューラルネットのトレーニングに最適化された独自のチップ(とコンピュータアーキテクチャ)を使用しています。」と主張しており、「バグが解消されれば」Dojoはモデルトレーニング用のWebサービスとして利用できるようになると伝えている

Muskは「間違っているかもしれないが、世界最高のものになると思う」とツイートしている

しかし今のところ、TeslaはHPCに大きな賭けをしていること、そしてその賭けはますます大きくなっていることを世界に知らしめることに満足している。Karpathyは、HPCチームが「大きく成長している」と述べ、自動運転車へのHPCアプリケーションに興味を持った聴衆に、ぜひ声をかけてほしいと呼びかけた。