9月 2, 2021

Dojo登場：テスラ、モジュール型スパコンとD1チップのデザインを公開

HPCwire Japan

Oliver Peckham

2ヶ月前、Tesla社は、「世界でおよそ5番目のスーパーコンピュータ」と称する巨大なGPUクラスタを公開したが、これはTesla社の真のスーパーコンピュータのムーンショットの前触れであった：長い間噂になっていたが、ほとんど詳細が明らかになっていない「Dojoシステム」だ。Tesla社の自動運転エンジニアリングディレクターであるMilan Kovacは、「当社はここ数年、ニューラルネットワークのトレーニング用コンピュータの規模を劇的に拡大してきました。」と述べている。「今日では、1万台のGPUに届くかどうかというところまで来ています。しかし、それだけでは十分ではありません。」

Tesla社のAI Dayイベントにおいて、構成するD1チップのデザインとともに公開された「Dojo」の登場である。

Dojoの夢

Tesla社の自動運転ハードウェア担当シニアディレクターであるGanesh Venkataramananは、「ニューラルネットワークのトレーニングには、容量だけでなくスピードも求められています。」と述べている。　数年前、TeslaのCEO兼共同創業者であるElon Muskは、Venkataramananのチームに “超高速 “トレーニングコンピュータの開発を依頼した。その目的は、最高のAIトレーニング性能を実現し、より大規模で複雑なニューラルネットモデルを可能にし、電力効率とコスト効率の両方を達成することだった。

Venkataramananは、「Dojoでは、非常に堅牢な演算素子を搭載した大規模なコンピュートプレーンに大容量のメモリを搭載し、非常に高い帯域幅と低レイテンシのファブリックで相互接続することを想定しました。私たちは、スタックの上から下までのすべてに着手し、これらのどのレベルでもすべてのボトルネックを取り除きたいと考えました。」と述べている。

D1チップとトレーニングタイル


	Tesla社のD1チップ。画像提供：Tesla社

前述の先駆けのクラスタでは、アクセラレータにNvidia社のA100 GPUが主に使用されていた。しかし、「Dojo」ではそうではない。「Dojo」は、ほぼすべてがTeslaのユニークなD1チップで構成されている。D1は、FP32、BFP16（別名bfloat16またはbrain浮動小数点）、そしてCFP8（”コンフィギュラブルFP8”）と呼ばれる新しいフォーマットをサポートしているとVenkataramananは言う。機械学習のワークロードに最適化されたD1（354個の “トレーニングノード “から構成されている）は、7nmプロセスで製造され、わずか645平方ミリメートルのサイズに500億個のトランジスタを搭載している。Venkataramananは、Teslaの社内エンジニアが完全に設計したこのチップについて、「ダークシリコンもレガシーサポートもありません。これは純粋な機械学習マシンです。このチップは、CPUレベルの柔軟性を備えたGPUレベルのコンピュートを備えています。」と述べている。


25個のD1チップを搭載した統合型トレーニングタイル。画像提供：Tesla社

Tesla社は、ハードウェア全体のモジュール性を重視している。D1は、横方向の各エッジに4TBpsのオフチップ帯域幅を備えており、4つのエッジすべてにコネクタが装備されているため、速度を犠牲にすることなく他のD1チップと接続して拡張することができる。

次のステップアップは、Teslaの「トレーニングタイル」だ。これは、D1チップを25個搭載した1立方フィートにも満たない大きさのくさびである。このトレーニングタイルは、D1チップと同様にモジュール化されており、電源と冷却はタイルの上部から行われ、タイルの4つの側面には最大の帯域幅（タイル外の帯域幅は合計36TB/s）に対応した高出力コネクタが装備されている。

「Dojo」

Venkataramananは、「ここまで来れば、当社のモジュール化がかなり進んでいることがお分かりいただけると思います。我々はただタイルを組み合わせただけです。タイルを組み合わせただけなんです！」と言う。354個のトレーニングノードで1つのD1チップが構成され、25個のD1でトレーニングタイルが構成され、6個のトレーニングタイル（2×3）で “トレーニングマトリックス “と呼ばれるトレイが構成され、2個のトレイでキャビネットが構成され、さらに10個のキャビネットでVenkataramananが “ExaPOD “と呼ぶ、均一な帯域幅を持つ巨大な機械学習マシンが構成されている。(「Dojo」に何台のExaPODが搭載されるかは不明)

ExaPODの詳細。画像提供：Tesla社

1個のD1チップで22.6テラフロップスのFP32性能を提供し、1個のトレーニングタイルで565テラフロップス、12個のタイルを格納する1個のキャビネットで6.78ペタフロップスとなり、1台のExaPODだけで最大67.8 FP32ペタフロップスの理論性能を発揮することになる。(Tesla社は、BFP16とCFP8の性能を提供することを希望しており、その基準では、ExaPODは1.1エクサフロップスとなる。) Venkataramananによると、これらの性能はすべて、高性能なコンパイラによって利用可能になる。コンパイラは、人間が関与せずに自動的に動作し、研究者が開始する際の労力は最小限で済む。

「これこそが、”Dojo “が目指すものです。」とVenkataramananは語る。「最速のAIトレーニングコンピュータになるのです。」

しかし「Dojoは」まだ到着していない。実際、Venkataramananによると、機能的なトレーニング用タイルの1枚目が到着したのは前週のことだった。次はキャビネットを（もうすぐ）作るとのことだ。

「そして」とVenkataramananは続けた。「まだ終わっていません。Teslaでは、次世代の計画がすでに全部できています。」と、次の10倍の性能を見据えている。

さらに詳しく

「Dojo」」に先駆けて、Teslaが大規模なプリカーサースーパーコンピュータを公開

順位	機関名	システム名	ピーク性能(TFLOPS)
1	理化学研究所	富岳	537,212
2	東京工業大学	TSUBAME 4.0	59,400
3	産業技術総合研究所	ABCI 2.0	54,341
4	東京大学	Wisteria/BDEC-01	25,952
5	東北大学	AOBA-S	19,818
6	宇宙航空研究開発機構	TOKI-SORA	19,464
7	気象庁	PRIMEHPC FX1000	15,571
8	気象庁	PRIMEHPC FX1000	15,571
9	海洋研究開発機構	地球シミュレータ	13,448
10	匿名	Apollo 6500	9,669

eNewsletter

検索

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

Dojo登場：テスラ、モジュール型スパコンとD1チップのデザインを公開

調達情報

ニュース記事

お知らせ

特別イベント

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

【東京大学】第55回ASE研究会「機械学習とシミュレーション：理論と応用」

第199回ハイパフォーマンスコンピューティング研究発表会

【東京大学】第56回ASE研究会：「計算・データ・学習」融合とその先にあるもの（その２）

International Symposium on Highly Efficient Accelerators and Reconfigurable Technologies (HEART)

HotSPA2025 (Hot SPring Annual meeting 2025) IEICE-CPSY/DC/RECONF, IPSJ-ARC 合同研究会

International Symposium on Computer Architecture (ISCA 2025)

xSIG 2025

CBI学会2025年大会

寄稿者

HPCwire Japan

E-Marketings, Inc.

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

Dojo登場：テスラ、モジュール型スパコンとD1チップのデザインを公開

調達情報

ニュース記事

ホットな話題

お知らせ

特別イベント

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

寄稿者

HPCwire Japan

E-Marketings, Inc.