Aurora、10,624枚のブレードを設置、エクサスケールシステムの完成間近
Oliver Peckham オリジナル記事

米国初のエクサスケール・スーパーコンピューター3台のうちの1台であるAuroraは、設置・運用まで一筋縄ではいかなかった。システムの納入は2021年から2022年にずれ込み、さらに2022年から2023年にずれ込んだ。そして今、ようやくトンネルの先に光が見えてきたようだ: インテルは、Auroraの10,624台のコンピュート・ブレードがすべてアルゴンヌ国立研究所に設置されたと発表した。
HPEが製造するAuroraスーパーコンピューターは、ピーク時で2エクサフロップスを超える計算能力を発揮する。(比較のため、オークリッジ国立研究所ですでに稼働しているFrontierシステムのピーク性能は、現在約1.68エクサフロップスである)。エクサスケール・スーパーコンピューターの動力源: 10,624ノード、各ノードには6基のインテルXeon MaxシリーズGPU(Ponte Vecchio)と2基のインテルXeon MaxシリーズCPU(HBM搭載のSapphire Rapids)が搭載されている。
![]() |
Auroraのレンダリング画像 |
インテルはまた、11月のTop500リストでAuroraをデビューさせる計画も確認したようだ。「今年後半、AuroraはTop500リストに載る際には、2エクサフロップス以上の理論ピーク性能を達成する見込みです…… 」と述べている。世界で唯一公に確認されているエクサスケールシステムFrontierは、ドイツのハンブルグで開催されたISC2022でデビューした。
Auroraのタイムラインの様々な時点で、新しいインテルの各コンポーネントが主要なボトルネックとなっており、同社は何年にもわたってタイムラインを何度も延期していた。おそらく最も劇的だったのは、Auroraは最初にサファイア・ラピッドCPUの非HBMバリアントが搭載され、その後、これらのCPUは取り除かれ、HBM搭載の「Maxシリーズ」バリアントと置き換えられたことだ。
波乱に満ちたプロセスにもかかわらず、インテルのリリースは明確だ。「64,744個のインテル…GPUマックス・シリーズと21,248個のインテルXeon CPUマックス・シリーズ・プロセッサー 」を搭載した10,624台のコンピュート・ブレードを完全に装備しているという。これらのブレードは、それぞれ64枚のブレードを搭載した166のラックに分散されており、それ自体がバスケットボールコート2面分の面積に広がっている。インテルは声明の中で、このプロセスの難しさを強調し、「70ポンドのブレードをAuroraの冷蔵庫サイズのラックに垂直に組み込むには、それぞれ専用の機械が必要で、繊細な作業です 」と述べている。
![]() |
Auroraの設置チーム 画像提供:アルゴンヌ国立研究所 |
「Auroraは、インテルのMaxシリーズGPUの最初の導入であり、最大のXeon Max CPUベースのシステムであり、世界最大のGPUクラスタです」と、インテルのコーポレート・バイス・プレジデント兼スーパーコンピューティング・グループ・ジェネラル・マネージャーのジェフ・マクビー氏は語った。「この歴史的なシステムの一員であることを誇りに思うと同時に、Auroraが実現する画期的なAI、科学、エンジニアリングに期待しています。」
(この発言の最初の部分は、どれだけ衒学的になりたいかにもよるが、厳密には真実ではないかもしれない: アルゴンヌのAurora用テストベッド・システムであるSunspotは、数ヶ月前から同じ技術を使っている)
Sunspotについて言えば、インテルはまた、ユーザーがワークロードをテストベッドシステムから完全なAuroraシステムに移行することを間もなく開始することを確認した。Auroraでの研究は数え切れないほどの領域に及ぶだろうが、インテルは、最近多くのスーパーコンピューター発表の中心となっていると思われる3つの領域、気候モデリング、創薬、生成系AIを強調した。アルゴンヌはもちろん、気候や生命科学の問題にスーパーコンピューティングを応用することに強いバックグラウンドを持っている。ISC2023で、同研究所はAuroraを生成AIタスクに使用する計画を発表した: 具体的には、AuroraGPTと呼ばれる科学計算のための大規模言語モデルで、1兆個のパラメータに支えられ、様々な種類の科学データで訓練される。
アルゴンヌ研究所のリック・スティーブンス副所長は、「受け入れテストに取り組む一方で、Auroraを使って、科学用の大規模なオープンソースの生成系AIモデルを訓練する予定です。Auroraは、60,000以上のIntel Max GPU、非常に高速なI/Oシステム、全固体大容量ストレージシステムを備えており、これらのモデルを訓練するのに最適な環境です」と述べている。
Auroraの道のりはまだ長い: 「受け入れテストに向けた作業」には多くの追加ステップが含まれ、さらに受け入れテスト自体も、このようなシステムには非常に長い時間がかかる; Frontierが検収されたのは、登場から約7カ月後のことだった。
とはいえ、Auroraの活躍を見るのが待ち遠しい。
ヘッダー画像:設置チームのメンバーが最後のブレードを専用の台車に乗せて運んでいる 画像提供:アルゴンヌ国立研究所