ゼタスケールは忘れろ、エクサスケール・スーパーコンピュータのスケーリングでトラブル発生中
Agam Shah オリジナル記事「Forget Zettascale, Trouble is Brewing in Scaling Exascale Supercomputers」

2021年、インテルは2027年までにゼタスケールのスーパーコンピューティングを実現する、つまり現在のエクサスケールコンピュータを1,000倍にスケールアップするという目標を宣言したのは有名な話だ。
2023年に向けて、デンバーで開催されている「Supercomputing 2023」会議では、エクサフロップスの範囲内でも性能をスケールアップすることが課題であると出席者は述べている。
CPU-GPUアーキテクチャへの移行は性能のスケールアップに役立っているが、アーキテクチャ上の制限や持続可能性の問題など、その他の懸念事項が性能のスケールアップを困難にしているとTop500の関係者は述べた。
実際、現在のペースでは、スーパーコンピュータの性能は2030年までに10エクサフロップスに達しないかもしれない。また、新たなエクサスケールシステムがTop500リストに入ったにもかかわらず、ここ数年、性能の伸びは落ちている。
Top500の共同設立者であるエリック・ストロマイヤー氏は記者会見で、「コンピューティングへの取り組み方を変えない限り、将来の成長はこれまでよりも大幅に小さくなる可能性がある」と述べた。
デナード・スケーリングとムーアの法則という2つの基本的な定理が終わったことで、性能のスケーリングに課題が生じた。
「ムーアの法則の終焉が近づいていることは間違いありません」と、シュトロマイヤー氏は語った。
Top500に登録されたシステムの数は、2017年以降、徐々に減少している。システムの平均性能もここ数年低下している。
この鈍化は、アーキテクチャ上の制限や持続可能性の問題により、システム規模を大きくできないことにも関係している。
「私たちのデータセンターは、今以上に大きくすることはできません。だから、CPUソケットの数を増やすことができないのです」とストロマイヤー氏は言う。
光I/Oは、ゼタスケールに到達するための技術として認識されている。しかし、米エネルギー省(DoE)の関係者は、光I/Oはマザーボードレベルで短距離の回路を接続するために必要なコストとエネルギーを要するため、ロードマップにはないと述べている。それに比べ、銅は安価で豊富だ。
平均的な HPC システムの寿命も長くなっている。Top500システムの平均寿命は2018-2019年には約15ヶ月で、2023年には倍の30ヶ月になる。
![]() |
SC 23 Top500 平均システム寿命 |
11月のTop500リストの上位7システムは、残りの493システムと同程度のパフォーマンスを持っている。今後登場するシステムではさらに大きな格差が生じ、上位10システムの性能比率はさらに高くなるだろう。
同時に、エキサイティングな新しいエクサスケール・マシンもTop500リストに登場するだろう。複数のスーパーコンピュータがオンラインになり、より高速に動作するように最適化されるため、上位には多くの変動が生じる可能性がある。
今年のAuroraと来年のEl Capitanの2つの新システムが、今後数年間でTop500の上位を占める可能性がある。これらのシステムは2エクサフロップスまでスケールする予定である。
先月発表されたスーパーコンピューティング・リストTop500の首位に変動はなく、オークリッジ国立研究所のFrontierが首位を維持した。同システムは、ピーク性能1.1エクサフロップスを達成し、リスト上で唯一のエクサスケールシステムとなった。
米国エネルギー省のエクサスケール・コンピューティング・プロジェクトのプロジェクト・ディレクターであるロリ・ディアチン氏は、「このマシンは今、本当に安定しており、非常に優れた性能を発揮しています」と言う。
しかしFrontierは、アルゴンヌ国立研究所に設置された2番目に高速なシステムAuroraにすぐに取って代わられる可能性がある。このシステムは585.34ペタフロップスの性能を発揮し、部分的にベンチマークが実施されている。このシステムには、サファイア・ラピッズCPUと呼ばれるインテル第4世代Xeonサーバーチップと、Ponte Vecchioと呼ばれるデータセンターGPUマックスチップが搭載されている。
Top500の共同設立者であるエリック・ストロマイヤー氏は、「アルゴンヌは、システム・サイズの半分のベンチマークを提出しました」と述べている。
「Frontierがずっと1位でいられるかどうかは疑問です」とストローマイヤー氏。
ディアチン氏のチームは7月からこのシステムに限定的にアクセスしているが、素晴らしいパフォーマンスを見ている。
「できれば今月末に、このシステムにフルアクセスできるようになるのを心待ちにしています」とディアチン氏は語った。
第3のエクサスケール・スーパーコンピューター、El Capitanは、ローレンス・リバモア国立研究所に2024年半ばから後半にかけて導入される予定だ。
このベンチマークが発表されれば、このシステムはTop500のトップに躍り出るだろうが、それがいつになるかはわからない。
「このマシンは、NSAのストックパイル・スチュワードシップのために機密使用される前に、短期間の初期科学期間が設けられるでしょう」とディアチン氏は言う。
さらに、多くのトップ500クラスのエクサフロップ・システムが、特に結果を提出することに煩わされていないベンダーのクラウド施設に、平然と存在している可能性がある。GoogleのA3スーパーコンピューターは、最大26,000個のエヌビディアH100 GPUを搭載できるが、結果は提出されていない。
しかし、マイクロソフトのAzure AIスーパーコンピューター「Eagle」が予想に反して今年のTop500の3位にランクインし、エヌビディアのベアメタルEosは9位だった。
過去の貢献者である中国は、地図上から姿を消し、Top500に結果を提出していない。ゴードン・ベル賞には中国のエクサスケールシステムが応募されているが、このシステムの性能はTop500には提出されていない。
DoEのディアチン氏は、生の馬力だけでなく、現在のハードウェアの制限の中で性能を拡張する新しい方法も試みている。
そのようなアイデアのひとつは、混合精度と加速コンピューティングの幅広い実装を使用することである。また、DoEは、大規模なマルチフィジックス・モデルにAIを組み込み、それを古典的なコンピューティングに包含することで、より高速な結果を得ることも検討している。
「われわれの観点からすると、われわれが本当に目指していることのひとつは、こうしたアルゴリズムの改善と、電力フットプリントを管理可能な範囲に保ちながらアプリケーションを高速化するために、こうした種類の技術を幅広く取り入れることなのです」とディアチン氏は言う。
また、多くの研究所では、Fortran77のような言語で書かれた古いコードを見直し、加速コンピューティング環境用に書き換えて再コンパイルしている。
このアプローチは、「異なる種類のハードウェアに特有なレイヤーを抽出し、より少ない作業でより性能の移植性を高めることを可能にすることで、これらのコードの多くに将来性を持たせることができます」と、ディアチン氏は言う。
ハードウェアとアルゴリズムの改善により、性能は主に200倍から300倍の範囲で改善され、「数1000倍の改善もあった」とディアチン氏は述べた。
研究室では通常、デバッグ、ランタイム、数学、可視化、圧縮ツールからなるE4S(Extreme-scale Scientific Software)に依存している。E4Sには115以上のパッケージがあり、学術機関、科学団体、その他の米国政府機関に提供されている。
![]() |
SC23 Top500リストのハイライト |