El Capitanを徹底解剖:数字に表れない事実
Agam Shah オリジナル記事「An Inside Look at El Capitan: Facts Beyond the Numbers」
Top500は、El Capitanを世界最速のスーパーコンピュータとして認定した。ピーク時の速度は1.72エクサフロップスで、これはLLNLのSierraの前モデルよりも約20倍高速である。
El Capitanは当面、対抗馬が現れる気配もないため、しばらくトップの座を維持する可能性がある。このシステムは2019年にLLNLとNNSAによって初めて発表され、その費用は6億ドルと見積もられていた。
以下に、この新しいスーパーコンピュータに関する興味深い事実をいくつか紹介する。
数字で見る
LLNLはウェブサイト上で、El Capitanは「毎秒2エクサフロップス以上の性能を発揮できる」と述べている。しかし、その数値には達していない。
理論上のピークは2.74エクサフロップスで、実際の1.72エクサフロップスは約60パーセントの効率に相当する。これは他のスーパーコンピュータと一致する。
「実環境での効率をさらに改善するために、HPLをもう1回実行する可能性もあります」と、LLNLの最高技術責任者であるブロニス・デ・スピーンスキー氏は記者会見で述べた。
「システムを購入した目的がそれではない」ため、同研究所ではLinpackのパフォーマンスの最適化に多くの時間を費やすつもりはないとデ・スピーンスキー氏は述べた。
このシステムは、2位のFrontierを390ペタフロップスという圧倒的な差で上回っている。世界で8番目に高速なスーパーコンピュータであるLumiのピーク性能は379.70ペタフロップスである。
さらに、El Capitanと同じサーバールームには、208.10ペタフロップスを記録し、世界で10番目に高速なコンピュータであるTuolumneという兄弟機がある。
どのように使用されるか
NNSAは、核兵器備蓄の管理と近代化にスーパーコンピュータ「El Capitan」を使用する。また、核兵器の安全性のシミュレーションにも使用される。
「このスーパーコンピュータは、米国の核抑止力を強力に維持するために不可欠です」と、ブリーフィングの席で、米国核安全保障局(NNSA)の首席副局長代理を務めるコリー・ヒンダースタイン氏は述べた。
「この能力により、核兵器の性能、経年劣化の影響、安全性のモデリングと予測能力が大幅に向上します」と、ヒンダースタイン氏は付け加えた。
また、この能力は他の注目度の高い科学プロジェクトにも活用される予定である。
Tuolumneスーパーコンピュータは、オープンサイエンスのために研究者に提供される予定である。
パンデミック、課題、そして遅延
スーパーコンピュータは概ね予定通りに開発されたが、2019年に発表された後の混乱に対処することとなった。
パンデミックにより、LLNLの発表者によると、購入と開発のプロセスが遅れたと説明された。
技術の急激な変化も課題となった。
当時、LLNL、HPE、AMDは、CPUとGPUを統合したAMDのMI300Aという新しいチップ設計に取り組んでいた。
「真のイノベーションを実現するには時間がかかります」とデ・スピーンスキー氏は述べた。
システムの規模を考えると、テストもまた課題であった。LLNLは、ベンダーがこの規模のシステムをテストする能力を持っていなかったため、自社でハードウェアのテストを行う必要があった。
ハードウェア
AMD MI300A(出典:AMD) | |
LLNLは、エヌビディアのGPUよりもコストパフォーマンスに優れているとして、間接的にAMDのハードウェアを推奨した。
「El Capitanは、これまでに導入されたどのシステムよりもコストパフォーマンスに優れている。」とデ・スピーンスキー氏は述べた。
El Capitanの主要チップはAMDのMI300A APUで、CPUとGPUが1つのパッケージに統合されている。このシステムには、44,544個のMI300A APUを搭載した11,136ノードがあり、共有メモリを備えている。
「これにより、これらの演算要素が同じ物理メモリを使用できるようになり、プログラミングと最適化が大幅に簡素化されます」とデ・スピーンスキー氏は述べた。
このシステムはHPEが構築したもので、HPEはSlingshot-11ネットワークファブリックで相互接続されたキャビネットに演算ブレードを搭載した。
AIでは劣る
El Capitanは、AIにより最適化された混合精度HPL-MxPベンチマークでは、第3位のスーパーコンピュータであるインテルのAuroraに及ばなかった。
「私たちは主にモデリングとシミュレーションのプラットフォームとしてこのマシンを購入しました」と、LLNLの副所長であるロブ・ニーリー氏は述べた。
しかし、LLNLは落胆していない。
「優れたAIシステムであることは、おまけのようなものです」と、ニーリー氏は付け加えた。「そのミッションのために最適化を続ける作業はあります」
すでに次のエクサフロップシステムを発注済み
NNSAはすでに、El Capitanシステムのアップグレードの取得に取り組んでいる。
「ゼタフロップになるとは言えないでしょう」と、NNSAの先進シミュレーションおよびコンピューティングプログラム担当ディレクターのトゥック・ホアン氏は述べた。
LLNLの次世代スーパーコンピュータのコードネームはATS-6である。NNSAは、このシステムが2030年までに稼働するよう指導している。
ホアン氏によると、米国エネルギー省のエクサスケールシステム(ATS-5)の次の調達文書はすでに作成されているという。このシステムは、ロスアラモス国立研究所に設置されている30ペタフロップのスーパーコンピュータ「Crossroads」に取って代わるもので、Crossroadsは2027年まで使用される予定である。
「私たちは、ただ楽しみや苦痛のために大規模なシステムに取り組んでいるわけではありません」とホアン氏は言う。
古いものは捨て、新しいものを取り入れる
スーパーコンピュータは、新しいタイプのコンピューティングオプションにより、根本的な変化を遂げている。LLNLが次に導入するスーパーコンピュータには、その変化が反映されるだろうとデ・スピーンスキー氏は言う。
「私たちが考えているのは、システムをより生産的に活用する方法です」とデ・スピーンスキー氏は言う。
「現在のアーキテクチャでは、全体的なワークフローや作業負荷の特定の側面が十分にカバーされていない」とデ・スピーンスキー氏は付け加えた。「私たちは、より多様なノードタイプを備えたシステムの展開を検討しているところです。」
新しいシステムには、永続的なクラウドノードやその他のAIアクセラレータが含まれる可能性がある。LLNLは、マザーボードを最小限のハードウェアにまで取り除いたOxide Computerのオンプレミスクラウドコンピューターを導入している。
LLNLは、すでに市場に出回っているハードウェアを使用して、AI向けに高度に最適化されたシステムの一部を構想しているとデ・スピーンスキー氏は述べた。
同研究所では、すでにグロッグ社とセレブラス社のAIハードウェアを試験的に使用している。
GPUは汎用性が高く汎用的な性質を持つため、今後も消えることはないだろうとデ・スピーンスキー氏は述べた。GPUはAIシステムで使用される基礎データを生成する高精度コンピューティングを推進する。
ソフトウェアは問題ではない
El CapitanはAMDのROCm 6.0並列プログラミングフレームワークを使用しており、Intelの数学ライブラリがサポートしている。
AMDは、独自のCUDAフレームワークで開発されたソフトウェアパッケージを提供するNvidiaに遅れをとっており、プログラミングツールで知られているわけではない。
しかし、LLNLによると、ROCmはEl Capitanにうまく機能した。ROCmは記者会見の主要なテーマではなかったし、LLNLの評価は必ずしも全面的な支持というわけではなかった。
真の勝者はRAJAだった。RAJAはC++の抽象化を目的とした自社開発ライブラリであり、El Capitanのパフォーマンスを向上させた。
LLNLはすでに以前のハードウェアにRajaツールスイートを統合しており、アプリケーション領域における計算性能の把握に役立った。
「必ずしも一貫性を強制するわけではないので、今でもOpenMPやHIP、その他のものを使っている人もいます。」ブリーフィングでは、「コードチームが特定のプロジェクトで何を行っているかに基づいて選択できるようにしています」とNNSAのプログラム担当副部長であるテレサ・ベイリー氏は述べた。