TOP500: Aurora、エクサスケールに参入するもHPCのFrontierには届かず
Kevin Jackson オリジナル記事「Top 500: Aurora Breaks into Exascale, but Can’t Get to the Frontier of HPC」
ドイツのハンブルグで開催さ れているISC2024のキックオフに合わせて、TOP500の第63回が発表された。今回も、米国テネシー州にあるオークリッジ国立研究所のFrontierシステムが、HPLスコア1.206エクサフロップスで、リスト上で最も強力なマシンの座を維持している。
しかし、この新しいリストでは、もはやFrontierだけがエクサスケールマシンではないことも示されている。
米国イリノイ州にあるアルゴンヌ・リーダーシップ・コンピューティング・ファシリティのAuroraマシンは、引き続きTOP500リストの2位を占めている。同システムは、HPLスコアを従来の585.34ペタフロップスから1.012エクサフロップスにほぼ倍増させている。
2024年6月のTOP500結果(出典:Top500.org) |
スイスの国立スーパーコンピューティング・センター(CSCS)の新型マシン「Alps」が加わった以外は、トップ10に大きな変動はなかった。このシステムはランキング6位に初登場し、270ペタフロップスのHPLスコアを達成した。
このようにリストの上位に変化がないのは、TOP500でテストされる新しい強力なマシンが減速していることを示している。リストの分析によると、トップ20のシステムの20%が5年以上前のものである。
GREEN500
TOP500とは異なり、GREEN500では、TOP3にランクインしたマシンがすべて新型であったため、最新のリストでは大きな変動があった。
1位を獲得したのは、ドイツのEuroHPC.FZJの新システムJUPITER Exascale Development Instrument (JEDI)だった。このマシンはTOP500で190位を獲得し、エネルギー効率72.73ギガフロップス/ワット、HPLスコア7.42ペタフロップスでGREEN500で首位を獲得した。
2位は、英国ブリストル大学のIsambard-AIシステムで、エネルギー効率は68.83ギガフロップス/ワット、HPLスコアは19.14ペタフロップスである。3位はポーランドのCyfronet社のHeliosシステムで、エネルギー効率は66.95ギガフロップス/ワット、HPLスコアは19.14ペタフロップスだった。
しかし、これまでのリストと同様、Frontierのエネルギー効率性能は称賛に値するほど素晴らしいものであった。Frontierが1.206エクサフロップスというHPLスコアでTOP500の首位を獲得したことは十分に印象的だが、このシステムは56.97ギガフロップス/ワットというエネルギー効率評価も獲得しており、FrontierはGREEN500の11位にランクインした。
Auroraは、前回のHPLスコアの約2倍を記録し、正式に2番目のエクサスケールマシンとなったが、AuroraはFrontierのエネルギー効率には及ばなかった。同システムは、26.15ギガフロップス/ワットのエネルギー効率スコアでGREEN500の41位を獲得した。
FrontierとAuroraのエネルギー効率の比較
FrontierとAuroraのエネルギー効率の差は非常に興味深く、さらなる調査に値する。具体的には、FrontierはAuroraよりも全体的に20%ほど性能が高いが、Auroraは70%も高い電力を消費している。
両マシンのコア数も、Auroraの現在の2位を興味深いものにしている。Auroraの総コア数は9,264,128で、Frontierは8,699,904である。その上、両マシンは同じSlingshot-11インターコネクトを使用している。
Intersect360 ResearchのCEOであり、HPC-AI Leadership Organization (HALO)のアナリスト・リエゾンであるアディソン・スネル氏は、我々の最新のポッドキャストでこの件について議論した。彼は、共有インターコネクトが、Frontierに比べてAuroraのエネルギー効率スコアが低いことと相まって、AuroraのIntel Data Center GPU Maxプロセッサに問題があることを示しているのではないかと推論した。
「どのようなマシンであれ、エクサスケールで立ち上がることはとてつもない偉業であり、重要なのは、システムが提供する科学的ブレークスルーであって、Top500ランキングではないことを忘れてはなりません」とスネル氏は言う。「とはいえ、Auroraが世界で最も強力なスーパーコンピューターになるという期待にはまだ及ばないという事実を回避するのは容易ではありません。」
Ponte Vecchio GPUと呼ばれることもあるインテル・データセンターのフラッグシップGPU MaxのTDP(Thermal Design Power)定格は600W TDPである。これは、冷却システムが放熱しなければならないGPUの最大発熱量を示す仕様である。Frontierのスーパーコンピューターは、TDP560WのAMDのMI250X GPUに依存している。
Auroraは、エクサスケール時代に正式に飛び込んだ例外的なマシンである。しかし、Frontierのハードウェアと比較して、AuroraではGPUまたはGPU-CPUインターコネクトがより多くの電力を要求しているという説明ができるかもしれない。
もちろん、Auroraはまだ完全には完成しておらず、コミュニティはこのマシンが時間の経過とともに成熟していくことを期待している。しかし、現状では、エネルギー効率と総合的なパワーの両面でFrontierが勝っている。
ハードウェアとベンダーの状況
特定のハードウェアについて言えば、インテルXeonプロセッサーがこのリストのトップ10に君臨している。全体では、5台のマシンがインテルXeonプロセッサーを使用している:
- Aurora
- Eagle
- Leonardo
- MareNostrum 5 ACC
- EOS NVIDIA DGX SuperPod
AMDは、Frontierマシンに搭載されたAMD MI250X GPUを筆頭に、トップ10にも登場した。全体では、2つのシステムがAMDプロセッサーを使用している:
- Frontier
- LUMI
さらに、あるシステムはIBMのプロセッサーに依存している:
- Summit
過去数回のリストでは、トップ10にランクインしたマシンが使用するプロセッサに変化が見られた。第61回リストでは、AMDがGPUとして選ばれているようで、トップ10のシステムのうち4台がこのタイプのプロセッサを使用していた(Frontier、LUMI、Perlmutter、Selene)。このリストでは、2台がIntelプロセッサ(LeonardoとTianhe-2A)、2台がIBMプロセッサ(SummitとSierra)を使用していた。第62回リストでは、インテルXeonプロセッサーを使用する現在のトレンドにシフトした。
相互接続の面では、ギガビットイーサネットを搭載したスリングショット-11がトップ10マシンの頂点に君臨している。トップ10のうち、以下の4台はすべてSlingshot-11を使用している:
- Frontier
- Aurora
- LUMI
- Alps
メーカー別では、上位10社にいつもの顔ぶれが並んだ。HPEがトップ10で最も多くのシステム(Frontier、LUMI、Alps)を占めたのに対し、EVIDENは2台(LeonardoとMareNostrum 5)で2位となった。
上位メーカー全体のベンダーシェアは以下の通りである:
- Lenovo: 161
- HPE: 111
- EVIDEN: 49
- DELL EMC: 33
- NVIDIA: 23
- Inspur: 22
- 富士通: 14
リストに追加された新システムでは、Lenovoが13の新システムで競合をギリギリ上回った。HPEは12システムで僅差の2位だった。
中国の不在
過去数年間TOP500をフォローしている人なら、中国が新しいマシンをリストに提出していないことを知っているだろう。この傾向は、TOP500の第63回でも続いている。中国は、エクサスケールのOceanLightが中国の優秀さの一例であるように、競争力のあるマシンを製造するために懸命に努力していることは明らかだが、単にTOP500のテストを受けていないだけなのだ。
この新機種不足により、中国のリスト入りは徐々に枯渇している。国別のリストでは、中国はアメリカに次いで2位だが、その差は縮まっている。米国は前回の150台から161台へとリードを広げ、中国は134台から104台へと再び順位を下げた。
また、アジア全体でも台数が減少している。北米は171台と引き続き最多だが、アジアは192台から169台に減少した。一方、ヨーロッパは133システムから143システムに増加している。