最後のフロンティア、米国初のエクサスケール・スーパーコンピュータが誕生
Oliver Peckham オリジナル記事(2022/05/30)

2018年4月、米エネルギー省は、最大18億ドルの総費用をかけ、エクサスケール・スーパーコンピュータ3機種を調達する計画を発表した。その後の4年間、多くの発表が行われ、多くの締め切りが守られ、パンデミックによって世界は混乱に陥った。HPEとオークリッジ国立研究所(ORNL)は今、ついに、これら3つのシステムのうち最初のシステムが稼働したと発表した。HPEが製造したAMD搭載のスーパーコンピューターFrontierは、1.102 Linpackエクサフロップスの演算能力を実現する巨大システムである。
コンピュータ
Frontierは74台のキャビネットで構成され、1台の重量は8,000ポンドである。これらのキャビネットには9,408台のHPE Cray EXノードが配置され、各ノードにはAMD「Trento」7A53 Epyc CPUと4基のAMD Instinct MI250X GPU(システム全体のGPUは合計37,632台)が搭載されている。メモリは9.2ペタバイトで、HBMとDDR4が均等に配置され、HPE Slingshot-11ネットワーキングが使用されている。また、716ペタバイトのセンターワイドストレージに加え、37ペタバイトのノードローカルストレージでサポートされている。システムは温水(85°)で100%液冷され、スペース的には最終的なFrontierシステムの占有面積は372平方メートルとなっている。
![]() |
画像提供:HPE |
このハードウェアが実現する1.102 Linpackエクサフロップスは、2022年春のTop500リスト(本日発表)で簡単に1位を獲得し、実際、このシステムは以下の7つのTop500システムを合わせたよりも強力なものとなっている。(従来、Frontierは2ピークエクザフロップスのシステムとして特徴づけられていたが、最初のTop500ベンチマークでは約1.686ピークエクサフロップスを計測している( オークリッジは、Frontierは2ピークエクサフロップスのシステムであると述べている) 。(オークリッジは、2ピークエクサフロップスの目標を達成するためには、「GPUとCPUにもっと高いヘッドルームが残っている」と述べている)。LinpackとTop500以外では、HPL-AIで6.88エクサフロップスの混合精度性能でベンチマークをとっている。HPCGベンチマークは、時間切れで提出できなかった。
(昨年、中国では OceanLight と Tianhe-3 という 2 つのエクサスケールスーパーコンピュータが稼動していることが明らかになったため、Frontier が初のエクサスケールシステムとして Top500 に掲載されるには、もちろんアスタリスクがある。これらのシステムはTop500に掲載されていない。)
前代未聞の効率性
Frontierは、2022 年春に発表された Green500 リストの 2 位という快挙も達成している。オークリッジのチームは、21.1メガワットの電力で1.102 Linpackエクサフロップスを実現し、1ワットあたり52.23ギガフロップス(19.15メガワットで1エクサフロップスと計算)の効率を達成したのである。これは、2008年にDARPAが設定したエクサスケールの電力エンベロープ目標20メガワットの範囲内に収まるもので、その後14年間は懐疑的な見方が強かった目標値だ。Frontierを効率面で上回ったのは、同社が開発したテスト開発システム(Frontier TDS、別名「Crusher」)の1ワット当たり62.68ギガフロップスだけである。
(これは、Frontierが低エネルギーシステムであると言っているのでは無い。ORNLはTennessee Valley Authorityのダイレクトサーブの顧客であり,ORNL所長のトーマス・ザカリア氏は記者会見で,「(Linpack)実行を開始すると,10秒以内にマシンは,さらに15メガワットの電力を引き始める・・・これは米国の小さな都市,オークリッジ市が消費する電力とほぼ同じだ」と述べている。)
チャレンジングな事業
パンデミックの期間中、Frontierのようなシステムを構築することは、並大抵のことでは無かった。「コミュニティとして、研究所として、協力者として、私たちは難しい決断をしなければなりませんでした」とザカリア氏は言う。Covidワクチンが利用可能になる前、Frontierに関わったオークリッジのスタッフの多くは、パンデミックの期間中も出勤し、コンタクトトレーシングなどの対策によりCovidの流行を可能な限り改善しながらシステムを提供したと説明した。さらに、HPEはパンデミックとそれに伴うサプライチェーンの混乱の中、「範囲、スケジュール、予算内でシステムを構築するために、大小さまざまなパーツを世界中に探し回る」ことに18人を割いたという。ザッカリア氏は、「(Cray社が)HPE社になっていなければ、このマシンを提供することはできなかったと思います。」
「7ヶ月前にいた場所から、前例のない世界的なサプライチェーン不足と戦い、パンデミックと戦い・・・そして、史上初のCPU、史上初のGPU、新しいファブリックを備えた史上初のエクサスケールシステムを提供することは、本当に信じられないことです 」と、HPCおよびAI担当EVP兼GMのジャスティン・ホタード氏は記者説明会で付け加えている。「私にとって、これは月に行くのと同等のスーパーコンピューティングです。」
「新しい技術で構成されたシステムで、予定より早くLinpackエクサスケールの壁を公式に破ったことは、このマシンに関わるすべての人の熟考された計画プロセスと長期的なビジョンの証です。」Hyperion Researchのリサーチ担当上級副社長のボブ・ソレンセン氏は、こうコメントしている。「ロジャー・バニスターの4分マイルのように、今後数年のうちにこのマイルストーン・ナンバーが頻繁に突破されることを期待していますが、最初にそれを達成したのはたった1台のマシンです。そして、Frontierが設計された重要な実世界のワークロードに対応し始めたことで、科学と工学の進歩が見られるようになるのです。」
ムーンショット
実際、ホザード氏もザカリア氏も、Frontierがさまざまな科学分野に大きな影響を与えることを強調していた。(これは、科学に取り組むための投資ということですね。とザカリアは言った。)記者会見では、電気自動車のエネルギー貯蔵のための材料研究から、雲や雨を分解した地域気候シミュレーション、長いコビッドの詳細な研究まで、さまざまな用途について言及さ れた。もちろん、他にも数え切れないほどの用途があり、下の図に列挙されている。ザッカリアは、今年の9月までには、ゴードン・ベル賞を目指す研究がシステム上で見られるようになるだろうと述べた。
![]() |
Frontier上で実行される科学コードの一例 画像提供:HPE/ORNL/Exascale Computing Project |
記者会見では、電気自動車のエネルギー貯蔵のための材料研究から、雲や雨を分解した地域気候シミュレーション、長いコビッドの詳細な研究まで、さまざまな用途について言及されました。ザッカリア氏によれば、ゴードン・ベル賞を目指す研究は、今年の9月までにシステム上で見られるようになるとのことだ。
Frontier上で実行される科学コードの一例。画像提供:HPE/ORNL/Exascale Computing Project。
オークリッジのチームは現在、Frontierの「非常に厳格な受け入れテストプロセス」を開始しており、以前から設定されていた目標日である2023年1月1日までに完全な運用が可能になるよう、順調に進んでいることを明かした。
「オークリッジにとっても、HPEにとっても、AMDにとっても、誇らしい瞬間です」とザカリア氏は言う。
未来へ向けて
スタートレックからの引用は見逃せないが(ORNLも、FrontierのテストシステムであるCrusherを、BeverlyとWesley Crusherから命名した)、これが本当に最後のFrontierなのか、という疑問は残る。将来、このシステムを拡張する可能性はあるかと聞かれると、ザカリア氏はこう答えた。「現在のマシンの最大構成です。確かにパワーもスペースもまだあります。将来どうなるかはわかりません。」
しかし、Frontierが納入された今は、米国の3つのエクサスケールシステムのうち2番目のアルゴンヌ国立研究所のAuroraに目が向けられるだろう。Auroraの設置は現在進行中で、Intelベースのシステム(「ピーク性能2エクサフロップス以上」が目標)の納入は、現在のところ2022年内と予想されている。Auroraの次は、ローレンス・リバモア国立研究所のEl Capitanシステムで、こちらもHPEとAMDの製品で2023年に予定されている。