世界のスーパーコンピュータとそれを動かす人々


6月 7, 2023

エクサスケール・スーパーコンピュータ「Frontier」検収通過、その意味するもの

HPCwire Japan

Tiffany Trader オリジナル記事

オークリッジ国立研究所のHPCチームは、Frontierが8.4%高いLinpackスコアで3度目のTop500入賞を果たしたことを受け、次のような嬉しいニュースを伝えてくれた。米国初のエクサスケールシステムであり、初の公式LinpackエクサスケールシステムであるFrontierは、検収を通過し、壮大な科学的チャレンジに挑んでいる。

「Frontierの受け入れは2022年12月末に行われ、Frontier HPE Cray EXシステムは2023年4月初めに完全にユーザープログラムに入りました」とオークリッジは声明でHPCwireに述べた。「それ以来、FrontierはOLCFのすべての配分プログラムで利用できるようになりました: INCITEALCCDD、そしてECPも含めて。現在では1,000人以上のユーザーがFrontierにアクセスできるようになっています。」

(それぞれ、「理論と実験に対する革新的で新しい計算の影響度」プログラム、「Advanced Scientific Computing Research [ASCR] Leadership Computing Challenge」プログラム、「長官裁量プログラム」、「Exascale Computing Project」となっている)。

昨年6月、フロンティア・プロジェクト・ディレクターのジャスティン・ウィット氏に話を聞いたとき、彼は受け入れプロセスを開始する前に必要なステップを説明してくれた。「ネットワークソフトからプログラミング環境まで、すべての本番用ソフトをシステム上に導入し、実際に研究者がいるときに使用するものにする必要があります。それが終わって、すべてのチェックが終われば、マシンの受け入れプロセスを開始することになるのです」と彼は言う。

さらに、Exascale Computing Project Directorのダグ・コーテ氏は、その受け入れプロセスの厳しさについてこう語る: 「機能性:私たちが必要とする基本的なものが機能しているか?機能性とは、我々が必要とする基本的なものが機能しているかということです。また、性能とは、システムから性能を引き出せているかということです。確かに、HPL(High Performance Linpack)の実行により、すべての兆候は得られています。そして次に安定性です。安定性は最も困難な課題です。基本的に、実際の運用ワークロードを模倣した代理ワークロードをシステム上で何週間も実行します。そして、完了しなければならないジョブの割合や、その中で正しい答えを得たジョブの割合など、非常に具体的な測定基準があるのです。だから受け入れはかなり厳しいと言えます。その期間が過ぎれば、マシンは私たちが使えるようにかなりブラッシュアップされていると確信しています。」

ハンブルグで開催された国際スーパーコンピューティング会議(ISC)と同時に発表された新しいTop500リストでも、Frontierはその努力の成果としてスコアを伸ばした。Frontierは、ピーク構成がわずかに小さい(正確には0.6%少ない)にもかかわらず、Linpackスコアを92ペタフロップス向上させ、2022年11月のリストの1.102 Linpack exaflopsから新しいリストでは1.194 Linpack exaflopsへと向上させることができた。これは、2022年11月のLinpackエクサフロップス1.102から、今回のLinpackエクサフロップス1.194へと、92ペタフロップスも向上している。この向上は、単体のシステムであれば、8位入賞に十分な性能であることを示している。

Top500のシステム構成が小さいということは、チューニング、最適化、そして周波数調整によって、Linpackの優れた性能が実現されたことを物語っている。

Oak Ridge Leadership Computing Facility(OLCF)とECPの最高技術責任者であるアル・ガイスト氏に、わずか7%の電力増加で(Frontierのエネルギー効率は実際にはわずかに上昇した)、より小さなシステムから8.4%のフロップ数を引き出した方法についてスクープしてもらった。

「昨年、Frontierは9,248ノードで1.1エクサフロップスを達成しましたが、これはノードをフル回転させていたわけではありませんでした。最大周波数を7%ほど下げ、GPUの最大電力を500Wに抑えていたのです」と、ガイスト氏は電子メールで語った。

「それ以来、Frontierはより堅牢になり、今ではシステム上のすべてのユーザーに対して、GPUを560Wで、そのフル周波数で動作させています。さらに、ROCmライブラリの最適化も進んでおり、HPEチームも同様に最適化を追加しました。」

「そこで、今年HPLを再実行したところ、92ペタフロップスの速度向上が得られたのは、ノードがフルスピードで動作していること、AMDライブラリの改善、そしてHPEチームによるさらなる最適化によってもたらされたのです。この結果は、Frontierが成熟し続けていることを示すものです。」

「Frontier には、まだまだ使える性能があることに注目したいと思います。最新の1.19エクサフロップスの結果は、Frontierに搭載されている9,472ノードのうち、9,212ノードしか使用していません」と、ガイスト氏は我々に語っている。

エクサスケールマシンを持つことで科学にもたらすもの

「ECPのアプリケーションはどれも、エクサスケールのリソースがなければ達成できない、非常に特殊な問題をターゲットにしています」と、昨年ORNLで会ったときにコーテ氏はHPCwireに語った。「このような大きな問題に取り組むには、大量のメモリと大きな計算機が必要です。だからエクサスケールがなければ、これらの問題の多くはペタスケールシステムで取り組むには数カ月から数年かかるか、達成すらできないでしょう。」

Frontierは、このスピードと規模でなければ実現不可能な数々の研究プロジェクトに投入されている。

オークリッジが詳しく説明しているように、Frontierで進行中の研究のいくつかを紹介しよう:

  • ExaSMR:ORNLのスティーブン・ハミルトンが率いるこの研究は、先進的な原子炉設計の長いタイムラインと高いフロントエンドコストをカットし、エクサスケールコンピューティングパワーを使って、小型化だけでなく安全性、汎用性、都市の電力供給を担う従来の巨大原子炉を超えるサイズにカスタマイズできるモジュラー原子炉のシミュレーションを行うことを目指している。
  • Exascale Atomistic Capability for Accuracy, Length and Time (EXAALT): ロスアラモス国立研究所のダニー・ペレスが率いるこの分子動力学研究は、核分裂や核融合などのアプリケーションにおいて、エクサスケールコンピューティングの速度を利用して、より大規模で高速かつ正確なシミュレーションを可能にし、エネルギーの基礎材料科学に変革をもたらすことを目指している。
  • 燃焼PELE:サンディア国立研究所のジャクリーン・チェンが率いるこの研究は、ハワイの火の女神にちなんで名付けられたもので、内燃機関内部の物理現象をシミュレーションし、炭素排出を減らし化石燃料を節約する、よりクリーンで効率の良いエンジンの開発を目指している。
  • Whole Device Model Application(WDMApp): プリンストンプラズマ物理研究所のアミタバ・バタカルジーが率いるこの研究は、エネルギー生産のための核融合技術の動力源となる含有反応に必要な、磁気的に閉じ込められた核融合プラズマ(太陽よりも熱い荷電核粒子の沸騰シチュー)のシミュレーションを行うためにデザインされている。
  • WarpX:ローレンスバークレー国立研究所のジャン=リュック・ベイが率いるこの研究は、より小型で汎用性の高いプラズマベースの粒子加速器のシミュレーションを目指しており、これにより科学者は放射線治療から半導体チップ製造など、多くの用途に向けた粒子加速器の設計が可能となる。このチームの研究は、高性能コンピューティングにおける優れた業績を称える、Association of Computing Machineryの2022年ゴードン・ベル賞を受賞した。
  • ExaSky: アルゴンヌ国立研究所のサルマン・ハビブが率いるこの研究は、ダークエネルギーやダークマターといった複雑な宇宙現象に対するシミュレーションの規模、範囲、精度を拡大し、宇宙のダイナミクスに関する新しい知見を明らかにしようとするものである。
  • EQSIM:LBNLのデビッド・マッカレンが主導するこの研究は、地震を引き起こす物理学と地殻変動条件をシミュレーションし、リスクのある地域を評価できるようにすることを目的としている。
  • エネルギーエクスアスケール地球システムモデル(E3SM): サンディアのマーク・テイラーが率いるこの研究は、大気の大規模で主に2次元の運動と、雲や嵐で発生する小規模で主に3次元の運動の間の複雑な相互作用をシミュレーションすることによって、気候変動とそれが国や地球の水循環に及ぼす影響をより正確かつ詳細に予測することを目的としている。
  • Cancer Distributed Learning Environment (CANDLE)である: アルゴンヌのリック・スティーブンスが率いるこの研究は、有望な癌治療法の特定と試験の合理化に役立つ予測シミュレーションを開発し、長くて高価な臨床研究の年数を短縮することを目指している。

「Frontierは、学術界、民間企業、国立研究所からなるエクサスケール・コンピューティング・プロジェクトを通じて、かつてほとんど不可能と思われた目標を実現するために、10年以上にわたって献身的に取り組んできた専門家の集大成です」と、コーテ氏はORNLのウェブサイトに掲載した投稿で詳しく述べている。「このマシンは、世界をより良く変え、地球上のすべての人に感動を与える発見の時間軸を縮めるでしょう。」

ウィット氏:「Frontierがこれらの研究にもたらすであろうインパクトは、過大評価することはできないと思います」と付け加えた。「このコンピュータで行われる科学は、これまで我々が計算機を使って行ってきたこととは根本的に異なるものでしょう。初期の研究チームはすでに、核融合から地震の予測、より優れた燃焼エンジンの構築まで、あらゆることに関する基本的な問題の探求を始めています。」

Frontierは、9,400以上のノードにまたがるHPE-Cray EXシステムで、各ノードにAMD Epyc CPU1個とAMD Instinct MI250X GPU4個が搭載されている。

Frontierのブレード 写真クレジット:HPCwire