世界のスーパーコンピュータとそれを動かす人々


8月 8, 2022

米国、Frontierの5〜10倍の性能を持つ次世代エクサスケールシステムを目指す

HPCwire Japan

Tiffany Trader オリジナル記事

オークリッジ国立研究所のスーパーコンピュータ「Frontier」がエクサフロップスのマイルストーン「Linpack」を達成したことで、米国はFrontierの5〜10倍の性能を持つエクサスケールマシンの次の開発に目を向けている。2025年から2030年にかけて、このようなシステムが少なくとも1台計画されており、DOEは設計と調達のプロセスに情報を提供するために、ベンダーコミュニティから意見を募集している。

 
   

エネルギー省は、DOE国立研究所が次世代エクサスケールシステムを計画するにあたり、コンピューティングハードウェアおよびソフトウェアのベンダー、システムインテグレーター、その他の団体からフィードバックを求める情報提供依頼書(RFI)を発行した。このRFIによると、回答は「2025年から2030年の期間に提供されるシステムの要件を記述した、1つまたは複数のDOEシステム取得RFPに反映される」ことになるそうだ。これには、Frontierの後継(別名OLCF-6)、Auroraの後継(別名ALCF-5)、Crossroadsの後継(別名ATS-5)、El Capitanの後継(別名ATS-6)、さらに将来のNERSCシステム(おそらくNERSC-11)も含まれる可能性がある。なお、「先行システム」のうち、これまでに導入されたのはFrontierのみである。

以下は、RFIからの抜粋である。

「DOE は、現在の最先端システムよりも 5 倍から 10 倍速く科学的問題を解決できる、あるいは、より物理的な、あるいはより忠実度の高い要求を持つような、より複雑な問題を解決できる 1 台以上のスーパーコンピュータの配備に関心を持っています。これらの将来のシステムには、関連するネットワークやデータ階層が含まれます。高性能なソフトウェアスタックは、モデリングとシミュレーション、機械知能、統合データ解析における大規模な計算科学キャンペーンを含む、広範なアプリケーションとワークロードの要件を満たすことができます。我々は、これらのシステムが20〜60MWの電力範囲で動作することを期待しています。これらのシステムは、ユーザの介入を最小限に抑えるために、ハードウェアとソフトウェアの障害に十分耐えうるものでなければなりません。技術の進化に伴い、他のスーパーコンピューティングシステムの開発においても、耐障害性への関心が高まることが予想されます」と述べている。

 
   

RFIでは、全体的な性能向上として5~10倍が望ましいとされているが、今回の通知では、2025年以上の時間枠で10~20+ FP64エクサフロップスシステム、2030年以上の時間枠で100+ FP64エクサフロップスと、「ハードウェアとソフトウェアの加速機構によって」達成されるとの見積もりが明確になっている。

「これは2026年に2022年のシステムのおよそ8倍、2030年に64倍となる 」とRFIは述べている。低精度のAIについては、少なくともFP64のレートの8倍から16倍の倍率が予想されている。

「ミッションの必要性」の項では、国家の科学、エネルギー、安全保障の優先事項に対するデータ駆動型のモデリングとシミュレーションの重要性が強調されている。RFIでは、「米国は、計算エコシステムの統合インフラストラクチャにおいて、モデリングとシミュレーション、データ分析、深層学習、人工知能(AI)、量子コンピューティング、およびその他の新たな能力のグランドコンバージェンスをもたらす、HPCの戦略的進歩を引き続き推進する必要があります」と述べられている。

そのため、「これらのシステムは、従来のモデリングやシミュレーションの用途に加え、新たなデータサイエンス、人工知能、施設でのエッジ展開、サイエンスエコシステムの問題を解決することが期待されます」としている。

また、将来の理想的なシステムは、より機敏で、モジュール化され、拡張可能であることが望まれる。

 
   

「モノリシックな取得から、配備されたシステムをより迅速にアップグレードし、ハードウェアとソフトウェアの迅速な革新を可能にするモデルへと移行するアプローチの開発も検討したいと考えています。1つの可能な戦略として、既存のインフラストラクチャの再利用を増やし、アップグレードをモジュール化することが考えられます。目標は、システムアーキテクチャの再構築と、施設に継続的に技術的進歩を注入できる効率的な取得プロセス(例えば、4~5年ごとではなく、12~24カ月ごと)です」と、RFIは記している。

DOE のスーパーコンピューティング戦略の主要な柱は、「軽元素、データ、材料科学、先進製造など、他の DOE 施設との統合」を可能にする先進コンピューティングエコシステム(ACE)の構築である。

「次世代スーパーコンピュータは、実験・観測から科学的洞察までの時間を短縮するために、これらの施設の1つ以上を組み合わせて、自動化されたワークフローをサポートするACE環境に統合できる必要があります 」と文書には記載されている。

RFIに対応して収集された情報は、オークリッジ国立研究所、ローレンス・バークレー国立研究所、ローレンス・リバモア国立研究所、アルゴンヌ国立研究所、ロスアラモス国立研究所、サンディア国立研究所における次世代システムの計画および意思決定を支援する。これらの研究所は、先進的なシステムのロードマップを更新し、これらのシステムのための将来のRFP(提案依頼書)を起草するために情報を使用する。

 
   

本日発表されたRFIは、2012年にオークリッジ、アルゴンヌ、リバモアの共同体(通称CORAL)が発表したものと、いくつかの点で類似している。しかし、先週オークリッジ国立研究所で話を聞いたところ、「オーロラ」の契約が書き直されたためにタイミングがずれていることもあり、「CORAL」プログラムが再び行われることはないだろうとのことだった。このシステムは、遅延と再コンセプト化により、CORAL-1からCORAL-2のタイムラインへと移行した。

 

 
AMDのCPUとGPUを搭載したFrontierのブレード図  

当初の CORAL 契約では、リスク管理のために、少なくとも 2 つの異なるアーキテクチャを持つ 3 つのプレエクサスケールシステム(それぞれ約 100~200 ペタフロップス)を求めていた。しかし、オークリッジの Summit とリバモアの Sierra という 2 つのシステムだけが,ほぼ同じ IBM-Nvidia 異種アーキテクチャを使用して,予定された期間内に完成した。CORAL-2も同様で、少なくとも2つの異なるアーキテクチャを持つ、2つか3つのエクサスケールクラスのシステムを要求している。このプログラムでは、FrontierとEl Capitanの2つのシステムを調達しているが、どちらもHPE AMD+AMDの類似した異種アーキテクチャをベースにしている。再定義されたAuroraは、HPE Intel+Intelの異種アーキテクチャをベースにしており、「アーキテクチャ的に多様な」3番目のシステムとなる(ただし、技術的にはまだ最初のCORAL契約に属している)。