世界のスーパーコンピュータとそれを動かす人々


11月 8, 2020

Auroraのトラブル、Frontierはエクサスケールの極地へ

HPCwire Japan

Tiffany Trader

Intelの7nmノード遅延により、来年にはアルゴンヌ国立研究所で立ち上がる予定だったAuroraスーパーコンピュータの状況に疑問の声が上がっている。Auroraは、オークリッジ国立研究所のFrontierスーパーコンピュータと同時期のタイムラインにありましたが、米国初のエクサスケールスーパーコンピュータとなる予定だった(両システムとも2021年中に納入予定)。

AuroraのGPUエンジン(Intel XeベースのPonte Vecchio)に不可欠なIntelの7nmノードが1年遅れたことで、IntelはGPUダイのファブを外部のファウンドリと契約することになるのだろうか。また、Auroraの速度やフィード、納期にはどのような影響があるのだろうか。

これらすべての答えは出ていないが、DOEの科学局からの混乱は多方面にわたっているようだ。

Auroraは実際に遅れる兆候があるが、9月24日~25日に開催された先進計算科学諮問委員会(ASCAC)の会議において、オークリッジ国立研究所のフロンティアはエクサスケールコンピューティングプロジェクトと同様に軌道に乗っていると、先端科学計算研究局(ASCR)のアソシエイトディレクターであるBarb Hellandは報告した。

 
  IntelのRajaKoduriがSC19で発表したAuroraノードのデザイン
   

「世界最先端のスーパーコンピュータの契約を締結する際、それが配備される4~5年前に生じるスケジュールの遅れは、予想外のことではありません」とHellandは述べている。「そのため、コストとスケジュールの両方の不測の事態をプロジェクトの予算に組み込んでいます。」

DOE科学局は、この時点では詳細を明らかにする準備ができていなかったが、彼らはIntelと緊密に協力していると述べた。

「はい、Auroraシステムは遅れる兆候があります。しかし、アルゴンヌは現在、Intelと協力し、アルゴンヌだけでなく、エクサスケールコンピューティングプロジェクトや米国の高性能コンピューティングユーザーの影響を緩和するために努力しています。」

挫折を軽視しているように見えますが、Hellandは、「Oak Ridgeのフロンティアマシンは2021年に納入される予定であり、ECPプロジェクトも予定どおり、多く見積もっても24年度第4四半期までに完了する予定です」と繰り返し述べた。

「私は、この問題を国とプログラムの利益になるよう解決する方法で乗り切る自信があります」と、科学局の責任者であるChris Fallは述べた。「私たちはまだ会話をとおして詳細を把握しているところですが、私はとても安心しています。その上で必要な場所にたどり着けると思います。」

範囲と規模の境界を押し広げるシステムにとって、目標のゴールポストに影響を与える不測の事態に遭遇するのは理にかなっているが、Auroraは、インテルのロードマップの過去の遅延やキャンセルを受けて、すでに大幅に再定義されている。もともと2018年にアルゴンヌで立ち上がるプレエクサスケールスーパーコンピュータとして構想されていたAuroraは、2017年に、2021年を目標とする米国初のエクサスケールマシンとして再定義された

 
   

オークリッジ国立研究所のスーパーコンピュータ「Frontier」が、米国初のエクサスケールシステムとしてラインナップされたようだ。DOEは、オークリッジ、HPE、AMDと協力して、2021年後半に1.5エクサフロップス(最小ピーク)のFrontierを立ち上げようとしている。Lawrence Livermore LabのEl Capitanシステム(HPEとAMDの技術を使って2エクサフロップスのピークを提供する予定)は、約1年後(2023年初頭の提供)に予定されている。問題は、Auroraがタイムラインの中でどこに収まるのかということだ。

HPE Cray EXスーパーコンピューティングは、計画されている3つのエクサスケールシステムのすべての基盤となっている。HPEはFrontierとEl Capitanのプライムコントラクターであり、AuroraはIntelがプライムコントラクターである。

HPCwireに提供された声明の中で、Intelは、「Auroraスーパーコンピュータをアルゴンヌ国立研究所に提供し、米国エネルギー省でエクサスケールのリーダーシップを発揮できるよう引き続き取り組んでいます」と述べている。