世界のスーパーコンピュータとそれを動かす人々


5月 30, 2022

エクサスケールウォッチ: Auroraのインストールが進行中、予約受付開始

HPCwire Japan

Tiffany Trader

リック・スティーブンス氏(アルゴンヌ国立研究所副所長)は、テキサス州ダラスで開催されたIntel Visionイベントのキーノートで、Auroraスーパーコンピュータのインストールが開始されたことを明らかにした。スティーヴン氏は、インテルの重役であるラジャ・コドゥリ氏とともにステージに上がり、Auroraの構築が進行中であることを確認した。このシステムは、完全に展開されたときに2エクサフロップスを超えるピークコンピューティングを実現すると予測されており、これは大きな進展である。

 
  Auroraのブレード(出典:Intel Corp.)

スティーブンス氏は、システムの導入は「大規模な取り組み」であったと述べており、「Auroraは、10万枚以上のブレードを組み合わせています。Auroraは、HPE Cray EX(旧称Shasta)のスーパーコンピュータに、Intelを搭載した1万枚以上のブレードを組み合わせています。各コンピュートブレードは、2つのSapphire Rapids Xeon CPU(HBM搭載)と6つのPonte Vecchio(PVC)GPUを搭載し、HPEのCray EXアーキテクチャにSlingshotネットワーキングで統合されています。」

Auroraは、全部で6万個以上のPonte Vecchio GPUと2万個以上のSapphire Rapids CPUを実装することになるとStevensは述べている。「すでにIntel DAOSストレージシステム、管理ノード、冷却インフラを導入し、Sapphire RapidsとPVCプロセッサを使った検証システムを今すぐ導入し、アプリケーションテストを実施しているところです。チーム全体が、システムを稼働させるまで待ちきれないという状況です。」

また、アルゴンヌはインテルと提携し、システム全体でノードをプログラミングするための新しいモデルとしてOneAPIを導入している。スティーブンス氏は、この提案について次のように説明する。「1つのインターフェイスを使って、CPUとGPUをプログラムすることができます。1つのコードベースを持ち、オープンスタンダードに基づいており、開発中にCPUからGPUに移行しても、コードを変更する必要はありません。ただ動くだけなのです。」

システムがオンラインになったときに確実に準備ができ、大規模な科学計算問題に取り組む開発者を刺激するために、アルゴンヌは現在、予約を受け付けている。

「科学と工学のブレークスルーを追求することに興味があるような、経済・産業研究のために予約を取ることができます」とスティーブンス氏は言う。「私たちは、予約を受け、開発アカウントを設定し、初期のシステムでチームを結成してソフトウェアを構築し、Auroraが初日に立ち上がったときに、アプリケーションを実行できるようにしています。」

 
Auroraコンピュートブレード(出典:Intel Corp.)  

コドリ氏とスティーブンス氏は、エクサフロップスからゼタフロップスまで、より多くのフロップ数が世界で必要とされていることで、意見が一致した。スティーブンス氏は、「我々は多くのフロップを必要としています。エクサスケールはその始まりに過ぎません。将来の気候予測、新しいバッテリーの設計、新しいがん治療、新薬、製造、メタバースのプロトタイプなど、シミュレーションの問題を解決するために多くの計算能力が必要なのです」とスティーブンスは述べている。”

Auroraは、米国主導のスーパーコンピューティングロードマップにおける3つのエクサスケールシステムのうちの1つだ。このプロジェクトは、2017年にまでさかのぼり、何度も再定義を繰り返してきた。直近では、10月のIntel Innovationイベントで、Auroraは1エクサフロップスから「2エクサフロップスを超えるピーク性能」に拡大され、納期も2021年から2022年に変更された。

米国のエクサスケールシステムは、他にFrontier(Oak Ridge)とEl Capitan(Livermore)が計画されている。El Capitan(HPE/AMD)は来年の納品を目指しており、Frontier(同じくHPE/AMD)はOak Ridge Leadership Computing Facilityに設置され、受け入れに向けた最終テストが行なわれているところだ。Oak Ridgeは3月に、Frontierの全システムが今年7月に初期科学に対応できるようになる見込みであることを報告した。研究所の発表によると、バイオインフォマティクスコードCoMetは、約9,000ノードのシステムのうち3,210ノードで実行されたとのことだ。

Auroraの設置写真、リック・スティーブンス氏(右)とラジャ・コドゥリ氏による発表