世界のスーパーコンピュータとそれを動かす人々


10月 13, 2021

アルゴンヌの44ペタフロップスのスーパーコンピュータ「Polaris」は、エクサスケール時代の「Aurora」のテストベッドとなる

HPCwire Japan

Tiffany Trader

米国エネルギー省のアルゴンヌ国立研究所では、44ペタフロップス(理論ピーク)の新しいスーパーコンピュータの建設が進められている。「Polaris」と呼ばれるこの新しいスーパーコンピュータは、エクサスケールへの道を照らし、来年(2022年)に納入が延期されたエクサスケールクラスのIntel-HPEシステムである「Aurora」への道を示すものとして選ばれた。

8月の公式発表に先立ち、HPCwireは、アルゴンヌのリーダーシップ・コンピューティング・ファシリティ(ALCF)のシニア・コンピュータ・サイエンティスト兼テクノロジー・ディレクターであるKalyan Kumaranに、同研究所が「Aurora」とその先への足がかりとしてこのシステムをどのように活用していくかについて話を聞いた。

HPEが構築し、AMDのCPUとNvidiaのGPUを搭載したPolarisは、研究者や開発者がソフトウェアコードやアプリケーションをテストし、最適化することを可能にする。

現在行われている導入は、40ラックに280台の「HPE Apollo Gen10 Plus」システムを配置し、合計560個のAMD Epyc Rome CPUと2,240個のNvidia 40GB A100 GPUを搭載し、HPEの「Slingshot」ネットワークを使用している。計画されているアップグレードの一環として、第2世代のEpyc Rome CPU(32コアの7532 SKU)は、2022年3月に第3世代のEpyc Milans(32コアの7543部分)に交換される。同時に、PolarisはSlingshot 10からSlingshot 11のファブリックに移行する(Auroraが使用するものと同じ)。システムは、空冷式のHGX「Redstone」ボードと、リアドアの熱交換器による液冷式を採用している。

Polarisは、44ペタフロップス(倍精度、ピーク時)の性能を持ち、世界のトップ15前後のコンピュータの中でもトップクラスの性能を誇る。HPE社とNvidia社によると、このシステムの理論上のAI性能は、混合精度の計算能力に基づいて、約1.4エクサフロップスに達する。

Polarisは、HPEのCray ClusterStor E1000プラットフォームに支えられた、ALCFの2つの100PBグローバルアクセス可能なLustreファイルシステム(GrandとEagle)と連携する。今年の1月に設置された各ストレージアレイは、8,480台のディスクドライブを制御し、650Gbpsの持続的な転送速度を実現している。

HPE Cray EXアーキテクチャではなく、Apollo Gen10 Plusを選択したのは、Gen10が追加構成に柔軟に対応できるからだ。「これらの筐体には、実際には2つの(シングルソケットの)ノードが搭載可能で、他のアクセラレータもサポートしています。将来的には、この構成に新たなApolloシャーシを追加して、例えば片側にNvidiaのGPUを、もう片側に他のGPUをサポートすることも可能です。そして将来的には、他のAIアクセラレータをサポートすることになるかもしれません。」とKumaranは述べている。

これは、Cray EX設計のAuroraが導入された後も、Polarisが今後の研究活動の道筋となる可能性があることを示している、とKumaranは言う。アルゴンヌ研究所は、新たなAIハードウェアを探求するホットスポットのような存在である。アルゴンヌ研究所のAIテストベッドには現在、Cerebras CS-1システム、Graphcore Colossus GC2システム、SambaNova DataScaleマシン、そして(2021年に登場する)Groqアクセラレータハードウェアが含まれている。

 
  Auroraの計算ノードには、2つのSapphire Rapidsプロセッサと6つのPonte Vecchio汎用GPUが搭載される。出典:インテル コーポレーション
   

Polarisは、アルゴンヌのLinpack 7ペタフロップス(ピーク時11.7ペタフロップス)のHPE/Cray XC40 Thetaシステムの約4倍のコンピュートパワーを提供することになるが、このシステムは、以前に実現していなかったAurora(通称A18)のコンパニオン兼ランプマシンとして2016年末に導入されたものである。今年の初め、CARES法による資金提供を受けて、同ラボは24台のNvidia DGX A100ノードをThetaに追加し、その能力を大幅に向上させた。

Polarisは、CPUとGPUの比率が1:4というヘテロジニアスなアーキテクチャを採用しており、アルゴンヌがIntel-HPE Auroraシステムに移行する際に役立つ。Intelのロードマップの遅れ(Sapphire RapidsとPonte Vecchioに影響)により、2021年から2022年にずれ込んだ。Polarisは、DOEのエクサスケール・コンピューティング・プロジェクトやALCFのAurora Early Science Programに参加する研究者が、Aurora用のコードの準備を始めるために使用される。

Kumaranは、「Auroraを念頭に置きながら、さまざまなソリューションを検討しました。」と技術選定の経緯を語る。「マルチGPUノードをサポートするものが欲しかったのです。また、Auroraの主要なプログラミングモデルであるMPI、OpenMP、そしてDPC++SYCL(インテルのSYCL 2020バリアント)をサポートするものが必要でした。これらのプログラミングモデルをサポートしてほしいと思っていたところ、Polarisがそのソリューションを提供してくれました。」

「PolarisはマルチGPUノードを備えています。プログラミングモデルをサポートしています。また、Auroraと同じSlinghotインターコネクトを搭載しています。当社のアーリーサイエンスプログラムは、従来のHPCシミュレーション分野だけでなく、データや学習分野にも応用されています。そのため、これらのアプリケーションを発展させるために、Auroraで利用できる最適化されたフレームワークや最適化されたPythonのサポートなどを数多く用意しました。これらは、NvidiaとHPEのソリューションで利用できます」。

アルゴンヌが注目したプロジェクトは以下の通り。

データサイエンスを活用して、超大規模な流体-構造-相互作用シミュレーションの解析を推進することで、腫瘍細胞の経路における生物学的変数の役割を理解する研究を加速させ、腫瘍細胞に対する薬剤の反応を予測することで、何十億もの仮想の薬剤を単一から多数の組み合わせまでスクリーニングし、腫瘍細胞に対する効果を予測することで、癌治療を推進する。

DOEの科学部生物化学・環境リサーチから資金提供を受けているNWChemExプロジェクトによる生化学研究で、気候への影響を最小限に抑えつつ、国家のエネルギー安全保障を推進する。バイオマスを生産するための原料を最適化するモデルを開発し、バイオマス原料をバイオ燃料に変換するプロセスを分析することで、バイオ燃料生産における分子レベルの問題を解決している。

スイス・ジュネーブ近郊のCERNにある世界最強の粒子加速器、大型ハドロン衝突型加速器(LHC)を利用したATLAS実験による粒子衝突研究で、物理学の限界を広げている。科学者たちは、暗黒物質の証拠を探すことを含め、物質の基本的な構成要素についての理解を深めるために、粒子の衝突から生じる複雑な生成物を非常に大きな検出器で研究している。

「Polarisは、ALCFが計算科学のエクサスケール時代に突入するために必要な機能を備えており、ユーザのデータやシミュレーションに対する要求が高まる中、AI機能の適用を加速させることができます。」とALCF所長のMichael E. Papkaは述べている。「Polarisは、Auroraへの対応だけでなく、スーパーコンピュータとAdvanced Photon Sourceのような大規模実験施設の統合を実験するためのプラットフォームを提供し、より多くの科学コミュニティがHPCを利用できるようにします。また、Polarisは、HPCとリアルタイム実験やセンサーネットワークとの統合を試作・検証するための幅広い機会を提供します。」と述べている。

同研究所では、SlingshotやHPE Performance Cluster Manager(HPCM)など、HPEのシステムインフラについてはすでにある程度の実績がある。Cruxと呼ばれるテストベッド用ラックには、AMDのRomeプロセッサ、Slingshotテクノロジー、HPCMが搭載されている。「Polarisは、HPCMを大規模にテストし、Auroraの登場に備えるためのもう一つのテストベッドです。アプリケーション側だけでなく、システムソフトウェアやSlingshotもテストすることができます。」とKumaranは述べている。

また、より幅広い目標として、クロスプラットフォームでのコードのポータビリティを目指している。アルゴンヌの研究者は、NERSC(バークレーラボ)やCodeplay(著名なSYCLサポーター)と協力して、SYCLとDCP++をA100 GPUに移植している。Kumaranは、「SYCLやDCP++を使ってAuroraにコードを移植している人は、そのプログラミングモデルを継続してサポートすることができ、Polarisで使用するためにOpenMPやMPI、CUDAに書き換える必要がなくなります。同様に、このプラットフォーム(Polaris)でHIPをサポートすることも検討しています。CUDAをサポートしていて、Summitや将来のAMDベースのプラットフォームであるFrontierでCUDAを使って開発している場合は、それを利用することができます。そして最後に、AMD GPU向けのSYCLとDCP++についても検討しています(Oak RidgeとCodeplayとの共同研究)。AMD GPUでCUDAやHIPに代わるソリューションを探していて、DCP++のコードを実行したいのであれば、そのためのプルーフオブコンセプトを用意しています。」と述べている。

Polarisは納入され、現在インストール作業が行われている。来年の第1四半期には、エクサスケールへの対応に関連した初期科学作業への導入が予定されている。

Polarisのレンダリング