世界のスーパーコンピュータとそれを動かす人々


4月 13, 2023

筑波大学、「ビッグメモリ」スーパーコンピュータPegasusを配備

HPCwire Japan

Tiffany Trader オリジナル記事

NvidiaのGPU Technology Conferenceで発表された数々のニュースの中で、また新たなシステムが明らかになった:Pegasus: 1月に筑波大学計算科学研究センターで稼働を開始した。朴泰祐センター長は、Nvidia H100GPUとIntel Sapphire Rapids CPUを初めて採用した「ビッグメモリ」システムの詳細を明らかにした。

NECが構築したPegasusは、120台のコンピュートノードで構成され、各ノードにはNvidia H100 PCIe GPUとIntel Sapphire Rapids 48コアCPU(2.1GHz動作)が1台搭載されており、合計6.5ペタフロップスの理論倍精度の性能を提供する。また、Intel 300シリーズOptaneパーシステント・メモリ(ノードあたり2テラバイト)、DDR5メモリ(ノードあたり128ギガバイト)、NVMe SSDストレージ(ノードあたり2 x 3.2 テラバイト)、Nvidia NDR200 InfiniBandネットワーキングを搭載している。DDNが提供する並列ファイルシステムにより、7.1ペタバイトの40Gbpsストレージが提供さ れる。

さらに3つのログインノードには、デュアルSapphire Rapids CPU、256gibytes DDR5メモリ、NVMe SSDストレージがそれぞれ搭載されている。

 
  Pegasusのコンピュートノード図、提供:筑波大学CCS。
   

「新しいスーパーコンピュータPegasusは、第4世代Intel Xeon Scalableプロセッサー(旧コードネーム:Sapphire Rapids)、Intel Optaneパーシステント・メモリ(コードネーム:Crow Pass)、51テラフロップスの画期的加速性を持つNvidia H100 Tensor Core GPUを世界で最初に導入したシステムの一つです 」と筑波大学の計算科学センターは報告している。

また、インテルが昨年Optaneの廃止を発表したため、Optaneを使用する最後のシステムの1つになるかもしれない。部品は5年間保証され、Intelはその期間中、Pegasusのサポートを約束している。CXLベースのメモリ技術は、将来の永続的なメモリオプションとして検討されている。

プロジェクトチームは、PegasusのLinpackスコアが3.47ペタフロップスであることを報告しており、5月に予定されているTop500リストへのランクインが確実視されている。Hopper GPUとパーシステント・メモリにより、エネルギー効率の向上が期待さ れる。Pegasusは、11月に最高のGreenランキングを獲得したH100搭載の米国製システムHenri(ワット当たり65.09ギガフロップス)を上回るエネルギー効率になると、朴氏は予想する。

上の写真は、ビッグメモリが必要な理由を説明する朴教授。下はGTCでのプレゼンテーションのスライド。

 

また、筑波大学の測定では、理論ピークフロップスのうち使える部分を示すLinpack効率も、Pegasusが54%、Henriが37.6%と、Pegasusの方が高い。どちらの数値も、リストの平均値である約65%には及ばない。しかし、どちらのシステムもさらなる最適化が行われている可能性があるため、これらの数値は次のTop500リストが発表されるまでは、ある意味暫定的なものだといえる。

 
シグナス・ノード図(出典:朴教授)  
   

新システムは、2019年にオンライン化され、GPUとFPGA技術を組み合わせたユニークなシステムで あるCygnusに加わる。Cygnusの80のノードはすべて、4基のNvidia V100 GPUを搭載しており、その半分のノードにはさらに2基のIntel Stratix 10 FPGAデバイスが搭載されている。

GTCでのプレゼンテーションで、なぜPegasusはFPGAを使わないのかと尋ねられた朴氏は、両システムは異なる目的で設計されていると述べるとともに、FPGAのコストが高いことを指摘した。「Cygnusでは、GPU+FPGAという非常に面白い組み合わせを研究していますが、現状ではアプリケーションユーザーにとってプログラミングが容易ではありません。そこで、PegasusではPMEMとHPC+AI用の新しいH100に焦点を当てています。」

「さらに “Cygnusは性能を追求し、PegasusはHPC+AIの用途を広げるという視点が違います。例えば、PMEMの2テラバイト/ノードというのは、『無理にMPI並列はしたくないけど、メモリは欲しい』というAIソリューションに有効です。多くのAIアプリケーションが1ノードで動作していますが、これを強力にサポートします。」

計画段階ではCygnus-BDという名前だったPegasusは、天体物理学、気候、バイオサイエンスなどの分野で、従来のHPCアプリケーションではるかに大規模なシミュレーションを可能にし、大容量メモリは、創薬を含むさまざまな領域のビッグデータやAIワークロードにも発揮さ れるだろう。予備テストでは、ARGOTと呼ばれる天体物理シミュレーションコードが、CygunusのV100と比較してPegasusのH100 GPUで1.86倍高速に動作している。

Pegasus という名前の由来や関連するキャビネットアートについて、朴氏は「大きな翼はビッグメモリの空間を、空飛ぶ馬は高速GPUコンピューティングを表現しています」と話してくれた。「また、これまで運用されてきたCygnusの兄弟機という意味合いもあります。この2つの星座は、空でほぼ隣り合っているのです。」

ソースはこちら 朴教授のMVAPICHユーザーグループ(MUG)2022基調講演