世界のスーパーコンピュータとそれを動かす人々


12月 1, 2021

SC21で明らかになった中国エクサスケール・システム3台:2台稼働、1台遅延

HPCwire Japan

Tiffany Trader

先日開催されたSC21において、噂されていた2つの中国製エクサスケール・システムの詳細が明らかになった。11月15日(月)に開催されたTop500メディアブリーフィングで、これらのシステムについて質問されたTop500のリスト作成者で共同設立者のJack Dongarraは、非常に素晴らしい結果を知っていると答えたが、Sunwayの新システム「OceanLight」を見たかどうか直接尋ねられた際にはコメントを控えた。

しかし、SC21 Top500 BOFに招待されたゲスト、Asian Technology Information Program (ATIP)の創設者であり、アジアにおけるHPCの著名な専門家であるDavid Kahanerは、火曜日の夜に行われたBoFにおいて、はるかに詳細な説明を行なった。

「正直に言うと、今年はCOVIDのために中国に行っていません。でも、何人かの方に協力していただいています。ですから、私が持っている情報は正確だと思います。」とKahanerは開口一番に述べた。

Kahanerは、現在中国では2台のエクサスケール(高性能LINPACKで1エクサフロップス以上)システムが稼働していると主張し、遅延している3台目のシステムがあると報告した。

複数の情報源がHPCwireに対して、システムの場所や報告されたLinpackスコアなど、Kahanerが提示した核心的な詳細を確認しており、特に新しいエクサスケールのSunwayシステムに関しては、情報の多くを裏付ける複数の査読論文がある。


オーシャンライト(OceanLight)

OceanLightと呼ばれるSunwayの新マシンは、TaihuLightの後継機である。Sunway TaihuLightが中国の無錫(名前の由来である太湖の近く)にあるのに対し、OceanLightは中国にとって戦略的に重要な港湾都市である青島に設置され、中国の近海地域に開かれている。(HPCwireがこのシステムを最初に報じたのは2017年のことだった。)

ATIPの調査によると、青島のスーパーコンピューティングサイトは、海洋科学とその関連活動にフォーカスした、新しいミッション指向の研究所である。「このマシンは、中国国外からはあまりアクセスされていないでしょう。というのも、このマシンが置かれているラボは、非常に特定のミッション指向の方法でフォーカスされているからです。」とKahaner言う。

OceanLightは2021年3月に完成し、理論ピークの1.3エクサフロップスのうち、1.05エクサフロップスとされるLinpackを実現したと報じられている。「それは公式なものではありませんが、複数の人からそう聞いています。」とKahanerは言う。

Sunwayの新マシンは、先週発表された最新のTop500リストには掲載されていないが、2021年のゴードン・ベル賞にノミネートされた6つの研究チームのうち、受賞論文を含む3つの研究チームがこのシステムを活用している。今回の受賞論文は、「Closing the “Quantum Supremacy” Gap: Achieving Real-Time Simulation of a Random Quantum Circuit Using a New Sunway Supercomputer」である。論文の著者によると、OceanLightは、量子回路シミュレーションにおいて、単精度で1.2エクサフロップス、混成精度で4.4エクサフロップスの持続的な性能を達成しており、「量子回路の古典的シミュレーションに新たなマイルストーンをもたらした」とのことだ。

OceanLightは、改良されたSW26010Pro CPUをベースに、国内で設計・製造された新世代のSunwayアーキテクチャを採用している。SW26010Proプロセッサのピーク性能は、倍精度で14.026テラフロップス、半精度で55.296テラフロップスであることが、ゴードン・ベル賞にノミネートされた別の研究グループ(著者:Extreme-Scale Ab initio Quantum Raman Spectra Simulations on the Leadership HPC System in China)によって報告されている。このチームは、新しいSunway上で、I/Oを含む分光アプリケーション全体で、倍精度で最大468.5ペタフロップス、混合半精度で813.7ペタフロップスの性能を報告した。

SW26010Proプロセッサのアーキテクチャ。出典はこちら。その他のアーキテクチャの詳細については付録をご覧ください。

 

ゴードン・ベル賞を受賞した量子回路に関する研究の最大の実行結果は、107,520個のSW26010Pro CPUに展開された。1CPUあたり14.026倍精度テラフロップスを掛けると、1.51倍精度エクサフロップスのピーク値になる。これは、Kahanerチームが報告したシステムピークと完全に一致するものではないが、Linpackテストでは異なるシステム構成が使用された可能性がある(よくあることだが)。

天河3号(Tianhe-3)

Kahanerの講演で取り上げられた中国の2番目のエクサフロップスシステム「天河3号(Tianhe-3)」は、北京の東に位置する天津市にある。2010年に中国で初めてTop500の1位を獲得したTianhe-1Aと同じ場所だ。Tianhe-3は、FTP Armチップ「Phytium 2000+」とMTPアクセラレータ「Matrix 2000+」を搭載している。ATIPの調査によると、このシステムは先月末に完成したとのことだ。ピーク時の性能は1.7エクサフロップス、Linpackでは1.3エクサフロップス強と推定されている。「一昨日、Linpackの最初の実行で、1.3エクサフロップス(HPL)という数字が出たと聞いたばかりです。この施設は、中国以外の人々にも開かれているかもしれません。そうなることを願っています。」とKahanerは語っている。

Sugonシステム

Kahanerは、開発中の3番目のエクサスケールシステムはもっと複雑だと報告した。深圳の国立スーパーコンピューティングセンターは、2022年の設置に向けて、2エクサフロップスのシステムの開発と導入を中国企業のSugon(通称Dawning)に依頼していたが、プロジェクトは遅れている。

想定していたプロセッサは、Sugon社のCPU「Hygon」の新バージョンのはずだったが、米国政府の規制により、どのようなコンピューティングプラットフォームが使われるのかが明らかになっていない、とKahanerは言う。Hygon Dhyanaは中国製のAMD x86 CPUで、2019年に米国企業リストに追加された中国の持ち株会社であるTHATICとAMDの合弁会社を通じてライセンスされたものだ(関連報道参照)。ISC21では、深圳のSugonエクサスケールシステムは、新バージョンのHygon CPUをHygon DCUアクセラレータ(「GPUのようなもの」)に接続し、Sugonのカスタム液浸技術を使って冷却することが報告された(北京大学のDepei Qian)。

 

「このスライドのポイントは、”中国には実際に2台のエクサフロップスシステムがある “ということです。」とKahanerは言う。

拡大するHPCプログラムをサポートするため、中国は国家スーパーコンピュータセンター(NSCC)のネットワークを拡大している。現在、8つのNSCCが稼働中で、2つのNSCCが開発中であるが、その場所はおそらく大連と西安だろう。

 

エクサスケールシステムに加えて、数百ペタフロップスの大規模システムが、すでに稼働しているか、まもなく稼働する予定であるとKahanerは述べている。HPCwireが話を聞いた複数の信頼できる情報源によると、そのような2つのシステムが2019年のTop500に暫定的に提出され、~260ペタフロップスと~315ペタフロップスのLinpackでベンチマークが行われたが、リストが公表される前に取り下げられた。

 

エクサスケールでも、いわゆるプリエクサスケールでもないこれらのシステムは、いずれもTop500のリストに入っていない。また、中国には「Top100」と呼ばれる独自のTop500があるが(SC21の前週の金曜日、11月12日に発表された)、このリストにも該当するものはなかった。中国のTop100リストの第1位は、Linpackの125ペタフロップスでベンチマークされたクラウドシステムである。2位はSunway TaihuLight(現在Top500の4位)で、93 Linpack ペタフロップス。第3位は、不特定多数のネットワーク組織によるもので、87 Linpack ペタフロップスを記録している4位は「Tianhe-2A」で、61 Linpackペタフロップスを達成している(Top500では7位)。第5位は、56 Linpackペタフロップスを提供している、別の不特定のネットワーク企業によってホストされている。

ATIPの推論によれば、より透明性の高い順位は次のようになる。

 

「なぜ、これらの大きなマシンは、中国のリストにも米国のリストにも載っていないのか?」とKahanerは問いかけた。Kahanerは自分の考えを述べることは避けたが、観客にその理由を考えてもらうことにした。

Dongarraに、このように多くのシステムがTop500のリストに載らないことの意味と影響について尋ねた。

「もちろん、正確な数を把握し、歴史的な観点から何が起こっているかを追跡するためには、すべてのマシンがリストに掲載されることを望みます。しかし、最終的には、リストを提出しなければならないという規則がありますので、リストを提出する意思がなければなりません。リストの有用性は…もし皆がリストに投稿したくないと決めたら、その時点でリストは停滞して死んでしまうでしょう。ですから、リストに追加のマシンが載ることは良いことだと思います。しかしやはり、彼ら(中国政府)が感じているであろう、この時点でトロフィーを取り戻すことができないという懸念が、何よりも大きいのです。」

付録

このSunwayシステムの説明は、2021年にゴードン・ベル賞にノミネートされた、トカマクプラズマの大規模シミュレーションの結果をまとめた論文から抜粋したものだ。研究者らは、201.1倍精度ペタフロップスの持続的な性能を報告し、最速の反復ステップでは298.2倍精度ペタフロップスを達成した。

 
   

Sunway TaihuLightの後継機であるSunwayの新しいスーパーコンピュータは、103,600個以上のSW26010Proヘテロジニアス・メニーコア・プロセッサで構成されています。SW26010Pro CPUのアーキテクチャを図5に示します。SW26010Proプロセッサの各チップには、6つのコアグループ(CG)が搭載されています。各CGは,マネージャ・ワーカー型のメニーコア・アーキテクチャを実現する最も基本的な単位でです。CG内には、マネージャーコアとなるMPE(Management Processing Element)と、ワーカーコアとなる8×8グリッドに配置された64個のCPE(Computing Processing Element)が配置されています。SW26010ProのCPEは、従来のSW26010と比較して、256KBのスクラッチパッドメモリ(SPM)を搭載し、より広い512ビットのSIMD演算に対応しています。CPEのSPMは、ユーザが制御するローカルデータメモリ(LDM)としても、自動データバッファリングのためのハードウェアキャッシュとしても設定できます。Sunwayの新しいスーパーコンピュータに搭載されているソフトウェアスタックには、カスタマイズされたMPIライブラリ、C、C++、Fortranをサポートするコンパイラ、CPE上でスレッドレベルの並列プログラミングを行うためのAthreadというベンダー提供のライブラリ、4,000万以上の異種コアの管理をサポートするジョブスケジューラなどが含まれています。