中国、93ペタフロップスの国産プロセッサ搭載Sunwayを投入
Tiffany Trader
この噂はすでに聞き及びかもしれないが、ついに公式となった。中国はLINPACKで93ペタフロップスの性能(ピークでは125ペタフロップス)を持つ中国製スーパーコンピュータを製作し、上海近くの無錫スーパーコンピュータセンターにインストールしたのだ。数日前にHPCwireは、TOP500のオーサーであるJack Dongarraが用意したこのシステムに関するフィードと速度を詳述し、強さと弱点に関する見通しを示すレポートを事前に入手していた。
当初は、Tianhe-2がIntelのXeon Knights Landing CPUの計画された搭載によって、中国の最初の100ペタフロップスマシンとなる予定であった。ISC TOP500リストの発表時において、中国が2台の100ペタフロップス・マシンを立たせるかもしれないという会話もあったが、中国への米国製プロセッサ技術の販売を規制する米国の禁輸措置は、タイムラインを押し戻したのだ。これは、中国を独自のチップ技術への取り組みに再びフォーカスさせることに拍車をかけることとなる貿易規制となった。この4月に中国の武漢で開催された第12回アジア・コネクションのワークショップにおいて、863計画の一部である国家のスーパーコンピューティングのロードマップの進行を支援している北京航空航天大学教授のDepei Qianは、「禁輸措置から学んだ教訓」のための「自己制御可能なHPC技術」に必要性を強調した。
ISC 2016の会期中に、完全に実現されたTianhe-2のさらなる詳細が公開されるだけでなく、現在Tianhe-3が目標とされる最初のエクサスケール・システムとして名付けられている国家のエクサスケール計画のアップデートを期待している。(中国が2020年までにピークで1エクサフロップス・マシンを作ることを発表したのを思い出して欲しい。)
![]() |
Sunway TaihuLight Systemの計算機室 |
この新しいマシンである、Sunway TaihuLight(神威太湖之光)システムは、理論最大性能125ペタフロップスに対し実行効率が74.51パーセントとなる93ペタフロップスを達成した。実行では、1.2ペタバイトの総メモリを使用して165,120ノードが使われた。(各ノードは7.2テラバイトのメモリ) 実行時間は3.7時間で、平均消費電力は15.37MWであった。これはプロセッサ、メモリおよびインターコネクト・ネットワークを勘定するとワット当たり6ギガフロップスのエネルギー効率となる。Climaveneta社製の28MWの冷却システムは、カスタマイズされた液体の水冷ユニットを使った閉結合型冷水冷却を使用している。
TOP500の新チャンピオンとして、Sunway TaihuLightは、2013年6月に中国が米国オークリッジのTitanマシンをノックアウトして以来3年間(6回分の間)トップの座についていたTianhe-2の座を盗んだのだ。注目すべきは、中国はまたリストのシステム・シェアと性能シェアまでも米国から盗んでいった。
Sunway TaihuLightの計算の中心はSW26010プロセサで、上海ハイパフォーマンスIC設計センターが設計している。
各プロセッサは次の4つを搭載している:
次のように構成される:
最初の図は、ネットワーク・オン・チップ(NOC)に接続された1つのコア・グループ(CG)を示している。各CGは、1個の管理処理要素(MPE)と8×8のグリッドに配置された64個の計算処理要素(CPE)から構成されている。
2番目の図は国産マルチコアSW26010プロセッサ(Sunwayの1個の計算ノードとなる)を示している;これは4個のCPEと4個のMPEの合計260コアから構成されている。4つのメモリコントローラ(MC)、そしてシステムインタフェース(SI)に接続されている1個のネットワークオンチップ(NoC)がある。4つのMPE、CPE、MCは8GBのDDR3メモリにアクセスすることができる。完全なシステムでは、40,960個のノードと、10,649,600個のコアと、1.31ペタバイトのメモリがある。
報告書に詳述されているように、「MPEとCPEはRISCアーキテクチャで64ビットのSIMD、アウトオブオーダーのマイクロアーキテクチャをベースとしています。MPEおよびCPEは共にユーザのアプリケーションに参加します。MPEが性能管理、通信、および計算とするのに対し、CPE主に計算を行います。(MPEはまた計算に参加することもできます。)」
続けて:「CPEの各コアは、コア毎にサイクル当たり8フロップスの計算が可能な単一の浮動小数点パイプラインを持っており(64ビット浮動小数点演算)、MPEはパイプライン毎にサイクル当たり8フロップスの演算ができる2本のパイプラインを持っています。(64ビット浮動小数点演算) コアのサイクル時間は1.45 GHzなので、CPEコアはピーク性能で8 flops/cycle * 1.45 GHzで11.6ギガフロップスとなり、MPEのコアはピーク性能で16flops/cycle * 1.45GHzの23.2ギガフロップスとなるります。物理コア毎には1個の実行スレッドだけです。」
カスタムに構築されたSunwayのインターコネクトはPCIe 3.0接続を使ってSunwayネットワークの一部としてノード間を接続している。ネットワークは3つの異なるレベルを採用している:最上位に中央スイッチ・ネットワーク、中間にスーパー・ノード・ネットワーク、そして一番下にリソース共有ネットワークがある。バイセクション・ネットワーク帯域幅は70 TB/sで、ネットワーク直径は7である。ノード間MPI通信は12 GB/秒でレイテンシは約1マイクロ秒である。
完全なシステムは40台のキャビネットに広がっており、各キャビネットは256台のノードで構成されるスーパーノードを4台搭載している。掛け合わせると、合計で40,960ノードとなり、10,649,600コアとなる。各ノードにおけるピーク浮動小数点演算性能は3.06テラフロップスである。
システム・ソフトウェアはオペレーティング・システムとしてLinuxをベースとしたSunway Raise OS 2.0.5が含まれている。DongarraのレポートではまたC/C++ やFortranコンパイラのような基本コンパイラ、自動ベクトル化ツール、および基本数学ライブラリについても記載されている。SunwayのOpenACCはOpenACC 2.0をサポートしている。
中国のスーパーコンピューティング・リーダシップでは、新しいSunwayマシンに4つの主要領域を目標としている:高度な製造(CAE、CFD)、地球システム・モデルと気象予報、ライフサイエンス、そしてビッグデータ解析だ。
中国はソフトウェア開発に先立ってハードウェアを行うために過去に呼び出されている。中国はSC16で発表される予定のGordon Bell賞のファイナリストに少なくとも3つのアプリケーションがあると公表している。アクセプトされたのは、” a fully-implicit nonhydrostatic dynamic solver for cloud-resolving atmospheric simulation”、“a highly effective global surface wave numerical simulation with ultra-high resolution”、“a large scale phase-field simulation for coarsening dynamics based on Cahn-Hilliard equation with degenerated mobility”だ。Dongarraのレポートは、この3つのプリケーションすべてがシステム全体の80パーセント以下である8百万コアまでスケールしていると指摘している。
システムに関する彼のレポートに中で、93ペタフロップスのLINPACKがピーク性能の74パーセントに達し、ワット当たり6ギガフロップスを達成したことの重要性を指摘し、Dongarraは成果の大きさを認めている。「このSunway TaihuLightは首位に取って代わるくらいに、2倍高速で3倍の効率を持っているのです。」と彼は書いている。「かなりの数のアプリケーションとシステム上で稼働するGordon Bell候補のアプリケーションがあるという事実は印象的で、このシステムが単なるスタントマシンではなく、実際のアプリケーションを実行する能力があることを示しています。」
しかし、LINPACKがすべての話を教えてくれないことを我々は知っている。HPCGベンチマークにおいて、Sunway TaihuLightはたった.0371ペタフロップスしか出ていない。0.580ペタフロップスのTianhe-2、2009年にインストールされたJaguarのアップフレードで、2017年にオンラインになる200ペタフロップスのSummitが来た際にはリプレースにある0.322ペタフロップスのTitanと比べてみよう。
「ピーク性能のたった0.3%となるHPCGの性能は低速なメモリと控えめなインターコネクト性能であるこのアーキテクチャの弱点を示しています。」とDongarraは書いている。「なので多くの”実”アプリケーションにおいては、性能はピーク性能の辺りにはならないでしょう。」
名高いテネシー大学教授が以前に行った点である。第12回アジア・コネクションのワークショップにおいて、「ピークとHPLは非常に誤解を招く可能性がある」ということと、ほとんどのアプリケーションはこの最高水準点の近くに達成しないことを警告している。
また、プロセス技術において米国に遅れをとっている中国の疑問もある。我々はその仕様が公開されるのをまだ待っているが、次世代Shenweiが28ナノのプロセス技術で製造されると予測されている点である。我々は利用可能になり次第、その情報ばかりでなくメモリ帯域幅やファブリクI/O についてアップデートしていく。
このレポートの締めとして、ナンバーワンシステムをもう1台製作した中国の強みを指摘している。「完全に国産プロセッサベースとなった中国の最初のトップシステムとして、Sunway TaihuLightシステムは中国が大規模なシステムを設計、製作する領域に達する重要な進展を示すこととなりました。かなりの数のアプリケーションと本システムで稼働するGordon Bell候補のアプリケーションがあるという事実は印象的であり、このシステムが単なるスタントマシンではなく実アプリケーションを実行する能力があることを示したのです。」