富士通Post-FX10の詳細が明らかに
西 克也

今月アメリカで開催された「HotChip26」において「Post-FX10」に採用されるCPUの詳細が明かされた。HPCwire Japanでは昨年のSC13において展示されていた富士通の「Post-FX10」の早期記事を取り上げていたが、今週東京で開会された「サイエンティフィック・システム研究会」においてPost-FX10のさらなる詳細が明かされたので読者の方々にもお伝えしようと思う。
今回発表されたPost-FX10に搭載されるCPUである「SPARC64 XIfx」とこれまでの「京」で使われたSPARC64 VIIIfxおよびFX10用のSPARC64 IXfxの比較表を以下に示す。昨年SC13で公表された通りに4倍以上の性能となり、CPUあたり1.1 TFLOPSの性能を誇っている。
システム名 | 京コンピュータ | FX10 | Post-FX10 |
CPU | SPARC64 VIIIfx | SPARC64 IXfx | SPARC64 XIfx |
アーキテクチャ | SPARC V9 + HPC-ACE | SPARC V9 + HPC-ACE2 | |
動作周波数 | 2 GHz | 1.848 GHz | 2.2 GHz |
コア数 | 8 | 16 | 32(プラス、アシスタントコアが2) |
ピーク性能 | 128 GFLOPS | 236.5 GFLOPS | 1.1 TFLOPS |
演算器 | FMA x 4 (2SIMD) | FMA x 2 (256bit wide SIMD) | |
L1キャッシュ(命令)コア当り | 32KB | 32KB | 64KB |
L1キャッシュ(データ)コア当り | 32KB | 32KB | 64KB |
L2キャッシュ ノード当り | 6MB | 12MB | 24MB |
メモリ | DDR3 SDRAM | DDR3-1333 | HMC |
メモリ容量 | 16GB | 32GB/64GB | 32GB |
メモリバンド幅 | 64GB/s | 85GB/s | 480GB/s |
インターコネクト | Tofu (外部チップ) | Tofu2 (CPU内蔵) | |
リンクバンド幅 | 5GB/s | 12.5GB/s |
クロックが約20%アップしてコア数が2倍とはなったものの、性能が4倍以上に上がっているのは何故だろうか?これは新たに開発されたHPC-ACE2と呼ばれる演算器の改良によるものだ。これまでのFX-10に使われていたHPC-ACEにおいては、各演算器ではSIMDで2データ同時処理が可能であったが、HPC-ACE2では、SIMDを256ビットワイドに変更したため、同時に最大4個の倍精度浮動小数点データ処理が可能となっている。これによって、最大性能が4倍を超える1.1TFLOPSを達成している。
さらにCPUについては32コアの演算コアの他にアシスタントコアとして2コアが内蔵されている。これはFX-10まではI/Oノードとして別のノードが必要だったものをCPUに内蔵したものだそうだ。このアシスタントコアによって演算コアのOSノイズ(デーモンやIO割込み処理)を排除する役割を担っている。またL1およびL2のキャッシュサイズが倍増していることも注目すべきことだ。
メモリについてはすでに分かっていたようにHMCが採用されている。メモリ容量は32GBと小さいが、メモリバンド幅が480GB/sと5倍以上の性能になっており、コア数が倍増することによるデータ供給の増加に対応できるように考慮されている。またHMCを採用することにより低消費電力化にも成功しており、これまでのFX-10ではメモリの電力消費量が最大の場合CPUと同じ程度消費していたものが、Post-FX10ではCPUに対して四分の一程度の消費電力に抑えることに成功したそうだ。ただし、コア当りのメモリ容量は1GB/コアとなりこれまでの半分となるため、アプリケーションの開発には考慮する必要がありそうだ。また、メモリも水冷冷却となるとのことだ。
インターコネクトについては外部チップのTofuからCPU内蔵のTofu2へとバージョンアップされ、これによりリンクバンド幅も2倍以上になっている。シャーシ間の接続も光接続となる。
性能データについても今回一部公表された。SIMDが256ビットになったことによって演算性能がFX10に対しコア当り2.7倍から3.3倍に向上したとのことだ。また、ストライドおよびインダイレクトのロード/ストアの命令をSIMD対象の命令として追加されたことによる性能向上も見逃せない。組込関数の処理性能も向上させている。最後にアプリケーションの種類は流体系としか明かされていないが、いくつかカーネルによる評価試験結果もだされており、コア当りの性能はFX10の約1.7倍と報告されている。
![]() |
![]() |
![]() |
Post-FX10は12台のノードを1個の2Uシャーシに収めて19インチラックに収納可能だ。1ラックに最大216ノードを搭載できる。1ラック当りの最大性能は237.6TFLOPSとなる。これまでのFX10と同じく最大1,024ラック接続可能であれば最大243PFLOPSのマシンが構成できる。この性能は現在TOP500の首位である中国のTianhe-2の4.4倍の性能だ。最後にPost-FX10については正式な製品名はまだ決まっていない。