「Summit」への路:ハイブリッド試験クラスタ
Tiffany Trader
エネルギー省(DOE)のプリ・エクサスケール・スーパーコンピュータ Summitは2018年早々までは稼働しない予定だが、オークリッジ・リーダーシップ・コンピューティング・ファシリティ(OLCF)のスタッフは昨年11月にこの契約が発表されてから、Summitが来る準備を行っている。計画の度合いは、150から300ペタフロップスの性能が予測されているそのクラスでは最初のマシンのひとつとして現れることに関する支出とリソースを単に自然に考慮するものである。
Summitの準備をするために、OLCFのスタッフは – OLCF科学計算グループ(SciComp)、技術統合グループ(TechInt)、およびハイパフォーマンス・コンピューティング運用グループ(HPC Ops)を含む – PikeとCrestの2つのクラスタからなる構成のテストベッドを昨年早々に建設しており、各クラスタはSummitのハイブリッドCPU-GPUコンピューティング・アーキテクチャの各要素を表すように設計されている。PikeとCrestの動きを探る事で、Summitへの移行が出来る限りスムーズに行くようにするために、スタッフとベンダーは予防的な方法で問題を特定して修正する機会を持っている。
このクラスタは両方ともSummitを駆動するIBM Power9の先代であるPower8パーツを搭載しているが、Summitの異なる面を評価することを可能にするために、別な方法で異なっている。
Crestは演算テストベッドで4ノードで構成されており、各ノードは前述のPowerチップと4個のGPUを搭載しており、Summitが将来のNVIDIA Volta GPUを搭載するために、おそらくは最も最新のTeslaチップだ。Crestは、科学コードのスケールアップとソフトウェアの早期バージョンの試験に利用される予定だ。
「私達はコンパイラをチェックし、ビルドし、そしてコードを実行します。;それがこの良い結果となるのです。」とHPC Opsのシステム管理者であり、CrestのチームリーダーであるDon Maxwellは語っている。「我々はまたIBMがSummit用に開発している新しいソフトウェアが我々の要求を満たしているか試験して確認するためにCrestを使い始めるでしょう。」
もうひとつのしテストシステムであるPikeは不揮発性メモリディスクが接続された14台のPowerノードで構成されている。OLCFがSmmitの高速データ・ストレージシステムに慣れる事を支援するように設計されている。OLCFは主にLustreファイルシステムに依存しているが、SummitはIBMの汎用並列ファイルシステム技術をベースにしたElasticストレージシステム(ESS)を使う予定だ。Pike上でベンチマークジョブを実行させることで、OLCFのスタッフは、メタデータ性能、ブロックI/O、ランダム/シーケンシャル性能、およびデータ管理などの属性を研究するための機会を持つ事ができるのだ。
CrestやPikeは、Summitに提案されている計算アーキテクチャの早期探求を可能にする最初の試験システムである一方、それらは決して最後のものではない。次に計画されている試験ユニットは、NVIDIAがPacscalやVolta GPUと一緒にデビューさせるSummitノードの統合インターコネクトであるNVLinkを組み込む予定だ。