世界のスーパーコンピュータとそれを動かす人々


5月 19, 2015

NERSC、HaswellベースのCray XC40をCoriに導入

HPCwire Japan

Tiffany Trader

エネルギー省がエクサスケール関連のCoriシステムのために7千万ドルの契約を締結したおおよそ1年後に、第二のニュースとして小さめのシステムが日の目を見た。イベントの興味深い変化の中で、国立エネルギー研究科学計算センター(NERSC)は、インテルの「Haswell」を搭載した10キャビネットのCray CX40マシンで、この夏にイントールされる「Cori フェーズ1」システムを取得することを本日明らかにした。

この新システムは、2016年中旬の納入を目指して進行中の当初のCori契約(NERSC-8/Trinity調達パートナーシップの成果である)に追加されるものである。アメリカの生化学者Gerty Coriにちなんで名付けられた、次世代Cray XCシステムは、9,300台の自己ホスト型Intel Knights Landing (KNL)を搭載しており、最先端のスーパーコンピューティングのための明確な出発点であるメニーコアのアプローチを取っている。

フェーズ1のCoriは、Edisonを駆動しているインテルの「Ivy Bridge」プロセッサの後継である2.3GHzで動作する16コアのE5 v3 Xeonを採用している。Cray XC40は、ローレンス・バークレー国立研究所に新しく建設された計算研究と理論(CRT)施設における最初のNERSCシステムとなる予定だ。
NERSC初のペタスケール・スーパーコンピュータであるCray XE6のHopper、およびもう一つのシステムであるCarverはCRTには移設されない; しかしオークランドのダウンタウンにあるオークランド科学施設(OSF)からまもなく退役する予定だ。

NERSCの計算システムグループのリーダーであるJay SrinivasanはHPCwireに語ったところによれば、Hopperの退役と2016年予定のKNLベースのCoriとの間のギャップの架け橋になる、慣れ親しんだシステムとしてHaswellベースのCoriを特長付けるとのことだ。アップグレードされたXeonによって、新しいエネルギー源の開発、エネルギー効率の改善、そして気候変動の解明のための研究支援の中でユーザは中断することなくアプリケーションの実行を継続することができるのだ。

NERSCが総ピーク性能を明かすことに寡黙である一方で、Srinivasanはフェーズ1システムがピーク性能で1.28ペタフロップスを謳っているHopperと同等の持続アプリケーション性能をユーザに提供すると報告している。LustreファイルシステムとAriesインターコネクトベースのDragonflyトポロジーはNERSCの現在のEdisonスーパーコンピュータ(Cray XC30)と同一である。1,400台以上のHaswell演算ノードはEdisonの2倍の容量となる各々128ギガバイトのメモリを搭載している。

DOEのユーザにとって演算量の低下がないことを保証する以上に、プロセッサの拡張命令セットからさらなるメモリ帯域幅と加速化アプリケーションI/Oまでの他の特長が、「新しいワークフローと演算への進路を探求」ための機会を提供するのだとSrinivasanは語った。他のNERSCシステムでデータ集約型ワークロードを実行しているユーザは今やCrayプラットフォームでも実行するオプションがあると彼は付け加えた。

「彼らはEdisonを使っているのと同じようにHaswellマシンを使い始めることができるのです。」とSrinivasanは説明した。「彼らはコードを持って来て、初日に動かし始めることができます。そして他にも私達が持っている特長があります。高速スループットとシリアル・ワークフローを行うことができるインタラクティブ・ノードとバッチシステム・ポリシー、そして多くのデータ集約型ワークフローが必要とする演算ノードが外部データベースと対話することを許可していることです。ユーザはもっと多くのデータ集約型ワークフローをマシンに持って来て、このように使い始めることができるのです。ユーザは親しみのある確固とした基盤を持つことができ、そしてシステムを使用して新しい方法で構築を始めることもできるのです。一旦Coriがインストールされたら、従来の演算とデータ集約型演算が融合する全く新しい計算パラダイムが本当に提供されるのです。」

公式のプレスリリースでは、NERSCはデータ集約型アプリケーションにメリットがあるように設計されたいくつもの高度な機能について説明している。

  • 高度なワークフローを持ったアプリケーションをサポートする多くのログイン/インタラクティブ・ノード
  • リアルタイム・データ取得または解析を必要とするジョブのためのキューへの迅速なアクセス
  • スクリーニング、不確実性定量化、ゲノムデータ処理、画像処理、および同様の並列解析などのための大量のジョブを扱うことができる高スループットおよびシリアル・キュー
  • 演算ノードが外部データベースやワークフロー・コントローラと対話することができるネットワーク接続性
  • 高帯域幅低遅延I/Oのための約1.5テラバイト/秒のNVRAMベースのバーストバッファの前半
  • 28ペタバイト以上の容量と700ギガバイト/秒のI/O単位貴幅を持ったCray Lustreベースのファイルシステム

Coriの作業が完了すると、9,300台のKnights Landing演算ノード、および1,900台以上のHaswellノードが同じ高速ネットワーク上で一緒に結合され、NERSCの科学者達にアプリケーションI/Oの高速化において2倍の性能向上を提供するのだ。このスピードアップは、CrayのDataWarp「バーストバッファ」技術によるもので、プロセッサとディスク間でデータをもっと高速に移動するのにNVRAMを使っている。Coriフェーズ1のバーストバッファは約750テラバイトの容量と約750ギガバイト/秒のI/O帯域幅を持つ予定だ。完成したCoriスーパーコンピュータはこれらの倍の性能である、1.5ペタバイト以上の容量と1.5テラバイト/秒以上のI/O帯域幅を持つ予定だ。

NERSCのスタッフはこの場合、部品の合計よりも全体が如何に大きくなり、大規模なDOEユーザベースにユニークな利益をもたらすと強調している。

「ビッグデータとハイパフォーマンス・コンピューティングの間の線は、特に計算科学において、実際には非常にぼやけています。」とNERSCのユーザサービス部の責任者であるKatie Antypasは用意された声明の中で語っている。「結合されたCoriシステムはDOE研究者達の演算ニーズばかりでなく、単一のワークフローの一部であるデータおよび演算集約型ジョブの新たなニーズの完全なスペクトルを特に処理するように設計された最初のシステムです。例えば、科学者が高並列のKnights Landingノードでシミュレーションを実行しながら、一方でHaswellノード上でバーストバッファを使ってデータ解析を同時に実行するようなことができるのです。これが我々がエクサスケール時代のマシンで重要であると予測するモデルなのです。」

NERSCおよびCrayはまた、データ集約型科学を可能にすることを目的とした2つの進行中の研究開発を一緒に行っていることを発表した。ひとつのプロジェクトは外部に向けたより高速な帯域幅をも持ったネットワーク能力で、Coriのデータのポテンシャルを最大化することを模索するものであり、2つ目はカスタムのソフトウェアスタックの展開を行うために、Crayの演算ノード上でLinuxコンテナ仮想化機能を搭載することに

新システムの価格は公表されていないが、当初のCoriの契約とは別となっている。