ヨーロッパの最高速スーパーコンピュータがPascal GPUにアップグレード
Tiffany Trader and John Russell

既に7.8ペタフロップスでヨーロッパ最速のスーパーコンピューターであるCSCS (Swiss National Computing Center) のPiz Daint(Cray XC30のCPU/GPUハイブリッド機)は、NVIDIAの最新のPascalGPUアーキテクチャへアップグレイドし、Piz Dora (Cray XC40のCPU機)を統合して性能を倍増すると、GTC16の会場で発表された。Piz Daintは、昨年11月のTOP500リストでは7位だった。
5,200個のNVIDIA K20xsが4,500個のPascal GPUにリプレースされる。Pascalのどのバージョかはまだ決まっていない。IntelのプロセッサーもSandy BridgeからHaswellアーキテクチャーへアップグレードされる。移行が完了した暁には、単一システムに統合される。新しいシステムはPiz Daintの名前を引き継ぎ、2つのタイプの計算ノードをユーザーに提供することになる。CPU-GPUのハイブリッドノードとCPU専用ノードである。Piz Daintの設置面積は幾分かは小さくなり、数ノードから数千ノードまでスケーリングできるシミュレーション環境やデータ解析環境を提供できるようになる。
「私たちは、宇宙論、材料科学、地震学や気候学などの様々な分野でのシミュレーションを進展させるために、NVIDIAのGPUを活用しています。」と、CSCSの責任者でもあるETHチューリッヒのThomas Schulthess(シュルテス)計算物理学教授は語った。 「Teslaアクセラレータは、私たち研究者が現状では手が届かない巨大で複雑な問題を解決するためのコンピューティングに向けての飛躍を意味しています。」
Pascal GPUは、前世代のアーキテクチャよりも3倍の帯域幅を提供する第二世代の高帯域幅のメモリ(HBM2)や、これまでには前例のない程のエネルギー効率を示す16nmのFinFET技術などの画期的な技術が採用されている。
![]() |
NVIDIAのTesla P100の前線であるPiz DaintはクレイのDataWarp技術を組み込む予定である。 DataWarpのいわゆるバーストバッファモードは、長期保存用ストレージのI/O帯域幅を四倍にする。DataWarpによりデータは非常に迅速にストレージからの入出力できることになる。それは何百万もの小さい非構造化ファイルを分析するための道を開くことになる。その結果、Piz Daintは計算がまだ継続しているのに、最初の結果を分析のためにスーパーコンピュータの特定領域に転送する様なことができるようになる。
CSCSが重要な応用研究や科学分野のグランドチャレンジに取り組みその任務を遂行する上で、アップグレードされたシステムは大いに役立つ事であろう。Piz Daintは、CERNの大型ハドロン衝突型加速器からのデータを分析するために使用される。さらに人間の脳プロジェクトにおける高度分析と計算プラットフォームの研究を加速させる。もちろん、気象と気候の研究を継続されるだろう。さらに、ディープ・ラーニング - これはNVIDIAのイベントのハイライトだったが – を含む種々のドメイン領域でも利用されるであろう。
「今日、ETHチューリッヒにおける機械学習の研究の多くは、ワークステーション上で行われている。その研究者達は私たちのスーパーコンピュータ上ではるかに大きな規模で研究を行うことができることを認識し始めている。」と、Schulthessは述べた。
Schulthessは、Pascalアーキテクチャへのアップグレードと2つのシステムの統合によりもたらされる最も重要な利点として次の三つを上げた。
- <メモリ帯域幅>彼はかなりのメモリ性能を向上を見込んでいる。「正確にどの程度性能向上があるのか、我々は見極める必要があります。おそらくNVIDIAでもまだわからないでしょうが、我々は、メモリ帯域幅の増加に期待しています。GPU上の多くのアプリケーションがメモリバウンドなので、それは本当に重要です。」
- <PascalとHaswellの組み合わせ>「K20xとSandy Bridgeの組み合わせと較べてPascalとHaswellの組み合わせの特徴は、PCIeのGen3の登場により際立ちます。例えば、気象予報コードや気候解析コードのようなジョブのに見られるように、多くのノードのGPU上のメモリに処理が分散されているケースを想像してみてください。今は、何のボトルネックもありません。 GPUは、同じ帯域幅でお互いに話ができます。昔は、CPUとGPUの間が遅かったのですが、今はそのボトルネックもなくなっています。」
- <総合パフォーマンス>「Pascalは、非常に高性能です。この高性能と優れたメモリ帯域幅との組み合わせは、システムのスループットを大幅に向上させることを私は期待しています。そして、新たに開発された素晴らしいアプリケーションとディープ・ニューラルネットワークから生み出されたライブラリ群をシステムに搭載します。Pascalは、これらの事を可能にしてくれます。」と彼は述べた。
「Piz Daintは、計算バウンド、メモリバウンドの双方のアプリケーションの性能を倍増すると私は確信しています。 私たちは、単にFLOPSの話をしているわけではありません。私たちは、アプリケーションの性能について話しているのです。」 と彼は続けた。
![]() |
CSCSは新しいPiz DaintによりTOP500に向けてLINPACKベンチマークを再度実行するだろう。Schulthessによれば、それはすべてのスーパーコンピュータセンターが高い数値を望むものではあるが、それと同時に「LINPACKはハードウェアの問題がないか探すことに非常に適しています。それは前回もそうだったし、今回そうだろうと確信しています。」
新しいシステムのエネルギー効率がどれくらいまだ明らかではないが、Schulthessは、それは悪くはなっていなく、おそらく良くなっているだろうと考えている。
「FLOP値とかワット当たりのFLOP値とかいうのは、システムのパフォーマンスを見る上では非常に狭い視野に立っています。アプリケーションによる解決までの時間、解決までのエネルギー消費という観点で見るべきです。このことはすでにいくつかの論文で発表していますが、我々が望んできたのものは、解決までの時間が十分納得できるものかどうかという事です。」と彼は述べた。
「天気予報が良い例です。役立つ予報の計算をなるべく早く完了させる必要があります。問題解決までの時間が十分に納得できるのであれば、次は本当に問題解決までのエネルギー(ワット当たりのFLOP値ではなく)を最小化したい。」と、彼は指摘する。
CSCSは、Intelの次期製品Xeon Phiの使用を模索しており、Intelとの作業が進行中であるが、まだコメントできる段階ではないようだ。ソフトウェア開発は、もうひとつの主要な投資領域であり、と、Schulthessは続ける。「ハードウェアよりもはるかに重要です。私たちは、将来的には投資を倍増させる計画です。CSCSとしては、ARMを含め全てを視野に入れています。それらの話は全く別のストーリーになりますが。」
言うまでもなく、Piz DoraのPiz Daintへのマージは柔軟性を拡大するのみならず、伝統的な「モデリングとシミュレーション」だけではなくビッグデータ分析をも扱うことができる統一的なプラットフォームを構築するという動向に沿ったものだ。
例えば、データが同じシステム上に常に存在するなら、データをプリプロセスし、シミュレーションを逐次スケールアップすることができる。
「前処理用にCPUが必要で、シミュレーションにはGPUアクセラレーションが必要な場合は、前処理側からGPUアクセラレーション側にデータを移動します。それを、パーティション間のデータ移動で、ノード当たり毎秒10ギガバイトで行います。これは、異なるシステムから移動する場合のI / O帯域幅よりもはるかに速いスピードです。我々のシステムは、ワークフロー全体について非常に高い性能を示し、科学者にさらなる利便性を提供できる事になるでしょう。 」と、Schulthessは言う。
しかも、ビッグデータ分析ツールやその技術の取り込みは、科学領域においても新しいアプローチを採用する契機となる。 「まず、システム上でデータ分析を行える様にすることです。私にはHPCコミュニティにとってそれ以上の重要なメリットがあるように思います。データ分析コミュニティは異なるソフトウェア環境を利用しています。必彼らはPythonやSPARKを要とします。しかもバッチではなくリアルタイム利用です。もしPythonとかSPARKをスーパーコンピュータ上で走行させることができたら、我々は伝統的な科学技術計算コミュニティに対してもそれらを使いやすく形で提供することができるでしょう。」
彼は、一例として気候や気象に関するCSCSの取り組みを引用した。「あなたは気候科学者に将来はFortranではなくPythonでそれらのモデルを記述させたいとは思わないでしょうが、それには正当な理由はありません。Pythonを使えば、彼らのモデル開発における生産性はかなり向上するでしょう。古いスタイルのスーパーコンピュータの世界では、これらについての議論はありません。しかし、データサイエンス分野の圧力のおかげで、我々はこれまでより使い易いソフトウェア環境を計算科学者のために提供しようとしています。私にとって、それはディープ・ラーニングと同様に興味深いテーマで、しかも科学者の生産性を向上させてくれるものです。」
NER SCのDocker-Shifterに代表されるハイエンドHPCにおけるコンテナ技術の台頭については、CSCSはGPUのDockerサポートをNVIDIAと協力していると、Schulthessは述べた。
Schulthessは刷新されたPiz Daintが立ち上がり、一年でフル稼働できると予測している。「私たちの要件は非常に 高く、手抜きをするつもりはありません。今日のPiz Daintからアプリケーションを新システムに移行すれば、それらは飛ぶように速さで動くだろう。私は問題が起こるとは思っていません。」主な理由は、Pascal GPUの後方互換性にあるのだろう。 NVIDIAによれば「それはすべてのCUDAです。5年前のアプリケーションがそのまま使えます。スケールアップしただけです。」