CORAL、エクサスケールの新しい夜明け
Nicole Hemsoth

アーキテクチャの方向性が大規模スーパーコンピュータの次の波に設定されていたかのように目を向け始めた丁度その時、本日、かなりの大改革を提供した。
そして公正に言って、新しいアーキテクチャをプリ・エクサスケールの現実に変えるために費やされる単なる金額のみではなく、エネルギー省から新システムの資金として提供される、FastForwardイニシアチブの下でエクストリーム・スケール技術支援に対する追加1億ドルを含んだ3.25億ドルもの契約を見るのは本当に稀である。
圧倒的な投資の数字を除いて、起きている事の中で興味深いことはアーキテクチャだ。それゆえに、いかにセンターがエネルギー効率、エクストリーム・スケールな科学的およびセキュリテリ課題の優先順位付けを考えているかが意味するとことの面と、恐らくある程度、国家的スーパーコンピューティング能力におけるアメリカ合衆国のやや少ない支配的地位において重要である。
Titabおよび加速機能付きのIntel-powered x86マシンのトレンドを継承する最初のこれら2つの新プリ・エクサスケール・システムが、オークリッッジ、リバモアおよびアルゴンヌ国立研究所間のCORAL共同プロジェクトとして出現することを多くは予測していたが、この予測はOpenPowerのメンバーである、IBM、NVIDIAおよびMellanoxの緊密な共同によるGPUを誇るシステムの新しいクラスに関する本日の発表でIBMによってひっくり返された。
このシステムの初期の概要を確認する前に、昨年中疑問視されたIBMの将来のスーパーコンピューティングにおける役割におけるまさにその位置付けがさらに驚きの発表にしたことは注目する価値がある。彼らのコアであったHPC指向サーバビジネスのLenovoへの売却から静寂なBlue Gene時代の終了までにおいて、彼らの興味はも全てのデータセンター(ユニークなシステム選択をするHPCではなく)に対するもっと一般的なPowerベースのアプローチにシフトしていると思われていた。
しかし公平に見て、これらはまだ彼らがしていることだ。システムに関する大規模な調達は当然必ずしも異なるHPC製品ではく、インテルの独占を覆す全体的なOpenPowerのプッシュにおける、より高度で前向きな変わり者かもしれない。しかし、MellanoxぉよびNVIDIA、特に後者のNVLINK技術からのキーとなる技術と、本日初めて耳にする「Power9」と呼ばれるこの新世代によって、IBMはより広いデータセンター市場向けのPowerアプローチを洗練させる一方で、ハイエンドの先端を維持する方法を見つけ、これらの技術が成熟するにつれて、スケール、最終的に大規模スケールでの試験に供していくのだ。
このすべての結果は、2017年のタイムフレームでインストールされる2つのシステムとなる。Summitは、オークリッジ国立研究所に設置され、気候モデルから他のオープン・サイエンス・イニシアチブまでの大規模な科学的試みに専念する。ほうひとつはSierraと呼ばれ、ローレンスリバモアに設置され、安全保障と武器備蓄管理に重点がおかれる。
両方ともGPU付きのシステムで、NVIDIAと2016年に予定されているPascalから2世代離れた、世代を継承するVoltaアーキテクチャが協調することで、少ないノードにすべての性能を詰め込むことができる。鍵は、これらを浮動小数点能力だけに従来評価されてきたスーパーコンピュータの先のステップとしてIBMが支持する「データ中心」のスーパーコンピュータにする意味で新しいリミットを押しあげるNVLinkインターコネクトだ。
我々は関連するピースの中で、これを迅速に追随し、チップからインターコネクトへの予測されたアーキテクチャのより深いセンスを提供する技術を探している。しかし、このシリーズを始めるために、今後数年間の米国におけるエクサスケール・システムがどのように見えるかの最初の暗示のために、我々は試金石を提供したかったのだ。
ひとつのことが確かであり、はるかに少ない空間の中で多くのパンチがきいている。オークリッジのSummitシステムはピークで150から300ペタフロップスとなると期待されているが、Jeff Nicholsによると、このシステムの最も注目すべき側面のひとつは、パートナーのIBM、NVIDIAおよびMellanoxと、少ないノード数に、はるかに高い性能と巨大な共有メモリを詰め込むことができるアーキテクチャを創造していくために、いかに彼らが協調していくことができるかである。
現段階では、Summitは1/5のサイズでTitanの5倍以上の性能を持つ予定だ。- 大体3400ノードあたりで。
「この共有メモリ機能と低ノード数は、開発者が前に進むために重要です。」と彼は述べている。「私自身が計算化学者であることから言えるのは、開発者は管理するための少ないノードと、動かすためにノード当りの大きな共有メモリを好むのです。」
IBMが特にこの発表に盛り込んでいる「データ中心」のアプローチは、Summitシステムのもうひとつのキー機能である、とNicholsは述べている。オークリッジ国立研究所のTitanですでに提供されているアクセラレータを使った5倍から10倍の性能向上に加えて、大量の複雑なシミュレーションデータの管理をする機能は重要だ。「我々はもっと大量のデータ、もっと様々なデータを摂取することができ、Titanでさえ行うことができない新しい手法でモデルやシミュレーションデータを探求できるのです。」と彼は説明している。「エクサスケールに進むにつれ、まさにこれがそれに向かった早期のステップですが、このアーキテクチャ的な道に沿ってどのように将来のシステムを開発し展開していくのかの面において、我々は良い方向性を持っていると感じています。」計算とデータ中心のニーズを念頭において。
NVIDIAのSumit Guptaが我々に語ったところによると、これらの各ノードは非常に強力で、たった4ノードで今のTop500に入れるそうだ。「おそらくTop500に入るにはサーバは数ラック必要になりますが、GPU性能が非常に優れているので、たった4ノードで大丈夫でしょう。大規模のスーパーコンピュータがアクセラレータを使う中心的な理由はCPUだけだと大きな電力を必要とするからです。今日の150ペタフロップスのシステムはラスベガスの半分の電力を必要としますし、恐らくこれは大きく名改善されないでしょう。」
Guptaはさらに、CORALの協力者は高速だが、データが余計なホップなしに迅速に処理されるデータ移動のパラダイムを必要するプロセッサを望んでいるので、フォローアップ技術の深くを探求するNVLinkが中心であると付け加えた。
従来のPCIeで接続された伝統的なCPUとGPUは、クラシカルなハイパフォーマンス・コンピューティングには非常に良かったが、ハイスループット・コンピューティングにおいては、そのスケールのユーザは、ポイントからポイントへのデータ移動が効率的に行うことができるプロセッサを必要としている。
これらの機能は国家安全保障の中心である兵器備蓄管理プログラムにおいて鍵であり、ローレンスリバモアのSierraシステムは性能と効率における大幅な増加を提供することとなる。このマシンはピークで100ペタフロップスを超えると予定されている。
LLNLのMike McCoyが語るように、「シミュレーションは我々の備蓄管理プログラムにおいて重要です。再び核実験に戻ることがないようにすることが重要なのです。しかし、我々の3D兵器シミュレーションコードは3Dアプリケーションとマルチフィジックスのパッケージを必要とし、主要コードは容易に100万行を超えており、採用しているデータベースも言及していないのです。一日の終わりには、キーの国家安全保障の決断はこれらの計算の下に行われますが、常にある疑問はこれらのシステムが我々が必要とすることをしているのかどうか、どうやって知るかということです。」
彼自身の質問に答える中で、彼はOpenPowerメンバーのパートナーシップの価値について説明した。「これはオフザシェルフのアプローチではありません。このパートナーシップは強力で、開発におけるリスクは共有し、迅速に運用でき我々のニーズに答える事ができるプラットフォームを供給します。この努力はシステムインテグレーションのアプローチを通して達成しされ、コデザインと呼ばれるベンダーとコード開発者のチームとの緊密なインテグレーションとなります。これは興味深いほどに十分に過去に適用されており、先端性と性能を導きだしたBlue Gene Lのような先端性をもたらします。このパートナーシップはこれらの特性と未来のエクサスケール・システムの最初の世代を提供する大きな機会を表しています。」
「我々はインテルベースのシステムをORNLから退去させました、そして数年間、我々はここにはいなかったのです。これは我々にとって素敵な達成です。」とIBMのDave Turekが本日の会話の中で述べている。しかし、このニュースの本当の価値は、
FLOPS中心のアプローチからデータの問題を中心におく大規模システムへの最初の地震的シフトを表している事だ。
「直接的な計測による市場の進化の面で見ている事以上のもののためだけでなく、モデルとシミュレーションを分析と同時に処理することがいかに必要かという意味で、我々は援助されました。地震処理を例に取って10年前に戻ったとすると、莫大な時間がアルゴリズムと高速化に使われますが、会話を変えるのはデータの根本的な流入です。このような例で展開されているインフラを点検する時には、ソートと管理する計算に持っていくべき膨大な量のありふれたデータがあるのです。」
このような取り組みは、IBMのスーパーコンピューティング製品のオーバータイムを支持しているのと同じように、この新しいコラボレーションは、企業のシフトを表している。IBMは実際には全く新しいHPCロードマップを確立した。すべてのコンセプトはデータ中心コンピューティングだ。これらのシステムで、性能、データ移動、メモリおよび全体的なフットプリントのバランスが、NVIDIAとIBMの支援で現在開発中の高度なスケーラブル・コードの新世代のニーズとバランスしている。