世界のスーパーコンピュータとそれを動かす人々


8月 22, 2014

ロスアラモスが”Trinity”の情報を公開

HPCwire Japan

Nicole Hemsoth

我々はTrinityスーパーコンピュータに関するニュースを先取りしており、本日、クレイが2つのフェーズでマシンを提供し、最終フェーズが2016年に完了するというニュースを授かる名誉を与えられた。元々の背景については、話の最初であるこちらを見て欲しい。

その時以来、今朝私達は調達の中心の鍵となる考え方を持った一人である、ロスアラモス国立研究所のHPC部門のリーダーであるGary Griderと深い議論をする機会を持つことができた。彼の基本的な仕事は、調達の残り半分であるNERSCの「Cori」システムにおいて目立っているバーストバッファ(彼の造語)機能にあるが、彼はまたNNSAの基幹であるTrinityスーパーコンピュータのシステムレベルの選択をする手助けをしている。

ロスアラモスのチームは、研究所にある既存の戦略コンピューティング施設が新システム用に45,000平方フィートのスペースを持っており、その中にスペースを用意する必要がある追加の電力と冷却をインストールするのに既に忙しくなっている、とGriderは我々に教えてくれた。270台の次世代Cray XCのラックは、全てのスペースを埋める訳ではない、とGriderは語る。10,000平方フィートがウォームウォーター冷却装置に必要であり、これがラック内で循環するリサイクルされた水を保護された配管に供給しながら、HaswellとKnight’s Landingベースのノードを冷却するのだ。このように、新しいスーパーコンピュータが消費するであろう8-10 MWに関するいくつかの懸念を払拭しているのだ。しかし、さらに大きな構想では、ロスアラモスは先を考えている。電力と冷却の面において、30MWの能力を視野に入れて取扱いできるように施設自体を準備しているのだ。

我々はこのマシンがどのくらい大きいか伝えることができなかったが、すでに分かっている情報でピースを繋ぎ合わせ始めた。我々が持っているデータによると、次世代Haswellのコア数は14-18の範囲(恐らく最大24 、この四半期中におそらくインテルのアナウンスでわかるだろう)のどこかに収まるだろうし、追加のKnight’s Landingチップでは、オンパッケージメモリを装備し、60-72コアのどこかになることを我々は知っている。最後に、このシステムが当初の目標である30ペタフロップスを超えることをGriderは認めたが、どのくらいマシンがマークを超えるかは確かではないとのことだ。これについては直ぐにあなたの元に投機的な数字がくるだろう。しかし、もしマシンの半分がXeonだとしても・・・ヒュー!

本日先に述べたように、最新のHaswellのコアカウントと予想される性能/発熱が公表されたら直ぐに、我々は計算をするつもりだ。そして、自己ホスト型Knight’s Landingの将来性能についてインテルが今年後半に公表することなら何でも付け加えるつもりだ。

スーパーコンピュータのスコアを維持する人にとって(Griderはその人ではない。彼はFLOPSは気にしておらず、彼らの「Cielo」マシンの6倍から8倍の性能を気にしているだけだ。)、2015年から2016年のNNSAのスーパーコンピュータはちょうど、2年間もの間世界の1位を維持している中国のTianhe-2辺りの性能であることを思い出すだろう。しかし、業者が頼んで来ない限り、彼らはLINPACKを計画していないと、Griderは語っている。そして、もしクレイが株価における跳ね上がりが今日魅力的であると考えているならば、年に2回の他のトップのスーパーコンピュータのニュースは影響しないだろう。

プロジェクトの2つのフェーズが意味するところは、この施設がKnight’s Landingが来るのを待つことができないために、フロアに設置される最初のコアがHaswellになることである。NERSCにおける調達のもう一つの側面は、科学部(Office of Science)のマシンと研究者に与えるに十分な能力を持っているために、彼らがチップを待つことにさらに柔軟であることだ、と彼は語る。しかし、NNSAにおける問題はさらなる計算パワーが直ぐに必要だということだ。彼らはHaswellベースのマシンの最初のセットを2015年夏にインストール完了する予定だ。しかし、遅延は施設に関連するものだ。これらのマシンが入ってくる前に、電力と冷却基盤を保証する必要があり、最初のコンポーネントを予定しているインテルの部分には遅れることがないようストレスが掛かっている、と彼は語った。

Trinityマシンのノードの正確な構成は定かではないが、演算ノードは複数のHaswell Xeon E5 v3プロセッサだけでなく、複数のKnights Landing Xeon Phiもノード内に搭載されるようだ。これらすべてのデバイスはAries XCインタコネクトを使って、Dragonflyトポロジで接続される。

実際どのようにプロセッサがAriesインタコネクトとリンクするのかは明らかではないが、現在のAriesチップは48ポートのルータで4つのPCI-Express 3.0レーンが4台の2ソケットXeonノードとリンクしている。Ariesチップはまた、3つの異なるランクの接続を持っている:Rank 1はバックプレーンに、Rank 2は6台のXCエンクロージャの相互リンクのためのカッパーネットワーク、Rank 3は光ネットワークで複数のラックのペアを相互接続する。現在の設計において各サーバは、4台の2ソケットサーバとAriesインタコネクトを持っている。概念的には、同じサーバのフォームファクタ上に複数のXeon E5とXeon Phiを搭載可能だ。重要なことは、Ariesインタコネクトはシステム内のすべてのノードが互いに通信することができるということだ。システムは、クレイが「adaptive routing」と呼ぶものを持っており、ネットワーク内で輻輳を回避するように複数ルーティングが使えるようにしており、XeonプロセッサやXeon Phiチップをシステムに比較的容易に後で追加できるようにしている。

アーキテクチャ的な選択におけるひとつの小さな指摘は実際の選択肢の欠如にある。Griderは注意深くOpenPowerの奮闘を見ているが、かれらはNNSAにおけるミッション・ドリブンであり、現在は電力と帯域を必要としている、と彼は言う。OpenPowerはいくつかの魅力的な特徴を提示しているが、考慮するには長すぎる。

単機能GPUは同じ理由でオプションではない、とGriderは指摘し、「もしPCIバスより高速な帯域を持つ自己ホスト型GPUがあれば、我々はオプションとしておそらく考えるでしょう。再度申し上げますが、我々が決断を行う時間と、タイムフレームにおいて利用可能なチップを見るならば、現時点で他に何もないことが分かるでしょう。」

アーキテクチャ的な選択は既に予想以上に保守的であるとして、いくつか疑問視されているが、心に留めておくいくつかの事がある。オープン・サイエンス・センター(NERSCと含む)とは異なり、アプリケーションの要求は範囲の面で制限されている。Griderは次のように語っている。1ダース以下のコードが怪物で実行されるようにセットされているが、それらは長年にわたって洗練され、恵みを受けてきている。怪物が我々の核施設に来た際には混乱しない。アーキテクチャ的なボックスにコードが収まるように修正することは実際的でないし、さらには、それらが何を必要とするか明確に定義された認識を持っていることをこれは意味している。アーキテクチャの選択はとても保守的ではあるが、唯一の選択だ。

しかし、ここでは面白いことが何も起こっていないようだ。例えば、バーストバッファの言葉の発案者であり初期の研究者であるGriderは、可能な限りフラッシュアレイ以上の性能を追い求め、2015年に大規模マシン上で最初にバーストバッファ技術を使って信頼性に90%の利用率目標を如何に追加するか見るだろうと語っている。そしてメモリの観点からは、次のどれでもくしゃみすることは何でもない。2-3ペタバイトのメインメモリ、バーストバッファをサポートする7ペタバイトのフラッシュ装置、そして82ペタバイトのディスク、それは全体的としてかなり強力だ。そしてそれは、クレイの階層型ストレージ部分が動作的にどう動くか実際に見るまでは、ファーストバッファにとっては保守的でさえあるのだ。

しかし、保守的なアーキテクチャにおいてさえもリストがある。実施の面と問題の核心の早期利用について最も何が気になるのか尋ねた際に、
アーキテクチャが、強力な整数マシンとネットワークが付加された強力なプロセッサ(RoadrunnerのAMDのような)を持っているヘテロなアプローチから変わるのではないかと懸念しているとGriderは語った。「ホットなプロセス用にもっと強力なプロセッサが欲しいのに反して、Knights Landingは多くの同じ大きさの小さくて弱いプロセッサが入ったフラットなアーキテクチャですから、我々は何か考える必要があるのです。」と彼は語った。今月、インテルからもっと長期的なサポートを引き出すようにして、これらの心配を通過できるように、彼らのコードを初期のKnights Landingマシンに導入するつもりだ、とGriderは付け加えた。

クレイとNNSAにお祝いを申し上る。これは素晴らしい話で広く見ていくものだ。