世界のスーパーコンピュータとそれを動かす人々


1月 29, 2014

RSC、単一ラックにPetaflopsのXeon Phiを搭載

HPCwire Japan

Timothy Prickett Morgan

ロシアで幾つかの最もエネルギー効率の優れたマシンを設置したモスクワに拠点を置く4年目のクラスターメーカー、RSCグループは、新しいPetaStreamシステムとSC13において沢山の注目を集めた。

今日作られた多くのトップエンドシステムのように、PetaStreamはハイブリッドデザインで、この場合、単一ラック内に1Petaflops以上の総合倍精度演算パワーを入れるために、遥かに多い数のIntel Xeon Phi x86コプロセッサと適度な数のIntel Xeonプロセッサを混在させている。

PetaStreamシステムは、メートル幅(3.28フィート)の非標準ラックを使用してサーバー密度を少しごまかしている。標準的なサーバー ラックが内側に19 インチで、外側に通常約24インチ(2フィート)である。それは言った、PetaStreamシステムは、次の10年のExascaleな計算容量へのアプローチをする必要があるため計算容量の高密度パッケージングの類への道を依然指している。

PetaStream システムは、マシン内の各ノードの基礎として、Intel Xeon E5 2690 v2プロセッサを搭載する。これは9月にIntelが発表され、クロック周期3GHzの新しい10コアの「Ivy Bridge-EP」プロセッサである。 RSCは、2ソケットマシン用に作られたE5 2690 v2 チップを受入れ可能なシングルソケットでハーフワイドサーバーノードのために設計されたIntel S1600JPマザーボードを使用している。Xeon E5プロセッサのそれぞれは、そのPCI Expressバス上に8基のXeon Phiコプロセッサが装着されている。システムは、倍精度演算で1Teraflops以上のピーク性能を提供する各「Knights Corner」チップで60コアと240スレッドを持つXeon Phiの埋め込みバージョンである。このXeon Phiカードは、8GBのGDDR5メモリを持ち、CPUからオフロードを行うワークロードのための簡易的なLinuxオペレーティングシステムを実行する。

顧客は、InfiniBandまたはEthernetインターコネクトへ接続するためにサーバーノード上にIntel True ScaleやMellanox Connect-IBアダプターカードを使用できる。 2つのPCI Express 3.0 x16スロットで、RSCは高バンド幅と低遅延が重要なところに40Gb/秒(QDR)または56Gb/秒(FDR)で動作する4つのInfiniBandポートが出て来るモジュールが合理的な構成であることを推奨する。

XeonとXeon Phiのコンポーネントは、モジュール内の全てのホットコンポーネント上の直接液体冷却機能を持つ計算モジュールにパッケージ化されている。RSCグループのCEO、Alexander Moskovskyによると、マシンの冷却材として水またはグリコールのいずれかを使用できる。液体冷却システムは、ラックのコンポーネントによって消費される電力の400キロワット相当を許容するように設計され、そしてその後、熱として取り出される。

20131127-F1-1

PetaStreamモジュールは、クラスターのローカルストレージ用の5基の半導体ドライブのための空間を持ち、そしてRSCは800GB容量を持つIntelのDC S3700またはDC S3500シリーズドライブをPetaStreamマシンのために選択した。ラック内の全640 SSDで512TBのストレージを持つ。

PetaStreamのシステムラックは、ラックの前後両方に計算モジュールを滑り込ませ、合計128 モジュール搭載する。1,024基のXeon Phi コプロセッサで合計61,440コアと245,760スレッドとなり、すべてを高さ7.2フィートで、横実測3.28フィートの単一ラックに詰め込んでいる。

「私たちの計算では、RSC PetaStreamの1ラックがx86サーバの8ラック相当を示します。」とRSCの共同創設者で首席業務官のAlexey ShmelevがSC13でマシン発表の際に説明した。「これはピーク理論性能の測定ではなく、実アプリケーションでの測定です。」そして彼は、PetaStream システムは、同じ問題を解くためにx86マシンの半分のエネルギーを必要とする、と付け加えた。

マシンは多くの異なる方法で構成することができるので、RSCはPetaStreamラックの基本価格を提供するのに消極的だった。しかし、Moskovskyは、Xeon Phiカードがシステムコストの大きな部分であり、ラック内にそれらが1,024基ある場合の理由となる、と述べた。PetaStreamマシンが素の普通のx86サーバのクラスターと比較した場合、どのくらいなのかと強く聞かれた時にMoskovskyは、、「1ドル当たりのFLOPS値で価格競争力があるでしょう。」と言い、それを残した。

計算負荷に伴うクラスター設計において幾度も採用されたアイディア、液体冷却、またはその両方は、これらの技術の利点が空間、電力、および冷却において自分自身の節約で賄えると言う事である。顧客は、Xeon Phiコプロセッサにオフロードルーチンを微調整できるソフトウェアの類いがある限り、それは真実である ー そして彼らのコードにこのような変更を加える時である。

PetaStreamマシンは、IntelがSC13で若干詳細について話をした次世代の「Knights Landing」Xeon Phiチップが出荷される時、さらにもっと興味深いこととなるだろう。このXeon Phiチップは、パッケージ上のDDR4メモリは勿論ダイ上に自身のローカルメモリも持ち、それはまたシステムボード上の自身のソケットに挿入され、そしてPCIバスを介して命令を伝えるXeonプロセッサはもはや必要としない自立型の計算モジュールとして利用可能になるだろう。

我々は、Knights Landingチップが3Teraflops前後の倍精度演算を提供し、2015年かそのあたりに市場に出て来ることを示すロードマップを見ている。理論的には、PetaStreamラックはそのラック内であまり多くの労力無しに最大3倍の3Petaflopsに出来るかも知れない。Knights Landingチップが現在のKnights Corner Xeon Phiチップと同じくらいの熱容量を持っているように見られるが、しかしPetaStreamラックに大量のXeon Phi チップを入れることは、もし可能だとしても、おそらく簡単に行く事ではないだろう。そして再び、エンジニアリングとはそういうものであり、RSCはラック内へさらに多くの計算を詰め込む方法を考え出す時である。