世界のスーパーコンピュータとそれを動かす人々


12月 16, 2014

CERN研究者、x86の代替を探る

HPCwire Japan

Tiffany Trader

エネルギー消費量は、コンピューティングシステムの発展に関わる機能を制約するようになってきており、業界が純粋な性能からワットあたりの性能に焦点を移している。結果的に、エネルギー効率を重視した新しいチップアーキテクチャへの関心が高まっている。

CERNとの繋がりを持つ国際的な研究者グループは、これらの電力制約が高エネルギー物理学実験のための主要なリソースである分散ハイスループットコンピューティング(DHTC)での電力の制約が与える影響を特に懸念している。研究者たちは、全世界LHCコンピューティンググリッド(WLCG)によって現在使用されているx86 64ファミリーの代替案を探るための研究を計画した。彼らの論文の中のAPM X-GeneとIntel Xeon Phiとの異機種ハイスループット科学計算で、チームは2つの汎用CPUを評価した:Intel Xeon PhiコプロセッサとApplied Micro X-Gene ARMv8 64ビットサーバーオンチップ。彼らのリファレンス•プラットフォームは、ハイパースレッディング(HT)が有効になった2.00GHzで動作するデュアルソケットのIntel Xeon E5-2650 CPUである。

研究者は、LHC実験用データを処理するために設立された40カ国170のコンピューティングセンターに跨るワールドワイドLHCコンピューティンググリッド(WLCG)のような分散コンピューティングシステムのために、最も理に適っているプラットフォームがどちらなのかを検討している。論文では、ソフトウェアの移植プロセスを詳細に説明し、異なるプラットフォームの性能とエネルギー効率を説明している。結果は、性能(イベント/秒)、電力(ワット)利用状況を踏まえたスケーラビリティに基づいている。電力測定は、シリコンチップのためであり、フルの計算ノードものではない。

表1は、3つのプラットフォームを示す:

20141028-S1-Heterogenous-High-Throughput-Table-1注:大規模統合化コア(MIC)コンピュータアーキテクチャに基づくXeon Phiプラットフォームは、上記リストの8ではなく、実際には61の物理コアを持っている。

研究者は、クロスプラットフォームのベンチマークとしてCERNのCMSSWソフトウェアを使用することを目指したが、3つの手法での比較は、Xeon Phiの完全なCMSSWポート不足(Intel C ++コンパイラーの問題に起因する)のため不可能であった。彼らは、「マルチスレッドモードで実行可能なシンプルなクロスプラットフォームテストとして」代わりにGeant4ベンチマーク、ParFullCMSを選んだ。このベンチマークは、複雑なジオメトリ(CMSから)を使用しているが、Geant4と一緒に配布された単独のアプリケーションである。

研究者は、利用可能なすべてのハードウェアスレッド上でParFullCMSを実行することにより3つのアーキテクチャの絶対性能を評価した。結果は、以下の図2に見ることができる。Intel Xeon Phiは、Xeon E5よりも1.07倍高い最大性能を発揮した。 APM X-Gene 1は、予測コンパイラ最適化無し(レポートで議論)にXeon E5よりも2.48倍低い性能に留まったが大幅に少ない電力利用であった。

20141028-S1-Heterogenous-High-Throughput-Fig2

図 2

チームは、図3(下)に見られるように、どのように性能が電力に応じてスケールするかを次に観察した。全能力(8スレッド)で実行されたAPM X-Gene SoCは、シングルスレッドを実行し、2.73倍高い性能であったIntel Xeon E5よりも少ない電力消費を示した。結果はまた、Xeon E5上のハイパースレッディング(HT)は、より高いエネルギー効率をもたらさなかったことも示している。極めて最小限の性能増加は、追加的な電力消費コストにより相殺された。チームは、物理コアあたり2スレッドでAPM X-Geneを過剰投入すると、エネルギー効率に重大な変化はなかった。

20141028-S1-Heterogenous-High-Throughput-Fig3

図3

「我々の最初の検証は、APM X-Gene1サーバオンチップのARMv8 64ビットソリューションは、異種高密度コンピューティングのための適切かつ潜在的に興味深いプラットフォームであることが実証されました。」と研究者らは結論付けている。 「ARMv8 64ビットGCCコンパイラ使用の中でプラットフォーム固有の最適化がない場合、APM X-Gene 1は、APM X-Geneハードウェアがソフトウェア進化としての電力効率の観点からIntel Xeonへの有効な競争相手となる優れた見通しを示しています。しかし、Intel Xeon Phiは、完全に異なる範疇の製品です。」

チームは、28nmプロセスで作成され、16コアが最大2.8 GHzクロックで動作し、メモリの4つのチャネルをサポートするAPM X-Gene 2をその手に入れることを楽しみにしていると報告する。 APM X-Gene 2は、現在サンプル出荷中である。

論文は、プラハでの第16回International workshop on Advanced Computing and Analysis Techniques in physics research(ACAT2014)の議事録へ提出された。