世界のスーパーコンピュータとそれを動かす人々


9月 11, 2015

インテルのHaswell-EXサーバがSTAC-A2の性能記録を達成

HPCwire Japan

Tiffany Trader

インテルは価格付けと市場リスク分析のためのプラットフォームを評価するように設計された金融ベンチマークのサブセットでの名声を再び主張しました。さらに強力なXeonである”Haswell-EX” E7-8890 v3プロセッサは、ベースラインの「ギリシャ指標」ベンチマークのウォーム実行とコールド実行の両方でSTAC-A2ベンチマークでスピードの新記録を可能とするソフトウェアスタックへの変更と組み合わされている。

2012年に登場したSTAC-A2は、モンテカルロシミュレーションと「ギリシャ指標」計算で特徴づけられる金融リスク分析ワークロードのクラスを表したアーキテクチャに依存しないベンチマークであり、全体的なデリバティブの価格に影響する特定の資産の価格のような様々なパラメータがどのような変化するか測定するものだ

ベースラインのベンチマークは、5個の資産、25,000のパスおよび252タイムステップでギリシャ指標を計算する。これは1年のコース上での各取引日のひとつだ。この試験は5回実行され、1回のコールド実行と4回のウォーム実行の結果となる。STACの文献が説明するとうに、「コールド実行は、リスク・エンジンが要求に応じて起動される展開状態をシミュレートし、ウォーム実行は要求を処理するために十分にメモリが割り当てられたエンジンがすでに起動している場合をシミュレートします。」これを説明するもうひとつとしては、コールド実行がアプケーション全体(初期化とメモリ割付を含む)に負荷をかけることに対して、ウォーム実行はアプリケーションの計算的に集中する箇所に関するということだ。

標準のエンド・ツー・エンドの実行に加えて、STACはまた乱数生成や特殊数学関数などのアルゴリズムの主要なコンポーネントを評価する。全部で、STAC-A2の仕様は、性能、スケール、効率および品質に関する約200の試験結果を提供している。

20150902-F1-STAC-A2-Intel-Xeon-Haswell-EX

STACは、72個の2.5GHzで動作するIntel Xeon E7 v3 (Haswell EX)コア、1TBのDRAMおよびRed Hat Enterprise Linux 7.1を搭載した4ソケットのIntelのホワイトボックス・サーバ上で試験された。ソフトウェアスタックであるSTAC-A2パックは、インテルのComposer XE(revision F)、Math Kernel Library(MKL)およびC++コンパイラを使ってインテルによって書かれた。ベクトル・プログラミングはインテル・スレディング・ビルディングブロック・ライブラリに依存するOpenMP 4.0スランダードおよび並列化を利用して行われている。

STAC-A2パックの実装はインテルアーキテクチャ(IA)の並列プログラミングモデルの主要な要素(並列化、ベクトル化、ブロック・アルゴリズムおよびデータ・レイアウト/メモリ配置)をベースとしているとインテルは説明している。コードの近代化の原則に続いて、アルゴリズムの設計原則で外部ループを並列化し、内部ループをベクトル化する。インテルの並列プログラミングのエバンジェリストであるJames Reindersは、キャッシュ効率にもっと気をつけるようにすることでアルゴリズムの最適化もまた一部を演じており、そしてVTune Amplifierはボトルネックの検知と是正を容易にすると、HPCwireに明らかにした。

IBMを間接的に参照しながら、Reindersは、今年早々に「競合」によって公開された比較は、インテルにもう一度このベンチマークを見るように駆り立てたと述べた。インテルは顧客が実際には使わないようなコードに専念するための無制限のリソースを持っているわけではないので、同社は現在のハードウエアの能力を正確に反映するSTAC記録を要望したのだ、と彼は続けて述べた。Haswell-EXは新しい、ハイエンドマシンで、アップグレードは性能に大きな効果を持ったいた、と彼は語った。

ReindersはHaswell-EX E7ベースのシステムは以前STACにサブミットしたものより高価だと認めているが、IBMのマシンは「はるかに高価」であり、トップラインのXeonを使ってインテルは正当化したと感じていると彼は述べた。

「これはジョブを非常に良くこなすとてもバランスのとれらマシンなのです。」とReindersは述べて、「重要であるベンチマークの面において、ボードのトップに出てきた我々の数字には驚いていないのです。」

「我々のハードウェアが性能と価格性能においてベストなハードウェアであることにかなり自信を持っていますし、非常に良くスタックが実装されているのです。」と彼は付け加えた。

数字の上で…

インテルは、ベースライン性能試験(STAC^A2. β2.GREEKS.TIME)のウォーム実行およびコールド実行の両方においていずれのアーキテクチャでも新記録を出すことで、競争を外においやってしまった。インテルと次の最高スコアの競合の結果が以下の通りだ。インテルの以前の4ソケットの結果も比較のために含まれている。

Intel:

4 x Intel Xeon E7-8890 v3 Haswell EX processors (published August 13, 2015)
Warm: 0.274
Cold: 0.343

4 x Intel Xeon E7-4890 v2 Ivy Bridge EX processors (published May 15, 2014)
Warm: 0.556
Cold: 0.651

NVIDIA:

Tesla K80 GPU accelerator and 2 x Intel Xeon E5-2690 v2 Ivy Bridge processors (published November 18, 2014)
Warm: 0.287
Cold: 0.395

IBM:

2 x POWER8 processor cards (published March 16, 2015)
Warm: 0.317
Cold: 0.589

IBMの2ソケットPower System S824サーバ(24個のPOWER8コア)はパス・スケール(STAC-A2.β2.GREEKS.MAX_PATHS)でいまだ記録を保持しており、5個の資産と252のタイムステップ(コールド試験実行を利用)そして資産能力(STAC-A2.β2.GREEKS.MAX_ASSETS)でパスを10分間で完了し、25,000パスと252タイムステップ(コールド試験実行を利用)で資産を10分間で完了すると報告している。

Intel:

4 x Intel Xeon E7-8890 v3 Haswell EX processors
STAC-A2.β2.GREEKS.MAX_ASSETS: 72
STAC-A2.β2.GREEKS.MAX_PATHS: 21,000,000

4 x Intel Xeon E7-4890 v2 Ivy Bridge EX processors
STAC-A2.β2.GREEKS.MAX_ASSETS: 67
STAC-A2.β2.GREEKS.MAX_PATHS: 13,500,000

NVIDIA:

Tesla K80 GPU accelerator and 2 x Intel Xeon E5-2690 v2 Ivy Bridge processors
STAC-A2.β2.GREEKS.MAX_ASSETS: 55
STAC-A2.β2.GREEKS.MAX_PATHS: 8,300,000

IBM:

2 x POWER8 processor cards
STAC-A2.β2.GREEKS.MAX_ASSETS: 78
STAC-A2.β2.GREEKS.MAX_PATHS: 28,000,000

また、NVIDIAは、NVIDIA Tesla K80 GPUアクセラレータ・プラスおよび2個のIntel Xeon E5-2690 v2 “Ivy Bridge” CPUを搭載したSupermicroサーバで最大のエネルギー効率(STAC-A2.β2.GREEKS.ENERGY_EFFICIENCY)を達成したままだ。注:エネルギー効率 = GREEKS.MAX_ASSETS / 容量におけるエネルギー

Intel:

4 x Intel Xeon E7-8890 v3 Haswell EX processors
403 assets/kWh

4 x Intel Xeon E7-4890 v2 Ivy Bridge EX processors
343 assets/kWh

NVIDIA:

Tesla K80 GPU accelerator and 2 x Intel Xeon E5-2690 v2 Ivy Bridge processors
1,650 assets/kWh

IBM:

2 x POWER8 processor cards
459 assets/kWh

Reindersは、Haswell-EXとTeslaベースのマシンはエネルギー効率において数字が示している以上に接近していると主張しており、インテルの本来の効率の数値は競争的であると表明した。彼はすべての条件の下で現実を表現する困難を考えるとSTACベンチマーク・チームが本当に素晴らしい仕事をしていると称賛したが、リビジョンがこれの上で適切であるように提案した。

「もし同じくらいの量の仕事をしなかったら、ベンチマークは誤解を招いていたでしょう。」とReindersはさらにはっきりと述べた。「GPUはあまり多くの仕事をできなかったので、異なる効率を投稿しました。それは直線的な関係ではなく、ベンチマークのどこを見ても明らかではありません。結果が電力効率の複数の違いを示す一方で、性能効率においては2桁の数字の違いをお約束します。」

さらに何がマシンの同等性を構成しているか掘り下げると、マシンのコスト、インストールのコスト、保守および柔軟性のような要素をみることが重要だとReindersは語った。

「コア数やスレッド数などをカウントするのは間違いだと思います。それは1日の終わりにどのくらいの仕事を終わったか、そして展開するのにどのくらいのコストでどのくらい困難かなのです。」と彼は付け加えた。

ワット当たりの性能および1ドル当たりの性能を計算することは、評価プロセスを助長することになる。現時点でSTACは価格付けのガイダンスは出していないが、レビュー中の新ベンチマークは、標準実行とより複雑な問題セットの両方で、「百万ジョブを完了するための総合理論価格」を示すだろう。

新しいベンチマークはベースラインのワークロードを超えた2番目に大きな問題サイズを計測する。STAC-A2.β2.GREEKS.10-100k-1260.TIMEと呼ばれるものは、10個の資産、100,000のパス、および1,260タイムステップでのすべてのギリシャ指標を計算する秒数を計算する。NVIDIAの結果にはこのベンチマークの事前結果が含まれているが、3月のレポートによると、IBMのPowerシステムがウォーム実行で28.9秒、コールド実行で34.5秒で終了しており、ウォーム実行で38.6秒でコールド実行で42.6秒のインテルのHaswell-EXスタックを負かしている。

要約すると、新しいテストは正しいソフトウェアを搭載した4ソケットXeon E7サーバは、ベースラインのウォームおよびコールド実行の競争で上回ることができる。正確にリンゴ間の比較を整列させる難しさを考えると、システムサイズ、システムコスト、ワット当たりの性能、およびエンドユーザに重要な仕様において、結果は常に注意深く分析される必要がある。

不思議に思っているかもしれないが、インテルは新Intel Knights LandingをSTAC A2試験でまだ試験はしていない、しかし金融サービス分野に関連するPhiの数字をインテルがリフレッッシュすることを期待することは安全だろうとReindersは語った。

「我々は実際にはXeon Phiの利点を持っています。」とReindersは断言した。「これは非常に電力効率が良く、この特定の問題を数値演算するのによく適合しています。もっと大きなメモリとより大きなベクトルを持ちましたので、これらの数字をリフレッシュする時間があれば、非常に良い数字が持てることを期待しています。」