Intel、Xeon E7 V2でHPCの隙間に食い込む
Nicole Hemsoth

Intelは、新しいXeon E7 v2シリーズに始まる Westmereプロセッサーのふたを開けた。これらは、ビッグ・データと解析のエンタープライズ用途と同時に、今まで以上にHPCを目標としている。
目標とされたアプリケーションの範囲が広いにもかかわらず、22ナノメートルの製造プロセス、メモリーのサポート、強力なAVX命令機能、独特の高信頼性機能は、HPCに適している。Intelは、120コアの「一箱のHPCクラスター」を可能にするために、性能のかなりの部分をサイズ可変にした。以前のIvy Bridgeよりも価格が高いが、2013年9月に出荷され、科学技術計算の広い範囲に適合できた。
Intelの Joe Curley氏は、2014年2月18日にHPCwireに語った。「E7は高いノード密度を実現し、ビック・データとエンタープライズ用と同様に、HPCにとっても素晴らしい物語です。多くのメモリーと信頼性を必要とし、大規模なデータセットを計算する、どのような種類のアプリケーションにも、E7に基づく製品が役立つでしょう。1個のノードに、120個のコア、最大12テラバイトのメモリーを搭載でき、この高密度実装によって、HPCとその他の作業を次々に計算することが理想です。」
詳細について語る前に、このより一般的なE7 v2の発表によって、Intelがどのように複数の目標に対してセグメンテーション・モデルのバランスを可能にしたか、認める価値がある。本質的なチップの競争においてキャッシュとクロック周波数の広い範囲が可能である。しかし、これらは実際には、目標とされているワークロードのために最適化されていて、消費電力、メモリーとキャッシュの必要量、クロック周波数の優先度の複数の曲線によってバランスが崩れることがあった。言い換えると、E7 v2のためのマーケティングは、誰のためにでも、どのような価格幅においても、どのようなワークロードに対しても、ほとんど保証されているということである。
前後関係を述べるために、一つ前のWestmere (E7-4800)の2つの比較チャートとその時のLINPACK性能を示す。
上記のLINPACKスライドで注目すべき点のひとつは、AVX能力である。Ivy Bridgeコアの256ビットAVXベクトル・ユニットは、クロック・サイクルごとに、2個のAVXユニットを合わせて、8個(ユニットにつき4個×2)の倍精度浮動小数点演算をできる。これは、WestmereがAVXを全く持っていない場合と比べて、HPCにとって福音である。
このレベルに相互作用している「15コア」の下に書かれているものを見つければ、1.246テラFLOPS、これはXeron Phiでの平均値である。理論的には、価格を考慮しない人々、違いは他にもあるが、にとって、Xeron Phiを使わずに済むということである。そして、プログラミングの才能に要求される物が、クラスターを活用することから、1個の部品を活用することに変わったということである。ショップがこの点を考慮するかどうか、特にこの比較がもう1年間有効であるか不明であり、3テラFLOPSのPhiが出現するかもしれないので、未確定である。
Curley氏によると、「製品はお互いに補い合います。Xeon Phiコプロセッサー・ファミリーは、メモリーが少ない代わりに、ピークのFLOPSとデバイスあたりのメモリー・バンド幅が大きいのです。Xeon E7ファミリーは、プロセッサーあたりの大容量メモリー対応と、ノードあたり最大8プロセッサーという能力があります。」
多くの場合に、製品はことなるアプリケーション分野に対応できるが、ポートフォリオの一部として顕著な経済的結果をアプリケーション開発者にもたらす。「Intel Xeon E7ファミリーは、RISC、メインフレーム、サーバー向け市場と比較されるときに、計算のためのノード記憶密度の高さによって、最適です。Xeon Phiは、消費電力あたりの性能を最大にできる高度に並列化されたアプリケーションに適合します。」
しかし、両者の鍵となる優位性以外に、Xeon Phiのために最適化されたアプリケーションには、同じコア、スレッド、SIMDという要素がある。つまり、Xeon PhiとE7の一方に最適化されたアプリケーションは、他方にも最適化される。これは、開発者にとって重要な利益である。
下記の図を見よう。E7 v2の2、4、8ソケット、様々なワークロード、basic、standard、acvancedコンフィグレーションの組み合わせである。全ての例において、コア数に顕著なトレードオフがあるか、大規模に消費する例ではトレードオフがなく、キャッシュとクロック周波数は、メモリー、計算能力、消費電力に関係している。右下の赤色の矢印で示したところは、HPCに最適化した構成である。E7 8857 v2の8ソケット12コア版は、3.0 GHzで動き、30メガバイトのメモリーをサポートし、130ワットを消費し、3838ドルである。他の8ソケット版は、3.2 GHzで動き、より多くのキャッシュとコアがある。特別に最適化された一部分だけが8ソケット対応という事実は、注目に値する。Intelは、今まで常に2ソケットと4ソケット対応版も提供してきた。
IntelのCurley氏によると、8ノード構成に最適化されたセグメントがある一方で、HPCショップとOEMにとっての選択肢を制限する意図はない。「もし、2ソケットから成るノードで大容量、高バンド幅のメモリーを使いたいならば、より小さいラインのE7製品を選ぶべきです。ラインに渡って多くの異なる性能の製品があり、あるラインはコア当たりのメモリー量が最大になるように設計されており、ミッション。クリティカルな用途向けに信頼性が良く、前世代の製品群にはなかったことです。」言い換えれば、HPCのすべてと同様に、あなたの優先順位がどこにあるか次第である。
下図で示されるように、E7の世界は多くの可能性、異なる要求に対応できる多くの構成がある。Intelがデモンストレーションするように、1個の箱に入る120コアのHPCクラスターもあるが、前世代の2ソケットサーバーもあり、4ソケットサーバーにすれば、イーサーネットよりも高速なQuickPathインターコネクトによって、2.5倍速くなる。
![]() |
HPCワークロードに対する美しいモデルは、特に、HPCの平均的な仕事のサイズに対して128コアの結果がスイート・スポットであることに注意して、同じソケット数のプロセッサーを使って、高速化と大規模化できる可能性があり、よりメモリー性能に支配されるノードを高速化できるように設計されている。
下記のいくらかぐらぐらする図を考慮して、これをなんらかの現実的な性能の文脈に入れるために、2013年9月に生産されたIvy Brigeを基準とする。Intelは、彼ら自身の数字に取り消し線を引いていなかった。むしろ、取り消し線の数字は、同程度の広範囲のワークロードの対する平均的な性能を再評価させる。複数の領域に渡る図の平均が本質的だ。アプリケーションの名前で示す高い数値は、最高の性能である。Intelは左上を基準とする。
言い換えると、生命科学を例として、Intelがベンチマークでテストした大部分の生命科学アプリケーションにおいて、2倍の性能、3倍のMILCが出る。同様に、投資サービス分野では、Black Scholesが2.6倍でトップになったほか、平均性能の増加は2.4倍であった。どれくらいのアプリケーションがベンチマークされたかという情報が無くても、平均に追いつくためのアイデアは得られるであろう。
バンド幅に興味を持っている人のために注意してみよう。1990年代にサーバー用プロセッサーが作られて以来、Intelはメモリー・コントローラーにsingle device data correct (SDDC)を持っている。これの本質は、不完全なメモリー・チップをメモリー・プールから取り除く。1個の不良チップによる誤りが修正されて、あなたは安心するだろう。
Westmere E7において、Intelは、大規模なメモリーを持つシステムにおいて、Double Device Data Correct機能を追加した。これによって、2個のメモリー・チップが不良でも、データを修正できる。新しい動作モードで、Intelは、メモリー・バッファー・チップの速度を上げて、single chip recovery modeに信頼性を落とす代わりに、よりバンド幅を上げたいという選択を許している。通常のDDDCモード、現在lockstepモードと呼ばれている、では、SMI2メモリー・バッファーとメモリー・チップは同じ速度1600 MT/secで動く。新しい動作モードで、SMI2メモリー・バッファーは2667 MT/secで動き、メモリーはその半分の速度で動く。正味の効果は、lockstepモードと比べて、新しい動作モードでは、システム・バンド幅が54%向上する。このために、誤り訂正能力が若干犠牲になる。
現時点において、すべては理論的な話である。一部分の初期のユーザーが経験と洞察を提供するとき、本当の話を書けるだろう。実際には、データベースの上で壊れては強調されている。(SAP HANAの話は、確かに非常に魅力的であり、EnterpriseTechに掲載されている。)