IntelのHaswell、HPCを正面から狙う
Timothy Prickett Morgan

IntelのXeon E5プロセッサファミリーにとってHPC市場は鍵であり、サンフランシスコで開催されたIntelのデベロッパーフォーラムでサーバおよびワークステーション用の「Haswell」Xeon E5-2600 v3プロセッサをロールアウトしたチップメーカーとして完璧に明らかだ。
Haswell Xeonにおける多くの新機能は、一般にモデリングやシミュレーションのアプリケーションで行われている演算の性能と効率を向上するように設計されている。これは驚くことではない。HPCはIntelにとって今や大きく、そして成長しているビジネスなのだ。
Intelがデータセンターグループ向けの収益予想を修正した昨年11月に、我々がEnterpriseTechでレポートしたように、HPC顧客へのプロセッサおよびコンポーネントの売上は過去数年間、Intelが予想した以上に成長してきた。以前の予想では2011年と2016年間で年複利14%増としたHPC関連収益と見定められていたが、実際にはIntelは2011年から2013年までに20%増を達成しており、今後の予測をやり直している。HPC顧客、およびハイパースケールやクラウドの顧客による支出が予想よりもはるかに大きく、エンタープライズは期待したほどは支出しなかったのだ。そしてエンタープライズはいまだベースの最大の部分であるため、Intelのデータセンターグループにおける全体の成長は計画よりも下回ったのだ。しかし、HPCは明るいスポットであった。従来と民間の両方のHPC市場が上昇しており、Intelは競合アーキテクチャに対して利益を得ており、顧客は過去の傾向に基づいた予測よりも、さらに強力で高価なプロセッサを購入する傾向がある。
Haswell Xeon E5打ち上げの説明会では、Intelのテクニカルコンピューティンググループのセグメント・マーケティング・マネージャであるMatt Kmiecikは、スーパーコンピュータセンターにおける従来の科学系モデリングやシミュレーション(気象、物理、ニューロサイエンスおよび遺伝学)は官公庁やアカデミアで動かされていたが、同様に製造、オイル・ガスおよびメディア事業におけるシミュレーションやモデリングソフトウェアがHPCセクターにおけるIntelの成長をもたらした、と語った。他の領域の中でも不正行為検出やマーケティングおよびソーシャルサイエンス研究に利用されるデータ駆動型解析もHPCのパイを拡大しているし、クラウドにおいてHPCツールを利用する傾向も拡大している。高忠実度の可視化も成長を押し上げている。
現在のデータセンターグループの計画は、2013年から2017年において複利で年15パーセントの収益増加を見ており、HPC、クラウド/ハイパースケールおよびテレコム企業への売上は20パーセントを超え、エンタープライズ分野への売上である低い8パーセントの成長を補っている。
Intelが再びHaswell Xeon E5でかなりコア数を増やし、ほとんどが2ソケットサーバ用の設計だが、ワークステーションやオーバークロックサーバ用のシングル・ソケットにもいくつかある新しいプロセッサの浮動小数点性能とメモリバンド幅を劇的に向上させることを何故行っているのか見ることは難しいことではない。我々はEnterpriseTechと通じて、Xeon E5-2600 v3チップの製品ラインの詳細な仕様と価格解析を行っている。そこではHPC顧客にも関係する特定の機能について掘り下げている。
Haswell E5 v3ファミリーには29個のチップがあり、すべてがHPC向けではない。ここにタイプ毎の一般的な内訳があり、先の「Ivy Bridge-EP」Xeon E5-2600 v2プロセッサが左に、比較としてHaswell-EP Xeon E5-2600 v3チップの製品カテゴリが右にある。これは完全なSKUリストではないが、Intelが代表としてピックアップしたものだ。
トップのXeon E5-2600 v2プロセッサはダイあたり12コアだが、同じ22ナノプロセスを使った新しいHaswellチップはダイあたり最大18コア持っている。これはコア数においては50パーセントの増加であり、システムあたりの性能を向上し、HPC顧客が同じスペース内でもっと性能を詰め込むことができるのだ。コア数の多いトップの2つは18コアのE5-2699 v3と16コアのE5-2698 V3であり、2.3GHzで動作し、それぞれコア間にわたるL3キャッシュに45MBと40MBを搭載している。これらはまた少し熱く動作する。すべてのHaswell Xeon E5のダイ上にボルテージレギュレータを統合したためだ。それからこれら2つのトップエンドのHaswell Xeon E5プロセッサをIntelのチップの歴史の中でユニークしているのは、公式な定価がないことだ。カスタムチップではなく誰でも買うことができるのだが、Intelのスポークスマンによると「Intelの従来の公的に利用可能な2S製品販売の外側にあるユニークな製品」ということであり、最大性能を要求するHPC、可視化およびクラウド顧客向けに作られたとのことだ。18コアのチップはスレッドを使いクロックスピードにはセンシティブでないHPCのワークロードにとって明らかに最も興味深いものであり、先のXeon E5と比べてIntelが相対的な性能を引き立てたものである。
Haswell Xeon E5チップがもたらすもうひとつの大きな変化はより高速なQuickPath Interconnect(QPI)のバス速度であり、20パーセント向上されて9.6GT/秒となっている。E5-2600 v3サーバにおける2ソケット間のこの拡張バンド幅は、かなり多くのコアを持つシステム性能をバランスするのに役立つ。このバンド幅はまたDD4メインメモリための必要な頭上スペースでもある。IntelはDD4メモリをサポートした最初のチップメーカーであり、Haswell Xeon E5においては、Intelはソケット毎に4つのDDR4チャネルを持ち、そして1.33GHz、1.6GHzまたは1.87GHzの速度で動作する場合にはチャネル毎に2個のDIMMメモリをサポートしている。最大の2.13GHzで動作する場合にはDIMMはチャネル毎に1個しかサポートされないが、場合によってはサーバーメーカーが高速動作でもチャネル毎に2個のDIMMを自分達のシステムに保証することもある、とIntelは語っている。(これは現時点ではIntelは推奨していない。)DDR4メモリは標準DDR3メモリ用の1.5ボルトと比べて1.2ボルトで動作するのでより電力効率が良くなる。IntelはDDR4へのシフトによってメモリスティック毎に2ワットセーブできると予想しており、初期のSTREAMメモリバンド幅ベンチマーク試験では、2.13GHzのDDR4メモリと搭載した2ソケットのHaswellマシンは、1.87GHzのDDR3メモリを使ったIvy Bridgeマシンより14パーセント高い性能であった。
Haswellコアの内部は多くのHPCのグッズが織り込まれた場所である。最初に、Intelは多くの実行ユニット、深いバッファ、より良い分岐予測、そしてHaswell Xeon E5用のクロックあたりの命令数(IPC)を最大約10パーセント向上させる完全に新しいコア用のフロントエンドを付け足した。これはIPC性能における大きな飛躍であり、2009年3月の「Nahalem」Xeonコアと2012年3月の「Sandy Bridge」Xeonによく似ている。
Haswellコア上のL1およびL2キャッシュメモリのバンド幅は倍増され、第二世代のAdvanced Vector Extensions (AVX)の整数および浮動小数点演算ユニットが、先のSandy BridgeやIvy BridgeコアのAVX1ユニットよりも多くの性能を持っているかの理由のひとつだ。AVX1ユニットは8個の256ビット浮動小数点レジスタ(4個のAVX加算と4個のAVX乗算)を持ち、これまで多くのXeonが128ビットのSSE演算ユニットを持っていたのに比べて、これらの2個のチップで秒あたりの最大浮動小数点演算(flops)をクロックあたり8 flopsと倍増することができた。Haswellコアは256ビットレジスタを持つ2個の複合乗算加算ユニットをベースとしたAVX2演算ユニットを持っており、最大性能を倍増させており、倍精度でクロックあたり16flops、単精度で32flopsとなっている。
AVX2演算ユニットにおける新しいFMA命令は構造解析、流体計算、電磁場解析や宇宙論シミュレーションにおける潜在的に性能を向上させるだろうと、KmiecikはHPCwireに説明した。AVX2の機能はまた、先代のAVX1の128ビットよりも完全な256ビット幅の整数演算をサポートしており、イメージ・信号処理、遺伝学および暗号化のワークロードを高速化するのに役立つだろう。
トリックは、コア数の増加、より良いシングルスレッド性能、メモリバンド幅、およびAVX2数値演算ユニットの効果を実際のワークロードを実行する全体として追加することだ。ここに様々なHPCアプリケーションにおける最初の試験結果がある。
上記の試験は、2.3GHzの18コアHaswell X5-2699 v3を搭載した2ソケットサーバと、2.7GHzの12コアXeopn E5-2697 v2プロセッサを搭載したマシンとの比較だ。
AVX2機能を使ったLINPACK FORTRANベンチマーク試験では、HaswellマシンはIvy Bridgeマシンよりも2倍の最大浮動小数点演算性能を持っている。:正確な浮動小数点演算の数値はIntelは明らかにしていない。