世界のスーパーコンピュータとそれを動かす人々


9月 13, 2016

IBM、Power9でx86に突き進む

HPCwire Japan

Tiffany Trader

IBMは四月に開催されたOpenPower Summitで、参加者に次世代CPU-Power9の限定版プレビューを提供したが、最近その更なる詳細を公表した。Power9はライバルIntelに奪われたマーケットシェアを取り戻すための主力エンジンの位置付けである。GLOBALFOUNDRIES社の14nmFinFETプロセス技術に基づいて製造されるPower9は、2017年の下半期に始まるPowerベースのサーバーでの目玉となる。このリリースのハイライトは、IBMがHPCワークロード、分析ツール、機械学習アプリケーション用にそしてハイパースケール向けに最適化した新しいコアとチップアーキテクチャである。

システムの出荷時期はまだ明らかにされていないが、IBMはすでに来るべきPower9プラットフォームの主要な勝利を獲得している。2014年11月に、IBM、MellanoxとNvidiaが2〜200ペタフロップスマシンであるSummitとSierraをDOEに提供するために指名された。 この3億2500万ドルの契約は、来年Power9 CPUとVolta GPUが動き出せば、それらをシステムに採用することを規定している。

IBMはまた、Googleの買い付けも取り付けている。ハイパースケーラーズが市場に大きな影響を及ぼす時代にあっては大きな成果だ。2016 OpenPower Summitで、Googleはそのインフラストラクチャの大部分をPowerに移行させ、ほとんどのGoogle社員にとって、Powerを有効にするのは構成変更の類いであると語っていた。 Googleはまた、Rackspace社と協力してPower9サーバーに関するZaiusと呼ばれる構成設計をOpen Computeプロジェクトに提出する予定である。

IBMは、顧客またはOpenPowerパートナーを特定せずに、Power9に基づいたチップレベルの誘導品が、おそらく2018年から2019年の時期に出現するだろうと示唆した。非IBMのPower8チップは、昨年中国市場向けに発表された。 Suzhou(蘇州)PowerCoreによって製造されたCP1は、Zoom Netcom社のRedPower C210サーバーに組み込まれている。

Power9ファミリーは、四つの異なるチップのバリエーションから構成されている。 標準基板に実装された1あるいは2ソケットのスケールアウト・サーバーをターゲットにしたモデル。そしてパフォーマンスをマルチソケット用に最適化したスケールアップ・サーバーのモデルである。(IBMサーバーは$6,000からであるが、他のサーバーメーカーは、低コストのシステムを提供するのは自由である。)スケールアウト・モデルは、最大8つのDDR4ポートに直接装着されたメモリを使用して、持続的な帯域幅120ギガバイト/ 秒を提供する。スケールアップ・モデルでは、最大8のバッファチャネルを使用して、230GB/秒の持続帯域幅を提供し、多数のSMPリンクによりラージSMPコンピュータの構築を容易にする。スケールアップ・モデルで実装されているIBMCentaurメモリバッファチップは、ボード上にL4キャッシュを持っており、L4キャッシュ溢れに対しても低いレイテンシーを提供している。

「それは、異なる二つのシステムの間のトレードオフです。」と、IBMの著名なエンジニアで、Power Systemsのメモリ階層およびSMPアーキテクチャの設計者であるBill Starkeは述べている。 「スケールアップ・モデルでは、実質的にソケットあたり8TBのメモリ容量と最強のメモリ帯域幅を取得できるマルチソケットシステムです。スケールアウト・モデルは、8チャンネルのDDR4により低レイテンシーと強力な帯域幅を持ち、直接接続型メモリのパッケージングで提供されます。」

スケールアップとスケールアウトの双方のモデルに、24コアと12コアのバリエーションがある。

「私たちの24 SMT4 コアまたは12 SMT8 コアのチップを用意しています。」と、IBMのPOWERプロセッサ設計チームのシニア・テクニカル・スタッフであるBrian Thomptoは語っている。「私達はそれぞれ顧客の最適化ポイントのすべてをヒットしたかったのです。スケールアウトできるエコシステムを必要とするデータセンターやクラウドでは、コアレベルでの良好な仮想化を実現できる24コアという粒度が必要でした。また、AIXやRVMのようなIPMIのワークロードのために、より大きなパーティションを提供できるSM T8による12コアが必要でした。」

加速されたへテロジニアス・コンピューティング・ソリューションを実現するという使命に沿って、Power9は新しいシグナリング機構とプロトコルを採用し、CPUと各種アクセラレータがともにメモリに密着してアクセスできるようになっている。

「我々が導入したアクセラレーション機能は、CPU-GPU間での非常に強力な相互作用および結合を可能にしたのみならず、高度に分化したヘテロジニアス・コンピューティング・ソリューションに向けた幅広いアクセレータの導入を可能にしました。」と、Thomptoは述べている。

20160830-F1-IBM-Power9-acceleration-slide-Hot-Chips-1024x516

上のIBMのスライドは、Power9 CPUがインタフェースのアレイを使用して、NVIDIAのGPU、ASIC、FPGAおよびPCIe接続デバイスなどの一連のアクセラレータと接続を可能にする方法を示している。 PCIe GEN4のサポートに加え、NVLink 2.0、CAPI 2.0、そしてまだ公式名称がなくNew CAPIと呼ばれているCAPI 2.0の後継を採用している。

「PCIe GEN4 x48レーン上のCAPI 2.0では、我々は倍の速度で実行するだけでなく、倍の信号を扱えるので、その構成では実質4倍の帯域幅が得られるようになります。」と、Starkeは述べた。

IBMは、PCIe業界標準プロトコルの終焉を望まず、帯域幅を高めレイテンシーを短縮した48レーンの25Gb/sアクセラレータ・アタッチバスの実装を決めた。この25Gb/sのインターコネクトは、NVLink 2.0だけでなく新しいCAPIをも作動させ、300Gb/sの全二重帯域幅を提供する。それはPCIe Gen3 x16の7-10倍の性能になるだろう、と彼は続けた。

20160830-F1-IBM-Power9-accelerator-bandwidth-Hot-Chips-1200x

IBMは、最新のマイクロアーキテクチャにおける、プロセッサ・パイプラインの効率改善を次の様に報告している。「新しい設計により、計算に到るフェッチを5サイクル短くしました。また、命令をリタイヤできる時は固定小数点演算ではフェッチから完了までで同じ様に5サイクル短縮し、浮動小数点演算では8サイクル短縮しました。これにより、命令のパイプでの使用期間が短縮化され、パイプを有効利用できるようになり、効率化が進みました。」

Power9ファミリーは、OpenPOWER財団によってリリースされたPower ISA 3.0を実装する最初のチップである。特に、そのチップは128ビットIEEE 754 4倍精度浮動小数点数をサポートしている。それはIBMにとっては初めての4倍精度のハードウェア実装になる。SMT4プロセッサは、128ビット4倍精度浮動小数点精度のエンジンをひとつ持っており、SMT8プロセッサでは、倍のスレッドをサポートするので2つのエンジンが用意されている。この4倍精度のエンジンはある種の金融やセキュリティのワークロードに恩恵をもたらすだろう。

Power9チップはまた、アクセレータの帯域幅とそのデータ交換のために最適化された半精度浮動小数点変換をサポートしている。IBMはPascalやおそらく来るべきKnights Mare Phiにおいてサポートされる半精度浮動小数点演算の実装の必要性を感じていない。何故なら彼らのアプローチでは、FP16による高いFLOPS値により利益を得ることができるワークロードに対しては、GPUや他のアクセレータが用いられる事になるからである。

ライバルのIntelは、x86チップのビッグシリコン・アプローチを擁護しているが、IBMはCORALパートナーであるNVIDIAとMellanoxとともに、進むべき最善の方向は、プロセッサの一部の作業をアクセラレータや知的なオフロードの実装へ移す事であると考えている。

「我々はポストムーアの法則の時代に突入しているので、もはやクランクを早く回すだけでは汎用プロセッサの高速化を計ることはできない。」と、Starkeは言います。 「これからは、ますます専門分野に特化したシリコンが登場してくると確信しています。それは、オンチップのアクセレータでも可能ですが、我々のアプローチを見て判る様に、我々の方向は柔軟かつ展開が容易なオフチップ・アクセレータを指向しています。それには明らかに極限までの帯域幅、非常に小さい遅延、そしてメインプロセッサとの緊密な統合が必要です。しかしそれが未来のコンピューティングであり、我々はその方向に向けて強力に投資を推し進めていきます。」