Tesla GPUアクセラレータは、GPUブースト機能で性能を向上
Timothy Prickett Morgan

NVIDIAは、Tesla K40と呼ばれる新しいトップエンドのGPUアクセラレータを発売し、特に倍精度浮動小数点演算を必要とする高性能クラスタで人気がある現在のK20Xアクセラレータよりもより多くの処理能力とより多くのメモリの両方を持っている。
そのアップグレードは、GPU上の複数のコアの活性化を介して、また、CUDAコアのオーバークロックを可能にする新しいGPUブーストモードによって大幅なパフォーマンス向上を提供している。
それは、NVIDIAのチップ製造パートナーである台湾セミコンダクター・マニュファクチャリング・コーポレーション(TSMC)がGPUチップをエッチングするために使用するプロセスに歩留り改善を行うのと同様に、Teslaラインに中期的なアップグレードを行うことが一般的な慣例となっている。ある時点で、製品サイクルの開始時には通常不可能なチップ上のCUDAコアをさらに動作可能とすることができる歩留りは、十分に高い。例えば、2009年11月にSC09でデビューしたオリジナルの「Fermi」Tesla M2070コプロセッサは、512 CUDAコアを持ったGPUだが、そのうち448だけが活性化された。それらは、1.15 GHzで動作した。2011年5月には、歩留りが優れていたとしてTSMCで処理を行うチップを精密化し、512コアのすべてがTesla M2090 GPUコプロセッサで活性化され、クロック速度は1.3 GHzまで引き上げられた。
![]() |
Tesla K40は、単精度および倍精度浮動小数点演算性能の事柄の両方でハイエンドに焦点を当てたGPUの「Kepler」ファミリーをマイナーアップグレードしたようなものである。Keplerの設計で、Nvidiaは、GPUチップ上により多くのCUDAコアを追加し、Fermiチップに比べてクロック速度を半分カットし、そしてこの事はGPUがより多くの仕事をしてながらも、外付けGPUコプロセッサカード内でも動作できるために235〜225ワットの温度境界にまだ留まれることを可能とした。
以下の表からわかるように、2012年11月にSC12でデビューしたトップエンドのTesla K20X GPUアクセラレータは、732 MHzで動作する2,688コアを持っていた。それはまた、データ処理で同じように使用するために6GBのGPU用GDDR5グラフィックスメモリを有していた。それをPCI-Express 2.0スロットに差し込むと単精度で3.93 Teraflops、倍精度で1.31 Teraflopsの性能を提供した。
K40 GPUアクセラレータでは、CUDAコア数は2,880(同7.1%増)に増加し、クロック速度は745 MHz(最大1.8%)まで突き上げられ、GDDR5メモリは12GB(K20Xカードの2倍)である。メモリバンド幅は、K40で288GB/秒で、K20Xよりも15.2%高くなっている。最終的な結果は、Tesla K40のベースモデルが単精度で4.29 Teraflops、倍精度で1.43 Teraflopsに到達することができ、両方で9.2%の性能向上となる。
K40カードは、PCI-Express 3.0 x16スロットに差し込まれ、K20Xで使用される従来のPCI-Express 2.0 x16スロットの約2倍のI/Oバンド幅を扱うことができる。PCI-Express 3.0スロットは、Intelの旧型「Sandy Bridge」と現在の「Ivy Bridge」Xeon E5プロセッサでサポートされている。AMDは、まだPCI-Express 3.0をサポートしたOpteronプロセッサを出荷していないが、これは、近年、彼らがハイパフォーマンスコンピューティングの見通しを曖昧にしている理由のひとつである。
しかし、それがすべてではない。新しいGPUブーストモードでは、Teslaカードが少ない発熱で動作するさせるために熱の頭上空間をスロットに挿入されているサーバ筐体が持っており、この時に高い浮動小数点演算性能を得るために、全てのコアを810 MHzまたは875 MHzのいずれかに徐々にスピードアップさせることができる。
NVIDIAのTeslaアクセラレーテッド・コンピューティング・ビジネスユニットのゼネラルマネージャー、Sumit Guptaは、Tesla GPUは過熱からGPUを守るために非常に洗練されたメカニズムを持っているが、これらのスロットルの背後にあるアルゴリズムは、最悪のシナリオを想定し、GPUがより多くの電気で発生するより多くの熱で実際に燃える事は無い。他のコアが相対的にアイドル状態にあるときにひとつのコアだけがはるかに高い速度まで加速することができるようなx86サーバプロセッサ上のターボブーストとは異なり、GPUブースト機能は、彼らの作業をスピードアップするためにすべてのCUDAコアのクロックを向上させる。ターボブーストは自動的に行われるが、GPUブーストは起動する必要があり、これは目的に応じて行われる。「クラスターでは、ノード間で均一な性能を必要とし、この方法でそれを行うほうが、各GPUが自身の高速化を起動するより優れています。」
Tesla K40カードでどれだけ性能が向上するかは、GDDR5メモリの倍増に起因しているため明確ではない。しかし、明らかなのは、この拡張されたメモリは、その以前のものよりも特定のワークロードへのTesla K40がより適切にすることである。より大きなメモリは、流体力学、地震波解析、レンダリングワークロードの3つの名前のためだけに必要とされる。
「私たちが実際、メモリサイズのために幾つかの市場において多くの点で制限されていたように、幾つかのアプリケーションにおけるデータセットは大きいです。」とGuptaは説明する。「これは、今の市場の大半へ私たちを開放します。」
それでは、どのくらい追加の性能をK20Xに比べてK40は提供するのだろうか? 答えは、いつものように、それはコードに依存していることである。しかし、NVIDIAがヒントを与えるために幾つかの一般的なアプリケーションで実行した幾つかのテスト結果がここにある。
K20XからK40へ移行する増加分は、上記のフィードと速度から期待するものであるが、すぐに明らかな事は、GPUブーストがアプリケーションの性能を本当に促進させるということだ。そのグラフによると、K20X GPUベースラインと比較して、どこでも20〜40%の向上が見られる。
NVIDIAは現在、Tesla K40 GPUコプロセッサを出荷しており、そのサーバーパートナーは今後数ヶ月の間に自分のマシンの中にそれらを組込むことを期待している。ASUS、Bull、Cray、Dell、Eurotech、HP、IBM、Inspur、SGI、Sugon、SupermicroおよびTyanは、すべてのシステムでK40を使用するように計画している。そして、速いTeslaカードもNvidiaの再販業者から入手できる。Nvidiaは、それを消費者に直接販売していないため、いずれのTeslaコプロセッサの価格設定を提供していない。
CSCフィンランド、テキサス先端計算センター、CEAフランス、スウィンバーン工科大学などを含み多くのスーパーコンピュータ施設が、すでに新しいTesla K40カードを入手している。Guptaは、TACCが可視化およびデータ分析システム「Maverick」にK40コプロセッサを装備し、来年1月にそれが動作することを期待されている、と話す。