Nvidia、ディープラーニング推論用にPascal GPUを発表
Tiffany Trader

ディープラーニングのコミュニティにおいてはすでにニューラルネットの学習は定着しており、Nvidiaはデータセンター推論に突き進むチップメーカーとしての地位を確保したいと考えている。北京で開催されたGPUテクノロジーカンファレンスにおいて、NvidiaのCEOであるJen-Hsun Huangは最近Teslaシリーズに追加されたPascalベースのP4およびP40 GPUアクセラレータだけでなく、音声起動アシスタント、SPAMフィルター、およびリコメンド・エンジンのようなアプリケーションを支える推論ワークロードの性能を改善することを狙った新しいソフトウェアを公表した。
MaxwellベースのM4およびM40 GPUと同じフォームファクターを採用しており、この新Pascalカードは推論ワークロードを高速化するように設計されている。最も重要なのは、このGPUが8ビット(INT8)演算をベースとした特別な推論命令を備えていることだ。ベンチマートとしてVGG画像認識モデルを使った場合、このP40はE5-2690v4 Xeon (最新のインテルMath Kernel Libraryを使用)よりも45倍高速に回答し、昨年11月のスーパーコンピューティング会議で登場したM40の4倍改善されているとNvidiaは報告している。どちらの場合も、P40はINT8命令を実行しており、比較ハードウェアはFP32を採用している。
この試験においてNvidiaは、これもまた同日発表された同社のTensorRTライブラリの内部バージョンとTesla P40を組み合わせた。以前はGIE(GPU Inference Engine)として知られるTensorRTはPascal GPU上でも動作するように学習されたニューラルネットを可能にしていると、Nvidisは述べている。このライブラリはニューラルネットを行い、一般的には32ビットもしくは16ビット演算で作られており、展開用に利用される特定のGPU用にチューニングするのだ。
「データセンター内にP4やP40のようなGPUがある場合、TensorRTは自動的にそれを認識しニューラルネットを8ビットに変換するのです。」とNvidiaのTesla HPC事業ユニットのプロダクト・マネージャーであるRoy Kimは述べている。「そしてTensorRTはニューラルネットを用いてどこにでも展開するのです。例えば組み込みJetsonプログラムにも展開することができます。」
学習の面においては、モデルは少なくとも16ビット浮動小数点(FP16)のより高い精度が求められるが、一旦モデルが学習されると、このダイナミックレンジは精度を落とすことなしに8ビットのレンジまで落とすことが可能となる。INT8の結果は単精度浮動小数点(FP32)と比べて4倍のスループットが可能となるのだ。
![]() |
|
![]() |
|
このP4はスケールアウト・データセンター・サーバ用に設計されており、P40がデーィプラーニングに対するハイ・スループットを重視するのに対し、エネルギー効率を優先している。P40は例えば夜間のビデオデータの処理用のバッチ・モードにおけるボックス中に多くのGPUを展開したい顧客向けであると、Kimは述べている。単一のTesla P4は毎秒22テラ演算(TOPS)を持ち、一方P40は毎秒47テラ演算(TOPS)である。両方共ブースト・クロックが有効になっている。
Nvidiaはまた、高速ビデオ解析のワークロードを支援するための新しいソフトウェア開発きっとを発表した。DeepStreamSDKは、様々なフォーマットにビデオをコード変換するAPIを持ち、これらのビデオを事前処理するためのSDKを持っており、そしてディープラーニングのフレームワークを支援するためのAPIを持っていると、同社は述べている。Nvidiaによると、DeepStreamを使うことで1台のTesla P4サーバ’(2個のE5-2650 v4 CPUwと搭載)は同時にデコードと解析を最大93個のHDビデオストリームをリアルタイムに行うことができる一方で、GPU無しのBoradwellベースのボックスは7つのストリームしかできない。
Nvidiaは百度を重要なパートナーとしており、中国の検索巨人は今でもNvidiaのGPUをDeep Speech 2システムの学習と推論に使っているのだ。百度のようなハイパースケールは、ユーザやデバイスからの問い合わせに応じて音声、画像もしくはテキストを認識するために、システムに掛かる時間を最小化することに益々懸念している。
「私達のユーザのそれぞれにシンプルで応答性のある体験を実現することが私達にとってとても重要なのです。百度においては、私達はNVIDIA GPUを運用に供しており、我々のDeep Speech 2システムのようなAIパワーのサービスを提供しており、GPUの利用はアクセラレータ無しのサーバではできない応答性のレベルを可能としているのです。」
「Deep Speech 2モデルの複雑さは1年で10倍に膨れました。」とNvidiaのKimは語った。「これは学習側に何故GPUが必要かについて理にかなっています。しかし、推論側においては問題を抱えています。それは以前はCPUサーバに展開することがOKだったのに、それはもう持続しないのだ。ハイパースケールにおいては、すべてのミリ秒が問題なのです。百度は500ミリ秒を超えるとユーザとの契約が落ちると信じています。Pascal GPUではこの応答性はほとんど迅速で、約100ミリ秒です。」
Nvidiaは、比較試験において最新のインテルのハードウェアとソフトウェアを使うことを保証するための痛みを経験したと述べている。グラフィックスのチップメーカーのメッセージは、最新のBoradwell CPUでさえも今日の推論ワークロードによって挑戦されていることだ。インテル側から見ると、そのディープラーニングのポートフォリオの星はXeon Phiメニーコアプロセッサなのだ。我々はNvidiaの性能比較における優位のより完全な構図を想像しており、Pascal GPUがワークロードの範囲においてKnights Landingに対して一騎打ちをする際にインテルシリコンが登場してくるだろう。来年、低精度演算をサポートする次世代PhiプロセッサKnights Millの登場で物事はさらに面白くなるだろう。
このTesla P40は来月発売予定で、P4は1月後になる。このカードは、Dellテクノロジーズ、HPE、Inspur、Inbentec、Lenovo、QCT、QuantaおよびWistronを含むすべての主要なOEMおよびODMから購入可能である。
DeepSteam SDKは招待のみのクローズドベータプログラムの一環として、早期ユーザに提供可能になる予定だ。