世界のスーパーコンピュータとそれを動かす人々


12月 5, 2017

V100は良いが、特定のディープラーニングにおいてはそれ程ではない、Xcelerit

HPCwire Japan

John Russell

ディープ・ラーニング・アプリケーションを高速化するためにハードウェアから最適なパフォーマンスを引き出すことは、使用されている特定のアプリケーションに依存することが多い。 Xcelerit社が発表したベンチマークレポートによると、Nvidiaの最新V100 GPUは、NvidiaのP100 GPUと比較して、いくつかの金融アプリケーションで予想よりもスピードアップが遅くなっていることを示している。

Xceleritによると、具体的には、V100の新しいTensorコアは、リカレントニューラルネットワーク(RNN)とその特殊バージョン、長期短期記憶モデル(LSTM)には最適ではないという。どちらも時系列入力を処理するための金融アプリケーションに幅広く使用されている。

「テストされたRNNおよびLSTMディープ・ラーニング・アプリケーションでは、ネットワーク・サイズ(128〜1024隠れユニット)と複雑さ(RNN〜LSTM)によって、V100対P100の相対パフォーマンスが向上することがわかりました。FP16精度モードにおいては、トレーニングモードはP100に対してV100は2.05倍で、推論モードでは1.72倍を記録しています。これらの数字は、ハードウェア仕様(以下のスペックをクリックして拡大)に基づき予想されるV100の性能を下回っています。」と、 アイルランドに拠点を置く量的金融、エンジニアリング、研究用ソフトウェアツールのプロバイダーであるXcelerit社は報告している。

Xcelerit社によれば、この予想を下回るパフォーマンスの原因は強力なV100内のTensorコアが、半精度(FP16)または混合精度モードでの行列乗算にのみ使用されるためであるとしている。

「テストされたアプリケーションをプロファイリングすると、LSTMの場合、行列乗算は全体のトレーニング時間の約20%に過ぎず、他の構成ではさらに低くなっています。他の操作(softmax、スカラー製品など)では、強力なTensorコアを使用できません。これは、例えばランタイムが大規模な行列乗算によって支配されているためにTensorコアを最適に活用することができる画像認識に使用される畳み込みネットワークとは対照的です。」とXcelerit社は報告している。

P100とV100の両方が大成功を収め、この夏から導入された新しいV100システムが氾濫していることには意味がある(NvidiaおよびパートナーがいくつかのV100サーバーを発表している)。 Xceleritは次のように述べています。「V100はP100と比較して優れたハードウェア改善を示していますが、金融時系列を扱うRNNなどのディープラーニング・アプリケーションではV100の特別なハードウェアを利用できない可能性があるのです。」とXcelerit社は報告している。

Xceleritレポートへのリンク(ベンチマーク:Nvidia P100 vs. V100 GPU):https://www.xcelerit.com/computing-benchmarks/insights/benchmarks-deep-learning-nvidia-p100-vs-v100-gpu/

チャートとV100 / P100の仕様:Xcelerit