NVIDIA Tesla対戦:K40対K20X
Tiffany Trader

NVIDIAのK40 GPUの発表については、ネット上では語り尽くされたようだが、まだひとつXcelerit社のエンジニアリングチームが手中にしているようだ。金融向けアクセラレータ最適化コードを走行させるxceleritは、最新のアクセラレータやマルチコアチップのベンチマーク用のリソースとしても知られつつある。
一世代前のハイエンドのKepler K20Xと比較すると、NVIDIAのTesla K40は、多くのメモリ、高いクロックレート、および多くのCUDAコアを売りにしている。しかし、それらの仕様の向上が現実世界の金融アプリケーションでどれだけの性能向上を見せるのか?それこそが、Xcelerit社のチームが知りたいと思ったものである。そこで彼らは、モンテカルロLIBORスワップション・ポートフォリオ価格設定を目安として使用して、K40とK20Xを対決させた。
ハードウェア比較の内訳は次の表に示されている。
Tesla K20X | Tesla K40 | |
SMX | 14 | 15 |
CUDA Cores | 2,688 | 2,880 |
Memory | 6 GB | 12 GB |
Core Frequency | 732 MHz | 745 MHz |
Max Frequency | 784 MHz | 875 MHz |
Memory Bandwidth | 250 GB/s | 288 GB/s |
Xceleritの共同創設者で技術リーダーであるJörg Lotze氏は、クロック速度、コア数やメモリ性能の明らかな差を別にすると、K40の最も重要な機能強化はCUDAコアの周波数を引き上げるGPUブースト•モードであると述べている。筐体が指定された温度範囲であれば、最大17%高い周波数での走行が可能である。その温度の指定範囲を超えると、クロックは自動的に絞られる。 一方、K20Xは7%しかブーストできない。
ベンチマークは、モンテカルロLIBORスワップション・ポートフォリオの価格設定を採用している。これはLIBORスワップションのポートフォリオの価格設定に使用される一般的な金融アルゴリズムであり、LIBOR金利の将来あり得る何千もの予想経路のシミュレーションを行う。それぞれの経路について、スワップション・ポートフォリオの価格は、ポートフォリオの利得関数を適用することにより計算される。最終的なポートフォリオ価格や金利感応度の値が、すべての経路の平均値を計算することによって得られる。
経路数が多いために、処理は計算バウンドになり、コア数の追加とクロックスピードの向上は、大幅なパフォーマンスの向上をもたらすというシナリオが想定できる。
アプリケーションは、Intel Xeon E5noデュアルプロセッサと各々GPUが装備された二つのシステムに、Xceleritソフトウェアを使用して実装された。
ブログから:
我々は各システムのGPUにおけるモンテカルロLIBORスワップション・ポートフォリオ価格設定の計算時間を測定した。それは15のスワップションを含 むポートフォリオを、80タイムステップにわたりモンテカルロ経路の様々な変動数を使用して価格設定したものだった。全ての処理 – 乱数生成、データ転送、コアの計算、そして換算 – の実行時間を単精度と倍精度のケースごとに下のグラフに示す。これらの全ての計算ステップはGPU上で実行されているので、CPUの使用時間の違いはベン チマークの結果に影響を与えない。 |
我々は各システムのGPUにおけるモンテカルロLIBORスワップション・ポートフォリオ価格設定の計算時間を測定した。それは15のスワップションを含むポートフォリオを、80タイムステップにわたりモンテカルロ経路の様々な変動数を使用して価格設定したものだった。全ての処理 – 乱数生成、データ転送、コアの計算、そして換算 – の実行時間を単精度と倍精度のケースごとに下のグラフに示す。これらの全ての計算ステップはGPU上で実行されているので、CPUの使用時間の違いはベンチマークの結果に影響を与えない。
デフォルトのクロック周波数設定では、 K40はK20Xの1.1から1.2倍の性能を示した。ブーストモードの場合は、K40のパフォーマンスの向上は1.2から1.25倍になった。
Xceleritチームはいくつかの注目すべきポイントを含む以下のチャートを作成した:
Paths | Speedup (def.clock,single) |
Speedup (def.clock,double) |
Speedup (max.clock,single) |
Speedup (max.clock,double) |
16K | 1.15x | 1.17x | 1.21x | 1.21x |
256K | 1.15x | 1.17x | 1.21x | 1.26x |
1024K | 1.15x | 1.18x | 1.22x | 1.28x |
ベンチマーク結果は、K40が現実世界の財務アプリケーションで大幅な性能向上を示している。 特に、ブーストモードの場合は1.28倍にも性能は向上している。Xceleritの担当者は、高速化がパス数に関係なく見られることから、小規模な計算でも新しいGPUの恩恵を期待出来ると、指摘している。「メモリ容量を倍増することで、Tesla K40 GPUが威力を発揮する分野になる。」と彼は書いている。