GTC15基調講演、GPUコンピューティングの10倍の成長を強調
Tiffany Trader

今年のGPU Technology Conferenceの基調講演の焦点は特にHPC中心ではなかったが、NVIDIAのカリスマCEOであるJen-Hsun Huangがサンノゼ・コンベンションセンターに集まった4,000人の参加者に示した2時間のプレゼンテーションを通して、スーパーコンピューティングへのリファレンスに富んでいた。
今年の深層学習のテーマを紹介することを意味した不可欠だがとてもクールなGPU対応のビジュアルデモに加えて、参加者はまた、GPUコンピューティングが過去6年間に行った進歩について聞く事となった。そして、恒例のイベントでの慣習となっているように、NVIDIAは新しいGPUを披露し、2018年までのグラフィックス・コンピューティングのロードマップの主要な部分を明らかにした。
披露されたばかりの次世代NVIDIA GPUに関しては、その栄誉は2013年にNVIDIAが発売した、オークリッジ国立研究所で勝ち取った同じ名前のフラグシップ・スーパーコンピュータに敬意を表されたTitanチップの派生であるTitan Xに授与された。しかし、Titan Xは倍精度浮動小数点性能では0.2テラフロップスと少なめの性能で、明らかにほとんどのHPCワークロードには向かない。しかし、単精度性能では7テラフロップスあり、Titan Xは深層学習ワークロード(もちろん)への恩恵となっている。
倍精度浮動小数点演算性能を求める人達には、Huangは倍精度で2.6テラフロップス(単精度で8.0テラフロップス)あるTitan Zを指摘した。「Titan Xは」とHuanは話した。「単精度演算のために設計されています。倍精度演算性能を欲しい人達には、単一カードで最高の倍精度演算性能のGPUであるTitan Zがあります。Titan Xは最大のフレームバッファ(12GB)と我々が創った最先端のGPUアーキテクチャを持った最高の単精度性能を持っており、すべてMaxwellベースになっています。」
基調講演の後のアナリスト・イベントでは、NVIDIAのGPUエンジニアリングのシニア副社長であるJonah Albenが倍精度浮動小数点性能の不足への対処について話し、次のように述べている。
「Nvidiaはひとつの共通したGPUアーキテクチャを持っていますが、お客様が何をターゲットにしているかに応じて異なる選択をしています。GM20x(Maxwellの第二世代)チップファミリーであるGPUをベースにしているTitan Xはそのため、それらのチップと同じ特性を持っており、深層学習型のお客様をターゲットにしています。そして、もちろん倍精度演算に最適な他の製品も持っているのです。」
この基調講演はまたJen-Hsun Huangにとって2008年(CUDAは2007年に登場)以降のGPUコンピューティングの成長を強調する良い機会となった。そのまだ駆け出しであった年においても、15万のCUDAのダウンロードがあり、27個のCUDAアプリケーションができ、4千もの論文が書かれ、60の大学でCUDAによる高速化コンピューティングが教えられ始め、そして6千台のTesla GPUが出荷され、これはGPU高速化スーパーコンピュータだけで77テラフロップスの性能に匹敵するのだ。
「私達が可能にしたのは、世界で最も利用され、世界で最もアクセスし易いスーパーコンピューティング・プラットフォームです。」とHuangと話だし、「すべての研究者、すべての学生、すべてのエンジニアが非常に簡単に手を出しやすく、研究を高速化するCUDAの力を持ったGPUを手に入れることができるのです。」
現代に目を移すとNVIDIAによるGPUコンピューティングはおおよそ10倍に成長しており、3百万のCUDAダウンロード、319個のCUDAアプリケーション、世界中で800の大学がCUDAおよびGPU高速化を教えており、6万の論文が研究でのGPUの利用を引用しており、そして45万台のTesla GPUが出荷され、なんと54ペタフロップスもの高速化コンピューティングがスーパーコンピュータまたはハイパフォーマンスコンピューティング・センターで広く利用されているのだ。
「私達が求めているものは、快適さ決して見失うことが無いようにしながら生産性の向上とこのプラットフォームのプログラム性を極力容易にする間の快適なバランスと、プログラムの容易性と信じられない程高速になって来ているコンピュータの利用の間のデリケートなバランスを見つけることです。私達が提供しているアプリケーションのほとんどは本当にスピードです。スピードが無ければ、仕事をすることが単にできないのです。研究者が私の所に来て言ってくれる私のお気にいりの言葉は、あなたのお蔭で私が生きている間にライフワークをすることができます、というものです。」
先を見る
NVIDIAはまたグラフィック・プロセッサのロードマップをリフレッシュし、将来のPascal GPUと昨年Pascalが展示された後にラインアップとして戻ってきたVoltaを見ることができる。過去12カ月においてPascalに関する変更はあまり無かったが、Huangは主要要素として認識しており、とりわけ:高精度用の混成精度計算、3倍速の帯域幅とMaxwellの3倍のフレームバッファ容量を持つ3Dメモリ、そしてもちろん今日の標準であるPCI-Expressと比較してGPU-CPU間のデータ転送速度が5から12倍高速化できように現在進行中であるNVLINKだ。
NVIDIAが昨年ロードマップのいくつかの重要な部分を切り替えた後に、Voltaがそのアーキテクチャの運命に疑問を抱いたまま戻ってくる。元々Voltaの登場のために計画していた3D積層メモリとNVLINK技術はPascalに移行され、2016年を目途にしたままだ。Voltaの詳細は2018年のリリースが見通されているといった以外、現時点で何も明らかになっていない。
上図:GTC15ロードマップ – 下図:GTC14ロードマップ (昨年のロードマップでは無くなったVoltaが復活)
HuagはまたMaxwellの10倍の性能を持つPascalを示すいくつかの図を説明した。
後にプレスのQ&Aで明らかになったのだが、このかなりのスピードアップは特に深層学習や一般的な画像処理のような16bit浮動小数点演算で恩恵を受けるようなアプリケーションを参照していたとのことだ。