Nvidia、AIスーパーコンピューティングに明るい未来を見る
Tiffany Trader

グラフィックスのチップメーカーであるNvidiaはソルトレークシティで開催されたSC16において強烈な展示を行っていた。最も顕著な成果は、新規の社内DGX-1スーパーコンピュータであるSaturn VでGreen500リストの1位の座を達成し、国立癌研究所、米国エネルギー省(DOE)および複数の国立研究所と協力することで、癌ムーンショット・イニシアティブの一環として癌研究を加速させている。
同社はこのSCでの活動をCEOであるJen-Hsun Huangとのプレスブリーフィングで開始し、彼は2016年をNvidiaが10年以上にわたって普及してきたGPUコンピューティングアプローチの転換点と位置づけた。
驚くことではないが、Huangの主なメッセージは、GPUコンピューティング時代が到来したことである。一時間にわたる講演を通して、Huangは深層学習のテーマをスーパーコンピューティングの問題とスーパーコンピューティングのチャンスとして説明した。
「スーパーコンピュータはAIスーパーコンピュータとして設計されなければならないと考えています。つまり、計算科学とデータサイエンスの両方で優れていなければならないということです。データサイエンスだけに優れたマシンを構築することは理にかなっていませんし、計算科学だけでもうまくいきません。」と彼は述べている。
「一方で、深層学習には膨大な量のデータスループット処理が必要です。コンピュータが背後にある多くのデータ処理に触発されてそれ自体がソフトウェアを書くことは、計算にとって非常に重要なアプローチですが、今日までに不可能だった科学の問題を解決するというスーパーコンピューティングにも恩恵を受ける機会も提供しているのです。」
Huangの見解では、伝統的な数値計算HPCはどこにもないが、機械学習方法と並んで存在するという見解である。
「私はできる時に数学を使うのが大好きですが、できない時にはAIを使うべきでしょう。」と彼は述べている。「例えば、猫の方程式は何でしょうか?おそらく犬の方程式に非常に似ていると思われます。2つの耳、4つの脚、尾があります。そして、方程式が使えない多くの分野があり、そこに私はAIを見るのです。検索問題、推奨問題、尤度問題など、過度のデータ、不完全なデータ、またはそれをサポートする物理法則がないところです。だから、今夜食べたいと思う場所はどこでしょうか?そのための物理法則はありません。私たちが解決できないような種類の問題がたくさんあります。私はそれらが共存して行くと思っています。」
NvidiaはCUDAプログラミングフレームワークと組み合わせた数千のCUDAコアを介して並列コンピューティングを可能にしているが、CEOはパフォーマンスの高い中央処理装置の必要性を強調している。「ほとんどすべてのことを強力なCPUから始めています。」とHuangは述べている。「我々はまだアムダールの法律を信じています。私たちはコードには単一スレッドがたくさんあると信じており、これは引き続き得意なものにしたいと考えています。」
![]() |
|
現在、NVLink P100 GPUを搭載して出荷しているNvidiaのDGX-1サーバとIBMのMinskyプラットフォームの2種類のサーバが目標に向かっている。DGX-1は8台のNVLinkのPascal P100を20コアのIntel Xeon E5-2698 v4チップに接続している。IBMのMinskyサーバは2台のPower8 CPUと4台のCPUとNVlinkで接続されたP100 GPUを活用している。
Nvidiaの124ノード・スーパーコンピュータであるSaturn VはAIスーパーコンピューティングに先導するNvidiaの計画における重要な役割を演じている。このマシンは第48回TOP500リストに3.3ペタフロップス(ピークで4.9ペタフロップス)のLinpack性能で第28位に登場した。さらに印象的だったのは、ワット当たり8.17ギガフロップス以上を達成してGreen500リストの1位の座を射止めた。これは前回のTOP500リストにおいて最も効率的であったマシンが提供したワット当たり6.67ギガフロップスよりも42パーセントも向上しているのだ。エクサスケールにした場合の推定では105.7 MWとなる。もし少し「緩めた」エクサスケールの電力量を30 MW(当初のDARPAの計画電力消費量は20 MW)とするならば、これは米国エクサスケール・システムの計画された電力消費量の四分の一以下となっている。3年前にはこの推定デルタは7倍だった。
オリジナルの月探査計画からイメージされた名前のSaturn VはCANDLE(ガン分散学習環境)プロジェクト(カバー記事はこちら)の重要な部分を担う予定だ。CANDLEのミッションは、ハイパフォーマンス・コンピューティングおよび機械学習とデータ解析技術を活用して精密腫瘍学を推進することである。Huangは、パートナーと共に「エクサスケール用に設計された世界初のディープラーニング・フレームワーク」の開発を行っていると述べている。
「これは本当に難しいでしょう。」と彼は付け加えた。「そのために我々は4つのDOEの研究所と協力して、同じアーキテクチャで標準化されているのです。Saturn Vはその中でも最大のものですが、我々はすべて全く同じアーキテクチャを使用しており、すべてがGPUで高速化されていて、我々はエクサスケールを獲得するためにスケールができるようなフレームワークを開発しているのです。」
ディープラーニングのFLOPS数学(HPCの通常の64ビットFLOPSに対して16ビットの浮動小数点演算)を適用すると、エクサスケールはそれほど遠くないものであるとHuangは指摘している。
IBM/NvidiaのCORALマシンは2018年にFP64で300ペタフロップスのピーク性能を目指して進行中であり、これはFP16では1,200のピーク性能となる、とHuangは指摘する。「AIにとって、FP16で十分であり、今ではFP32が必要な分野もあります。我々は可変な精度が必要でありますが、そこがポイントです。」と彼は語った。「CORALは世界最速のAIスーパーコンピュータとなると思いますし、我々はそれを知らなかったと思います。しかし、我々はすでにエクサスケール・マシンを築き上げているはずなのです。」
ビットを下げればデータ・スループットを向上させる(FLOPSを上げる)が、一人のアナリストがこのイベントで述べたように、「これをエクサスケールと呼ぶことはルールを変えること」になるのだ。
Nvidisの計画をより深く理解するのは11月16日のGreen500のBoFで発表したソリューション・アーキテクトのLouis Cappsだ。
「これはまったくの研究プラットフォームです。」と彼はSaturn Vについて述べている。「我々はアカデミアに使わせます。我々はパートナーシップ、共同研究を行い、内部的にはディープラーニング研究とHPC研究を行うのです。」
組込、ロボティクス、自動車、およびハイパースケール・コンピューティングのすべてが重要な分野であるが、CappsとHuangはデータ科学とHPCの収束におけるチャンスについて最も情熱的である。「我々は今ちょうど本当のHPCの仕事がディープラーニングに収束しているところに橋渡しをしようとしているのです。」
![]() |
|
Saturn Vはラック当り5台の3Uボックスで構成され、各ラックは15KWの電力が供給されており、合計で25ラックある。Saturn Vの報道写真はラック当り10台のサーバを示しているが、これは内部を反映しているものではない。「我々は自分達の中にはそんなに多くを入れることはできませんでした。」とCappsは述べている。「これはデータセンターに置いたものでHPCではないのです。元々ITデータセンターだったのです。」
Saturn VはPascalベースのP100 GPUを搭載したTOP500に掲載された2台のシステムのひとつである。2番目のエコ・スーパーコンピュータであるPiz DaintはPCIe版を使っている。スイス国立スーパーコンピューティング・センターに設置され、Piz Daintはワット当り7.45ギガフロップスのエネルギー効率を出している。新しいP100ハードウェアにリフレッシュしたことで、Piz DaintはLinpackベンチマークで9.8ペタフロップスを達成しており、最新リストにおいて8位となっている。
注目すべきことは、Green500リストの上位10システムはひとつ残らずアクセラレータもしくはメニーコアを使用している。そこには純粋な従来のx86は存在しないのだ。
このアプローチの説得有る根拠は、Nvidia K80 GPUを1年以上も気象予報の運用に利用しているスイス国立スーパーコンピューティング・センターのディレクターであるThomas Schulthessが述べている。「HPCコミュニティがヘテロなアプローチに問題を抱えていることを知っています。」と彼は述べている。「我々はこの問題について多くの分析を行ってきました。もし均一なXeonベースのシステムで構築した場合、エクサスケールにおける我々が持つ目標はどのようなものになるのか、そして、Xeonシステムをベースで構築した場合には、5,6年後のエクサスケールにおいて、現在よりもはるかに巨大で高速な重要な問題を実行する方法がないのです。」
「このアプリケーションの人々へのメッセージは、考える時間はあったけど、今はもう選択肢がないということなのです。エクサスケールでの実行をしたければ、Xeon PhiかGPUで高速化、もしくはライトウェイトコアに行くしかなく、ほとんどTaihuLightで見ているCellのようなアーキテクチャになるのです。」