世界のスーパーコンピュータとそれを動かす人々


2月 2, 2026

エヌビディア、RubinはBlackwellに比べてAI推論性能を5倍向上

HPCwire Japan

オリジナル記事「Nvidia Says Rubin Will Deliver 5x AI Inference Boost Over Blackwell

今年後半に発売されるエヌビディアの最新GPU「Rubin」は、Blackwellと比較して推論性能が5倍、トレーニング性能が3.5倍となる。エヌビディアのジェンセン・フアンは先日開催されたのCES 2026でこう述べ、Vera Rubinプラットフォームを正式に発表した。

これまでのAI革命は、AIチップ市場の90%を独占するGPUチップメーカーであるエヌビディアを通じて進んできた。現行のBlackwell GPUとGrace Blackwell CPU-GPUスーパーチップは驚異的な売れ行きを示しており、同社はVera Rubinでその成功を次の段階へ引き上げようとしている。

「Vera RubinはAIの新たな領域にまさに間に合う形で登場する」と、ファンは1時間半に及ぶCES基調講演で述べた。「Vera Rubinは既に量産段階にあると断言できる」

発表内容は新旧が混在していた。エヌビディアは2024年6月からVera Rubinスーパーチップについて言及しており、同時期にNVL72システム開発用のスケールアップインターコネクト技術NVLink-6についても言及を開始した。同社は今年前半にSpectrum-Xコパッケージ光学部品(2026年出荷予定)を発表し、10月にはBluefield-4データ処理ユニット(DPU)を発売している。

 
  エヌビディアは新GPU「Rubin」の仕様を公開した
   

これまで非公開だった新GPU「Rubin」の性能指標が明らかになった。ファンはまた、新サーバ「Vera Rubin NVL72」に採用された「極限の共同設計」の背景と必要性について、詳細な説明を加えた。

RubinのAI性能スペックは圧巻だ。エヌビディアによれば、新チップはNVPF4推論性能で50ペタフロップス(Blackwell比5倍)、NVFP4性能で35ペタフロップス(同3.5倍)を実現する。HBM4メモリ帯域幅は秒間22TBで、Blackwell比2.8倍の向上。GPUあたりNVLink帯域幅は秒間3.6TBで、2倍の増加となる。

ファン(詳細は明かさなかった)によれば、Arm設計をベースとするVera CPUは、置き換えるGrace CPUチップの2倍の性能を発揮する。88個のカスタムOlympusコアを搭載し、エヌビディアの「空間マルチスレッディング」によりコアあたり176スレッドを提供する。1.8TB/秒のNVLink C2C接続、1.5TBのオンチップメモリ(Graceの3倍)、1.2TB/秒のLPDDR5Xメモリ帯域幅を備える。

ファンはまた、Vera Rubin NVL72ポッドの最初のラックが稼働を開始する様子を動画で公開した。
同ポッドは18基のコンピューティングトレイと9基のNVLinkコンピューティングトレイを備え、重量は約2トンに達すると述べた。総計で220兆個のトランジスタを搭載し、設計には15,000人年を要したと説明した。

 
CES 2026にて。Vera Rubin NVL72サーバラックの前に立つファン  
   

NVLink72ポッドは、ムーアの法則が減速して以来、エヌビディアがやむなく取り組んできた「極端な共同設計」の一例だとファンは述べた。

「当社には社内のルールがある。良いルールだ。『新世代で変更するチップは1つか2つまで』というものだ」とファンは基調講演で語った。「だが問題は…ムーアの法則が大きく鈍化したことで、年々得られるトランジスタ数が10倍も大きくなったモデルに到底追いつけないことだ。」

AIトークンの生成が増えコストが下がるにつれ、エヌビディアや他のチップメーカーは性能向上を迫られている。RubinはBlackwellより1.6倍のトランジスタを搭載しており、これが性能向上の出発点だ。だが1.6倍では10倍には届かない。

「業界が前進し続けるためには、あのペースについていくのは不可能だ」と彼は言った。「我々が積極的で極端な共同設計を展開しない限り――つまり、全てのチップ、スタック全体を同時に革新しない限りは。それが今回の世代で、全てのチップを再設計する以外に選択肢がなかった理由だ。」

 
  エヌビディアは次世代Vera GPUの仕様を公開した
   

ファンは、AIワークロード向け行列乗算・積算(MMA)演算を高速化するGPU内蔵の専用処理ユニット「Tensor Core」技術を、RubinがBlackwell比でAI推論性能を5倍向上させる主要因の一つとして挙げた。

「これは完全な処理ユニットだ。変圧器の異なるレベルに対応するため、動的かつ適応的に精度と構造を調整する方法を理解している。だから、精度を落とせる場所では可能な限り高いスループットを達成し、必要な場所では可能な限り最高の精度に戻すことができる」と彼は言った。「これは画期的だ。業界がこの形式と構造を将来の標準として採用することを望んでも、私は驚かない。これは完全に革命的だ。トランジスタ数がわずか1.6倍しかないにもかかわらず、これほど巨大な性能向上を実現できた理由がここにある。」

エヌビディアはRubin GPUの完全な性能データはまだ公開していない。HPCコミュニティの一部では、Blackwell世代のチップが前世代GPUに比べて64ビット浮動小数点演算などの高精度処理能力が低下しているのではないかと懸念されている。FP64は、長年スーパーコンピューティングコミュニティの基盤となってきた伝統的なモデリング・シミュレーションワークロードにとって極めて重要だ。

先月、エヌビディアはHPCwireに対し、64ビットコンピューティングを放棄するつもりはないと述べた。FP64の性能仕様を確認するには、おそらく3月のGTC 26まで待たねばならない。言うまでもなく、近頃極めて重要な消費電力についても同様だ。