世界のスーパーコンピュータとそれを動かす人々


10月 28, 2024

AMDの新型「MI355X」は、「MI325X」を平凡に見せる

HPCwire Japan

Agam Shah オリジナル記事「On Paper, AMD’s New MI355X Makes MI325X Look Pedestrian

アドバンスト・マイクロ・デバイセズは、エヌビディアの唯一の正当な代替GPUとして、その地位を揺るぎないものにする2つの新しいGPUについて詳細に説明した。AMDは、CDNA4アーキテクチャに基づく次世代GPU MI355Xに関する新たな情報を発表した。MI355Xの進歩により、AMDが新たに発表したもう1つのGPU、MI325Xは平凡なものに見える。

MI355Xは、AMDの来年度のロードマップにおける主力GPUであり、2025年後半に発売される予定である。MI325Xは第4四半期に生産が開始され、来年初頭に出荷される予定である。

2026年には、AMDは「CDNA-Next」をベースとしたMI400を計画しているが、今回の発表には含まれていない。

MI355Xは予想通り大幅に高速化されるが、MI325Xのリリースから1年以内にリリースされる予定である。MI325Xの大きな強みは、HBM3メモリを搭載したMI300XのエントリーレベルAI代替品となるHBM3eへのアップグレードである。

 
  AMD MI325X(出典:AMD)
   

しかし、MI355Xの速度向上と新機能は、現代のAIコンピューティングに必要な多くの主要機能が欠如しているMI325Xの弱点を露呈している。

MI355Xは、エヌビディアがすでにBlackwell GPUでサポートしているFP4およびFP6データタイプをサポートする初のAMD GPUである。MI325X GPUはこれらのデータタイプをサポートしていない。

FP4とFP6のサポート不足により、AMDはエヌビディアに約1年遅れをとることになる。エヌビディアはすでに最初のBlackwell GPUを出荷しており、マイクロソフトとOpenAIはシステムの最初のエンジニアリングサンプルの画像を公開している。

高精度コンピューティングにさよなら?

AMDのプレゼンテーションは低精度から混合精度にのみ焦点を当てており、科学研究用スーパーコンピュータに不可欠なFP32やFP64については言及されていない。

AMDは、MI250Xを搭載したFP64に深く傾倒しており、これはLINPACKベンチマークで世界最速のスーパーコンピュータであるFrontierに搭載されている。MI300Xを搭載した早期デリバリーのEl Capitanの初期ベンチマークも、非常に有望な結果を示している。El Capitanは、Top500リストでトップの座を獲得する可能性がある。

しかし、HPCの世界は徐々に混合精度に向かって動いている。アルゴンヌ国立研究所のスーパーコンピュータAuroraは、混合精度ではなく高精度コンピューティング向けに設計されているため、Top500でトップの座を獲得することはできなかった。Auroraは、Top500の混合精度HPL-MxPベンチマークでトップの座を獲得した。

より大きなモデルとメモリ

FP4とFP6のサポートにより、MI355Xは最大4.2兆のパラメータを持つ大規模言語モデルをサポートする初のモデルとなる。MI325Xでは1.8兆のパラメータをサポートしている。

AMDは、同等のデータタイプにおいて、MI355XはMI325Xの1.3ペタフロップスに対して、FP16で2.3ペタフロップスの理論上のピーク性能を実現すると見込んでいる。AMDは、8つのMI355X GPUを1つのシステムに搭載し、合計ピーク理論システム性能を20.8ペタフロップスとしている。これに対し、8ウェイのMI325Xシステムでは10.4ペタフロップスである。

AMDは、GPUのメモリ容量を3世代(MI355X、MI325X、MI300X)で1.5倍に増やしたと述べている。

MI355XのFP8パフォーマンスクロックは理論上のピークで4.6ペタフロップスであるのに対し、MI325Xでは2.6ペタフロップスである。MI355XはFP6およびFP4パフォーマンスで理論上のピーク74ペタフロップスを実現するが、MI325Xではこれらのデータタイプはサポートされていない。

 
  AMD MI355X(出典:AMD)
   

 

MI355Xアクセラレータは、MI325Xの256GBのHBM3eからアップグレードされた288GBのHBM3eメモリを搭載する。MI355Xのメモリ帯域幅は8TB/秒で、MI325Xの6TB/秒から改善されている。

MI325Xのメモリ帯域幅は、HBM3メモリと5.3TB/秒のメモリ帯域幅を備えたMI300Xから段階的に改善されている。

8つのMI355X GPUを搭載したシステムでは、メモリ容量は2.3TB、メモリ帯域幅は64TB/秒となる。8ウェイのMI325Xシステムでは、HBM3eメモリが2TB、帯域幅は48TB/秒となる。また、Infinity Fabricインターコネクトも搭載する。

AMDの競合相手?

GPU市場でエヌビディアの唯一の正当な競合相手はAMDであり、同社のGPUは市場を独占している。

しかし、推論処理に関しては、特にインテルのGaudiやハイパースケーラーの社内設計ASICなど、他の選択肢のリストが拡大していると、Tirias Researchの主席アナリスト、ジム・マクレガー氏は指摘する。

「しかし、需要が尽きることなく、データセンターやファウンドリのチップ容量が限られているため、AMDはAIアクセラレータ分野で有利な立場にいます。特に、企業からの関心が高まっていることがわかります」と、マクレガー氏は述べた。

AMDは、同じファウンドリとプロセスノードを使用している競合他社に対して必ずしもコスト面で優位にあるわけではない。価格は柔軟であり、AMDは常に市場シェアを獲得するために利益の一部を放棄する用意がある。

「しかし、現在の製品ポートフォリオと市場状況を考慮すると、低価格を前面に打ち出す必要はないと私は考えています」とMcGregor氏は述べた。

そして最後に… CPU

AMDは、新しいEpyc 9005シリーズプロセッサでGPUのアップセルを狙っている。これは、エヌビディアがCPUとGPUを緊密に連携させるGrace Hopperチップでやっていることとよく似ている。

同社は、同社のCPUはGPUのパフォーマンスを向上させると説明している。CPUは、データ準備や前処理・後処理などのタスクを担うことができ、これによりGPUの負荷が軽減される。

Turinと呼ばれるサーバープロセッサのEpyc 9005ファミリーは、最大192個のCPUコアを搭載する。コアはZen5cアーキテクチャに基づいている。

HPEは、8つのMI325Xアクセラレータと、同社が大規模な言語モデルのトレーニングが可能だと主張する2つのEPYC 9005 CPUをサポートするProLiant Compute XD685を発表する。

192コアを搭載したフラッグシップのEpyc 9965は、384MBのL3キャッシュを搭載し、価格は約14,813ドルである。AMDのTurinチップは12のDDR5メモリチャネルを備えている。

 
  AMD 第5世代 EPYC CPU(出典:AMD)
   

AMDは、同社のCPUがIntelの第5世代Xeonチップ「Emerald Rapids」よりも大幅に高速であると主張している。しかし、AMDのベンチマークの主張には疑問があるため、それらについては言及しない方が良いだろう。

6月には、AMDは怪しいベンチマークを使用して、AIチャットボットにおいてTurinがIntelチップよりも5倍高速であると証明した。インテルは、AMDの無責任なベンチマークについて声を上げた。しかし、ほとんどの場合、AMDのEpycチップは、独立したベンチマークでは過去数年にわたってインテルサーバーCPUをリードしてきた。最新のベンチマークでは、AMDは主張をトーンダウンし、チャットボット「Llama 3.1」ではインテルの「Emerald Rapids」よりも1.9倍高速であると述べた。

インテルは最近、AMDのチップよりも高速であると主張し、Granite Rapidsと呼ばれる第6世代Xeonチップをリリースした。インテルはx86 CPU企業として再ポジショニングを図っており、AMDはGPUと組み合わせることができるx86 IPを持つ唯一の企業となっている。(比較ベンチマークについては、Phoronixの最近の記事を参照のこと。)

これにより、AMDはエヌビディアのGPUと連動するカスタムx86チップを開発中のインテルに対して優位に立つことができるはずだ。