世界のスーパーコンピュータとそれを動かす人々


9月 17, 2024

AMDのAI計画:エヌビディアキラーか、それとも無駄な努力か?

HPCwire Japan

Agam Shah オリジナル記事「AMD’s AI Plan: The Nvidia Killer or a Wasted Effort?

49億ドルでZT Systemsを買収したAMDの電話会議では、リサ・スーがAI帝国をどのように築き上げているかについて、内部の様子が明らかになった。彼女は、エヌビディアの独自のアプローチとは対極にあるAMDのAIの展望を明らかにした。

彼女の見解では、顧客には選択肢がある。エヌビディアが資産を所有する暗黒的な世界か、あるいはパートナー、ハードウェア、テクノロジー、AIツールを選択できるAMDの世界を選ぶか、である。

ZT Systemsの買収は、まさにその精神に基づくものであり、エンジニアがAI処理と消費電力に最適化されたシステムを構築できる能力を提供することを目的としている。

スーは、同社のAI製品は非常に差別化できると考えている。

「実際、当社のシステム能力を活用することで、顧客はワークロードやデータセンター環境に最適な能力を自由に選択できるようになります」とスーは述べた。

確かに、フルスタックベンダーは目新しいものではないかもしれない。AMDは、ソフトウェア、ハードウェア、ネットワークといったコンピューティングの重要な部分をすべて獲得することで、システムベンダーとしての能力を高めてきた。

エヌビディアの戦略を模倣

今年初め、AMDはエヌビディアと同様に毎年新しいGPUをリリースすると発表した。ZT Systemsは、AMDに1,000人のエンジニアを提供し、システムを構築する。これは、エヌビディアのエンジニアがDGXシステムを構築しているのとよく似ている。

「ZTは、業界をリードする品質で、最大規模のハイパースケールクラウド企業に年間数十万台のサーバーと数万台のAIラックを出荷しています」スーは述べた。

これはエヌビディアの現在の戦略と同じである。すべての主要なクラウドプロバイダーがエヌビディアにDGXシステムを設置するスペースを提供した。エヌビディアは、すべてのクラウドプロバイダーにわたってGPUシステムをリンクする独自の並列クラウドサービスを構築した。

「当社は、当社のテクノロジーで最高クラスの設計能力を提供しながら、お客様に選択肢を提供しようとしているのです」とスーは述べた。

AMDが称賛を受けている一方で、次なるエヌビディアとなるためには、多くのことがうまくかみ合わなければならない。

エヌビディアが今日のような地位を築くには数十年を要した。その変遷には、

  • 2007年のCUDAによるソフトウェアフレームワークの構築。
  • AI機能の構想。
  • OpenAIがAIモデルをテストできるようにした最初のハードウェアを提供した。

AMDはエヌビディアではない。同社が次のエヌビディアとなるには、多くのことが整う必要がある。

同社が解決すべき問題を検討するには良い時期だ。

AMDのGPUは依然として問題を抱えている

GPUを適切にすれば、AMDのAIユニバースはエヌビディアの猛攻に耐えることができる。

AMDはGPUの進歩に満足している。MI300Xはマイクロソフトやメタなどのトップ顧客に好評だった。

しかし、現実を素早く確認すると、上位3社のクラウドプロバイダーのうち2社は、依然としてMI300またはMI300X GPUを求めていない。GoogleとAWSはAMD GPUを発注していない。AMDがZT Systemsを買収した理由がこれかもしれない。

 
  AMD Infinity アーキテクチャー プラットフォーム – 8x Instinct MI3000X
   

AMDのGPUは、ハードウェアを入手しようと躍起になっている顧客がいないという点では、貧弱なエヌビディアなのかもしれない。しかし、AMDのGPUはエヌビディアの唯一の正当な代替品であり、注文は増加している。

「データセンターGPUの収益は、2024年には45億ドルを超えると予想しており、これは4月に発表した40億ドルから増加しています」とスーは述べた。

今年初め、AMDはエヌビディアと同様に毎年新しいGPUをリリースすると発表し、MI325Xと来年にはMI400を含むと発表した。

「CDNA Nextアーキテクチャを搭載した当社のMI400シリーズは開発が順調に進んでおり、2026年に発売予定である」とスーは述べた。

AMDがGPUロードマップを持っていることは良いニュースであり、顧客は購入する製品について明確なビジョンを持つことができる。AMDがすべてを正しい方向に進めることができれば、2026年までに状況は劇的に変化する可能性がある。

「それはCPU、GPU、ネットワーク、システム、クラスターに関するものです。それらが信頼できるものであることをどのようにして保証するのでしょうか?このチームはそれを実現してきたので、私たちを助けてくれるでしょう」とスーは述べた。

AMDのMI350(来年発売予定)とMI400を搭載したシステムは、ZT Systemsから獲得した専門家を必要とする複雑なシステムになるだろう、とスーは述べた。

AMDは、ハードウェア機能、メモリ、製造においてエヌビディアに遅れをとっていない。

お粗末なベンチマークとソフトウェア

AMDのベンチマークは、これまで散々な結果に終わっている。同社はAIベンチマークをMLPerfに提出していないが、マイクロソフトとメタは、AMDのインスティンクトGPUが良好なパフォーマンスを発揮したと証言している。

AMDは最近、次期CPU「Turin」について正直でなかったとして、Intelから批判を受けた。同社のPC向けCPU「Zen 5」は、パフォーマンスの向上が不十分であるとして、最近批判された。

ベンチマークは難しいが、鵜呑みにしない方が良い。しかし、同社のソフトウェアエコシステムは、エヌビディアが確立したCUDAスタックには遠く及ばない。

AMDは、ツール、ライブラリ、ドライバ、コンパイラの標準セットであるROCmの開発に何年も費やしてきた。しかし、まだ初期段階にある。

「ROCmの機能面から見ると…我々は、そのプロセス全体を通じて、多くの自信を得、多くのことを学んだ」と、スーは決算報告の電話会議で述べた。

多くのカンファレンスでAMDの経営陣はROCmについて同じことを繰り返し述べているが、これはROCmが長年開発中のものだということを意味する。

AMDは依然としてプログラミングレベルで足踏みしており、OneAPIをベースとするUXL財団の並列プログラミングフレームワークに遅れをとっている。

しかし、ROCmのオープンな性質は、ワークロードと連携できるというAMDの目標を満たしている。問題は、開発者がROCmに適応するかどうかだ。

ROCm vs CUDA

エヌビディアは、CUDAによってROCmよりも何光年も先を行っている。CUDAは、コンピューティングプログラムとデータセットとして成熟している。主な業界向けのCUDA実行可能ファイルには、ロボット工学、自動運転車、ヘルスケア、金融、量子コンピューティングなどがある。

CUDAツールは、現実世界では入手できない合成データの生成に使用されている。これらのツールやその他のツールは、エヌビディアのAIエンタープライズソフトウェアに組み込まれている。

しかし、エヌビディアのCUDAは間違いなく高価である。しかし、導入はより簡単である。顧客はデータを入力するだけで、出力が得られる。CUDAツールの技術的な難易度は、さらなるカスタマイズを必要とする人向けに、より高めることができる。

AMDのROCmは複雑であるが、ツールとモデル開発の柔軟性は高い。AMDはオープンネットワーキング技術も支援している。

「Ultra Ethernet ConsortiumやUA Linkグループなど、コンソーシアム全体で緊密に連携し、業界標準となる非常に強力なネットワーク技術を確保できるよう努めている」とスーは述べた。

正しいステップ

AMDによるZT Systemsの買収は、同社の弱点を補うための戦略的買収の最新の一例である。

AMDは、マスターAI計画を策定するために興味深い買収を行った。2022年、AMDはFPGAとソフトウェアを手がけるXilinxに490億ドルを投じた。AMDはCPUとGPUを保有しており、XilinxはFPGAとASICの3点セットを提供した。

同社はまた、ソフトウェア企業であるPensando Systems、Silo.AI、Nodを買収した。

「Siloチームは、AMDのハードウェア向けにAIソリューションの最適化を検討している大企業顧客へのサービス提供能力を大幅に拡大します」と、スーは決算報告の電話会議で述べた。

同社は今後も戦略的買収を模索していく。

「当社は、自社の能力をいかに積極的に強化していくかについて、引き続き検討していきます。その方法は、有機的成長と非有機的成長の両面から検討していきます」と、スーは述べた。