インテル、新CPU「Emerald Rapids」でXeon Maxチップを搭載せず
Agam Shah オリジナル記事「Intel Won’t Have a Xeon Max Chip with New Emerald Rapids CPU」
予想通り、インテルはニューヨークで開催されたイベントで、コードネームEmerald Rapidsと呼ばれる第5世代Xeonサーバーチップを正式に発表した。
HPCユーザーにとって悪いニュースは、Emerald Rapids CPUを搭載したXeon CPU Maxチップのバージョンは存在しないということだ。代わりにインテルは、最大64GBの高帯域幅メモリを統合したXeon Maxを、従来の第4世代Sapphire Rapidsチップと組み合わせて販売し続ける。
インテルのシニアフェローでXeonチップのチーフアーキテクトであるロナック・シンハル氏は、「現在も、既存のMaxを導入している、あるいは導入を検討している顧客がいます」と述べた。
インテルはEmerald RapidsでMaxをアップグレードするつもりはない。同社はSupercomputing 2023から戻り、帯域幅集約型チップへの関心を見たが、Emerald Rapidsは別の顧客にサービスを提供している。
「Xeon Maxを開発した当初は、HPCを第一に考えていましたが、今ではLLMのようなものが台頭してきており、帯域幅の恩恵を受けています」とシンガル氏は言う。
インテルのロードマップには、次世代Xeon Max CPUに関する記述はない。ロードマップは、インテルがHBMと統合する可能性のある、来年発売予定のGranite Rapidsというコードネームの次世代Xeonチップを指している。
インテルの次期GPUであるFalcon Shoresは2025年に発売される予定で、チップメーカーはGranite Rapidsの後継となる可能性のある新しいサーバー用CPUと組み合わせる必要がある。しかし、メモリーやチップの設計については、新技術が急速に登場しているため、多くの変更があり得る。
しかし、メインストリームのサーバーユーザーをターゲットとするEmerald Rapidsは、メモリ容量を向上させ、メモリとストレージ拡張のフックを提供するCXL 1.1をサポートすることで、膨大なメモリ容量を搭載することができる。メモリ容量は、AIやその他の計算負荷の高いアプリケーションで最重要となっている。
このサーバー用チップは、コードネームSapphire Rapidsと呼ばれる第4世代Xeonサーバー用チップをさらに改良したものだ。Emerald Rapidsは、アプリケーションに応じて1.13倍から1.69倍の速度向上と、最大34%の電力効率改善を実現する。
Emerald Rapidsは、インテルのレガシーXeonチップの最後の設計であり、同社の焦点は、サーバー製品のグランドアップ再設計である次世代Granite Rapidsにあることは明らかである。
来年発売予定のGranite Rapidsは、Emerald Rapidsに遠く及ばない。チップレット設計で、先進製造(インテル3)プロセスで製造され、新しいAPX命令セットを搭載する。また、性能も大幅に向上する予定だ。
インテル・フェローでXeonチップのチーフ・アーキテクトであるロナック・シンハル氏は、「しかし、Emerald Rapidsは完全に無関係というわけではなく、実際、現行のソフトウェアとハードウェアのスタックでデータセンターをアップグレードしようとしている顧客にとっては非常に重要なチップになるでしょう」と述べている。
既存のインフラでサーバーチップのアップグレードを検討している顧客は、Emerald Rapidsで大幅な性能向上を実感できるだろう。顧客は古い第3世代や第2世代のXeonチップの置き換えを検討しており、Emerald Rapidsに飛びつく可能性が高い。
Sapphire Rapidsチップは、ハイパースケーラーや顧客がAI向けにインフラをアップグレードする際に既に数百万個売れており、Emerald Rapidsの健全な市場を形成している。インテルは今四半期、すでに100万個目のSapphire Rapidsチップを出荷しており、200万個を超えることを期待していると、インテルのパット・ゲルシンガー最高経営責任者(CEO)は先月述べた。
Emerald Rapidsの最上位チップである第5世代Xeon 8592+は、64コアで、Sapphire Rapidsの60コアから改善される。このチップの動作周波数は1.9GHzで、ターボモードでは最大3.9GHzとなる。320MBのキャッシュを搭載し、消費電力は350ワットで、2ソケットシステムに適合する。価格はなんと11,600ドル。
汎用第5世代Xeon Emerald Rapidsプロセッサーの価格と仕様。出典:インテル |
Emerald Rapidsには5600MT/秒のDDR5メモリ帯域幅が含まれ、Sapphire Rapidsの4800MT/秒から改善されている。また、このチップは、Compute Express Link 1.1インターフェイス(CXL)のいくつかの実世界での実装を初めて可能にすると、シンガル氏は述べた。
CXLの実装では、チップは8チャネルのネイティブ・アタッチド・メモリをサポートし、顧客はCXLの背後に配置可能な4つの追加レンジを定義できる。ソフトウェアがメモリ・チャネルを管理・サポートする。
インテルのシニアフェローであるセイレッシュ・コッタパリ氏は、「つまり、12チャンネルのメモリが単一の範囲として公開されることになります」と述べた。
帯域幅の拡張は、CXL実装周辺のより多くのメモリ・チャネルへの露出をサポートし、「多くのデータが取り残されない」ことを保証する、とコッタパリ氏は言う。
新しいチップは2つの論理ブロックに分割され、Sapphire Rapidsの4つの論理クラスタから改善された。Emerald Rapidsでは、2つの論理クラスタが双方向の32コアブロックに分割されているため、VMをマルチテナント用途にスケジューリングしても、より効率的な利用率と電力効率を実現できる、とコッタパリ氏は述べた。
PERFORMANCE第5世代汎用Xeon Emerald Rapidsプロセッサの価格と仕様。出典:インテル |
Emerald Rapidsの性能面でのメリットは、特筆すべきものではない。平均すると、アプリケーション・パフォーマンスはSapphire Rapidsの1.21倍高速だが、第3世代Xeonチップの1.84倍高速である。
Emerald Rapidsの推論AIの改善は、BFloat16データ型においてSapphire Rapidsと比較して1.1倍から1.44倍高速であった。この新しいチップは、Sapphire Rapidsで導入されたAMX命令セットを含む多くの同じAI機能を備えている。
インテルは、異なるプロファイルにもよるが、AVXを多用する場合の周波数を約10%、AMXを多用する場合の周波数を最大10%向上させることができた。
インテルはまた、サーバーがアイドル状態でコアが動作していないときの電力効率を改善するために、多くの努力を行った。インテルはSapphire Rapidsで最適化された電力モードを導入し、Emerald Rapidsではアーキテクチャの変更によって電力効率を改善した。
コッタパリ氏は、アイドルモード時にソケットあたり100ワットの節電を主張した。
「一般的に、システムは25~50%の使用率で動作するのが普通です。必ずしも100%稼働するわけではありません。インフラ・プロバイダーはどこも100%のプロビジョニングを望んでおらず、通常は75%がピークです」とコッタパリ氏。
Emerald Rapidsはまた、TDX(Trust Domain Extensions)などのセキュリティ機能を備えており、アプリケーションを実行するための安全なエンクレーブを作成する。TDXはチップ内部を移動するデータの盗難を防ぐ。通常、セキュリティはチップの性能を低下させるが、シンガル氏によれば、性能のペナルティは1桁だという。
このチップはオンデマンド機能にも対応しており、クラウドプロバイダーは理論上、機能を停止し、その機能をオンにするために追加料金を請求することができる。
インテルはまた、AIのトレーニングと推論でエヌビディアに追いつこうとする中で、より重要な役割を担っているGaudiチップについても幅広く語った。Gaudi2チップは現在出荷中で、来年にはGaudi3が登場する。