世界のスーパーコンピュータとそれを動かす人々


11月 13, 2024

Xeon 6 vs. Zen-5 HPCベンチマーク対決

HPCwire Japan

Doug Eadline オリジナル記事「Xeon 6 vs. Zen-5 HPC Benchmark Showdown

GPU全盛の現在、CPUは二の次と考えられがちである。なぜなら、ほとんどのパフォーマンスはGPUから生み出されるからだ。大半のシステムでは、GPUはCPUが数値処理を高速化するために使用する独立したPCIeデバイスである。もちろん、例外はエヌビディアのグレース・ホッパーGH200やAMDのインスティンクトMI300Aのような統合型(CPUとGPU)プロセッサである。

基本的に、CPUの性能と機能は依然としてHPCの重要な要素である。実際、CPUのみで動作するHPCアプリケーションは今でも数多く存在する。

ここ数週間、HPCwireはインテルの新しいGranite Rapids CPU(Xeon 6 6980P)のベンチマークをいくつか発表した。数値と電力効率は、これまでのインテル製品を基にすると、印象的なものだった。

ベンチマークには、2022年11月にリリースされたAMD EPYC Genoaプロセッサも含まれていた。この新旧比較の問題は、ベンダーの製品ラインのリリース間隔が同期していないため、多くのベンチマークで共通している。もちろん、ベンチマークは「今現在」市場で入手可能なものに対しては有効で有用であるが、新しいCPUが間近に迫っている場合は、ユーザは新しい計測値を待つかもしれない。

インテルとAMDのケースでは、x86の勢力が揃った。インテルが新しいXeon 6 Granite Ridgeプロセッサをリリースしてから約1か月後、AMDは第5世代Epyc Turin(Zen-5アーキテクチャ)プロセッサをリリースした。インテルとAMDの新たな合意はともかく、最新かつ最高のx86の直接比較が行われる可能性が出てきた。

もちろん、このような比較は、一流のベンチマークサイトであるPhoronixのおかげで可能となっている!

標準ベンチマーク免責事項

HPCではシステムのベンチマークが重要である。コミュニティでは、HPLinpackベンチマークを最も高速に実行するシステムを特定するために、年に2回Top500リストにフォーカスして注目している。このリストは、歴史的および現在の両方の観点から重要であるが、多くのユーザは、Top500の結果と、最新のシステム上で特定のアプリケーションセットがどの程度うまく実行されるかとの間に相関性を見出すことができない。

もちろん、特定のプラットフォームのベンチマーク結果が多ければ多いほど良い。 あなたのアプリケーション(または類似のアプリケーション)がベンチマークスイートの一部であった可能性もある。 独立したサードパーティのテスト以外では、貴社のデータプロファイルで貴社のアプリケーションを実行したベンチマークが最も良い結果となる。

HPCでは、プロセッサのパフォーマンスを測定する上で、FLOPS/秒の数値が最も重要である。この数値は、非常に良い出発点となる。しかし、それだけで全てがわかるわけではない。新しいハードウェアにアクセスする際には、その他の問題も考慮する必要がある。例えば、

  1. 新しいハードウェアは、現在使用しているハードウェアと比較してどの程度高速なのか?
  2. フル構成のサーバーの価格対性能比およびワット当たりの性能はどの程度か?
  3. クラスタ環境での動作はどうか?
  4. 新しいハードウェアを使用した場合、現在のストレージシステムがボトルネックとなるか?
  5. アイドル時およびフルロード時の総消費電力はどの程度か?
  6. このプラットフォームで利用できるツールやライブラリのレベルはどの程度か?

ベンチマークを評価する際には、これらの問題を念頭に置いておくことが重要である。

新x86競合製品

以下の結果は、人気の高いHPCベンチマークのいくつかのスナップショットである。すべての結果とテスト設定の詳細については、記事全文を参照のこと。結果には、1Pおよび2P構成の両方で、多数のプロセッサがリストアップされている(新しいプロセッサは太字で表記されている):

  • Xeon Platinum 8490H
  • Xeon Max 9480
  • Xeon Platinum 8592+
  • Xeon 6766E
  • Xeon 6780E
  • Xeon 6980P @ DDR5-6400
  • Xeon 6980P @ MRDIMM-8800

新しい Xeon 6980P プロセッサは、Intel AvenueCity リファレンスプラットフォームにおいて、MRDIMM-8800 または DDR5-6400 メモリのいずれかと組み合わせて使用される。6980P は 128 の P コア(パフォーマンスコア)、2.0 GHz のベースクロック、3.2 のブーストクロック、504 MB の L3 キャッシュ、および 500 W の TDP を備えている。

  • Epyc 9654
  • Epyc 9754
  • Epyc 9684X
  • Epyc 9575F
  • Epyc 9755
  • Epyc 9965

AMDの新しいTurinプロセッサの競合製品は以下の通り:

  1. Epyc 9755 – 128コア、ベースクロック2.7GHz、ブースト時4.1GHz、500ワットTDP、
  2. Epyc 9575F – 64コア、ベースクロック3.3GHz、ブースト時5.0GHz、400ワットTDP
  3. Epyc 9965 – 192コア、ベースクロック2.25GHz、ブースト時3.7GHz、500ワットTDP

ベンチマーク結果の選択

Phoronixは、幅広いアプリケーションのベンチマークを提供している。以下は、HPCベンチマークの一部のハイライトである。詳細は記事全文を参照のこと。また、ハイライトには、以前のGranite Rapidsの記事で紹介されたベンチマークのほとんども含まれている。

GROMACS

GROMACSは、主にタンパク質、脂質、核酸のシミュレーションを行う分子動力学パッケージである。もともとは、フローニンゲン大学の生物物理化学部門で開発されたが、現在は世界中の大学や研究センターの貢献者によってメンテナンスされている。

GROMACS 1Pの結果、一部の結果は切り捨てられている(ソース:Phoronix)

 

GROMACSの結果では、AMD 9965(192コア)および9755(128コア)プロセッサーの両方で優れたパフォーマンスを示している。

2Pの結果ではインテルが追い上げ、Xeon 6980(DDR-6400)がEpyc 9755に次いで2位となった。興味深いことに、Xeon 6980はより高速なMRDIMMを使用しているにもかかわらず、DDRの結果にはわずかに及ばなかった。GROMACSのパフォーマンスは、メモリ帯域幅よりもプロセッサ(コア)のパフォーマンスに大きく影響される。

GROMACS 2Pの結果、一部の結果が切り捨てられている(ソース:Phoronix)

 

OpenFOAM

OpenFOAMは、連続体力学の問題を解くためのカスタマイズされた数値ソルバーやプリ/ポスト処理ユーティリティを開発するためのC++ツールボックスである。最も顕著な例としては、計算流体力学が挙げられる。

OpenFOAMの小規模なベンチマークでは、2PのEpyc 9755が最も良い結果を出しており、2Pの9965(より多くのコア)が2位となっている。MRDIMMを搭載した2PのXeon 6980は3位となっている。これらの結果は、演算からメモリ重視のパフォーマンスへと移行していることを示している(9965の余分なコアは、実際にはベンチマークを遅くしている)。

OpenFOAMの小規模モデルの結果、一部の結果は省略(出典:Phoronix)

 

ミディアムベンチマークでは、メモリー帯域幅の影響がパフォーマンスを上回る結果となった。すべてのプロセッサで結果はほぼ同じだが、DDR5メモリー搭載の2P Xeon 6980が最高のパフォーマンスを示した。ここでも、9965の余分なコアがパフォーマンスを低下させている。

OpenFOAM 中規模モデル 2P 結果、一部の結果は省略(出典:Phoronix)

 

HPCG

High-Performance Conjugate Gradients(HPCG)ベンチマークは、疎行列計算などの実環境アプリケーションのデータアクセスパターンをモデル化し、メモリサブシステムのテスト/ストレステストを行うことを目的としている。

HPCG 結果、一部の結果は省略(出典:Phoronix)

 

予想通り、このベンチマークでは2P Xeon 6980とMRDIMMの組み合わせが勝利し、DDR5システムが2位となった。興味深いことに、Epyc 9575F(64コア)は、よりコア数の多いEpycプロセッサ(128コアおよび196コア)を抑えて3位となった。これは、コアがメモリの帯域幅を争っていることを示している。

MiniBUDE

miniBUDEベンチマークは、ブリストル大学ドッキングエンジン(BUDE)のコア計算を実装したもので、Advanced Vector Extensions 512(AVX-512)を使用して実装されている。

新しいZen-5 AMD Epyc「Turin」プロセッサは、より高速なAVX-512処理を実現する512ビットのデータパスをフル装備している。前世代のZen-4では、256ビットの「ダブルポンプ」アプローチでAVX-512が実装されており、これはうまく機能し、非常に効率的であることが証明されている。

Phoronixは最近、Zen-5のAVX-512実装をZen-4と比較するテストを実施し、Zen-5でパフォーマンスが向上していることを発見した。

MiniBUDE AVX-512の結果、一部の結果は省略(出典:Phoronix)

 

改良されたAVX-512は、上の図のMiniBUDEの結果に表れている。1Pおよび2Pの両方でトップの成績を収めたマシン(1P 64コアの9575Fを除く)はすべて、新しいZen-5プロセッサである。

始まりに過ぎない

ベンチマークが示すように、それぞれの新しいプロセッサには強みがある。Xeon 6はより優れたメモリ性能を提供し、新しいEpyc Zen-5プロセッサは数値処理に秀でているようだ。これらのプロセッサがHPCシステムに導入されるにつれ、アプリケーションの性能データはさらに増えるだろう。

Phoronixが実施したすべてのテストの幾何平均(出典:Phoronix)

 

すべてのテストの幾何平均では、新しいAMD Epycプロセッサは非常に優れた結果を出している。アプリケーションがメモリ帯域幅やプロセッサのパフォーマンスに敏感な場合、このような要約を使用するのは危険である。前提条件を確認し、ベンチマークを実行し、細部にこそ問題があることを忘れないようにしよう。