Granite Rapids CFD、GPUなしでも問題なし
Doug Eadline オリジナル「Granite Rapids CFD, No GPUs, No Problem」
モーリッツ・レーマン博士は、CFD(数値流体力学)のパイオニアである。1年以上も前に、彼は今では有名なコンコルドジェットのシミュレーションを投稿した。HPCwireは、この驚くべき偉業を取り上げた(詳細は記事の最後に記載)。
要するに、レーマン博士は週末にFluidX3DをGigaIO SuperNODE上でテストした。これは、最大32個のAMDまたはエヌビディアGPUを、あたかもサーバーボックス内に物理的に配置されているかのように同一のレイテンシとパフォーマンスで単一ノードに接続できる、コンポーザブルシステムである。
彼は、コンコルドの飛行を再現する史上最大規模のCFDシミュレーションを実行した。解像度400億セルを使用し、時速300キロ(時速186マイル)で1秒間飛行した。このシミュレーションは、GigaIO SuperNODEに搭載された32台のAMD Instinct MI210 GPUと2TBのVRAMで実行され、33時間を要した。このシミュレーションの動画はYouTubeでご覧いただける。
レーマン博士は次のように説明した。「市販のCFDではこれを行うのに何年もかかりますが、FluidX3Dなら週末で終わるのです。コードの変更や移植は必要なく、FluidX3DはAMD Instinctの32 GPUスケーリングとAMDサーバーで、すぐに使えます。」
SC24に話を進めると、レーマン博士はまたもややってくれた。今回は、再利用可能なロケットが地球の大気圏に再突入する驚くべきシミュレーションを行った。このシミュレーションは、会場のインテルブースで展示されていた。
レーマン博士は次のように説明した。「私は、DLRのオープンソースロケットモデルRFZを、インテルXeon CPUのみを使用してFluidX3Dでシミュレーションしました。」
このシミュレーションでは、GigaIO SuperNODEに格納された32基のGPUではなく、レーマン博士は2基のインテル Xeon 6979P CPUを使用した。CPUには、1.7TB/秒で動作する3TBのMRDIMMメモリが搭載されていた。合計240コアの2つのXeonは、x86_64上で動作するOpenCLを使用して、43億セルのシミュレーションを約14時間で完了させた。
動画はYouTubeで視聴でき、以下に紹介する。
シミュレーションの結果は以下の通りである。
- FluidX3D CFD ソフトウェア
- 格子ボルツマン法(LBM)、D3Q19 SRT、FP32 演算、FP32 メモリ・ストレージ
- 1624×1624×1624 = 43億グリッドセル、1セル = (2.6 mm)³
- 380 GB のメモリ使用量(1 セルあたり 55 バイト、1 GB あたり 1900 万セル)
- 2224 タイムステップ = 0.05 秒のリアルタイム
- 3x 1200 4k 画像のレンダリング、速度による色分けされた Q 基準等値面を可視化
- 100 m/s の対気速度
- レイノルズ数 = 321M
- 実行時間 = 13時間53分(合計) = 7時間28分(LBM計算) + 6時間24分(レンダリング)
- 平均LBMパフォーマンス = 3541 MLUPs/s
ハードウェア仕様:
- インテル Xeon 6979P プロセッサ(グラニット・ラピッズ)2基(P コア合計 240(各 120)、2x 504MB キャッシュ
- 24 128GB 8800MT/s MRDIMM、合計 3TB RAM、1.7TB/s
- GPUなし
レーマン博士は、Granite Rapidsプロセッサの大きなメモリフットプリント(個々のGPUでは利用できない)と高速MRDIMMの組み合わせにより、シミュレーションが可能になったと説明した。