世界のスーパーコンピュータとそれを動かす人々


7月 28, 2022

AMD MI300 APU、エクサスケールEl Capitanスーパーコンピュータに採用

HPCwire Japan

Tiffany Trader オリジナル記事

ローレンスリバーモア国立研究所(LLNL)のテリー・クイン氏は、オークリッジ国立研究所(ORNL)の第79回HPCユーザーフォーラムにおいて、エクサスケールのスーパーコンピュータ「El Capitan」のアーキテクチャの詳細を発表した。クイン氏は、2023年後半にLLNLに設置が予定されているEl Capitanの計算基盤として、AMDの次期APUであるMI300を採用することを明らかにした。

 
El Capitanのレンダリング画像  

El Capitanは、HPEが構築したAMDを搭載したエクサスケールシステムで、HPE Cray XEラックにバンドルされたAMD GPUとCPUをSlingshot-11ネットワーキングで接続し、少なくとも2エクサフロップスのピーク性能を実現する予定である。

そのAMDのハードウェアについて、もう少し詳しく知っている。El Capitanは、AMDの近日発売予定のMI300 APUによって駆動さ れる予定だ。

LLNLのHPC担当アソシエイトディレクターであるクイン氏は、「我々がこれを公言したのは初めてです。この言葉を(AMDの)投資家向けドキュメントから切り出したところ、AMD CDNA3 GPU、Zen 4 CPU、キャッシュメモリ、HBMチップレットを搭載した3Dチップレットデザインということです」と述べた。

「全てのスペックは言えませんが、(El Capitanは)平均的な数値でSierraの性能より少なくとも10倍は大きいです」とクイン氏は述べている。「理論上のピークは倍精度で2エクサフロップスで、40メガワット以下に抑えるつもりです。」

 
  AMD MI300のレンダリング
   

MI300 APUは、オークリッジで受け入れ試験の最終段階にあるエクサスケール・スーパーコンピュータ「Frontier」のパワーハウスであるMI200 GPUに続くものである。プロセッサ、パッケージング、ファブリック技術におけるAMDの専門知識の集大成であるMI300は、AMDの第4世代Infinityアーキテクチャを活用し、システムレベルのコヒーレンシーを統一した2.5Dおよび3Dチップレットの統合を可能にする。Milanの後継となるAMDの次世代CPU Zen 4 “Genoa “と共に実装される予定となっている。

今月初めのAMDの2022 Financial Analyst Dayで、AMDのフォレスト・ノーロッド氏は、MI300 APUは、新しい数値フォーマットFP8を使って8倍のトレーニング性能を実現すると述べた。さらに、AMDは、Genoa(El Capitan内部のCPUエンジン)が75%高いJava Enterpriseパフォーマンスを実現すると報告した。

クインはまた、リバモアは伝統的にベンダーのシステムソフトウェアと管理ソフトウェアを使用してきたが、従来のLinuxクラスタに使用してきたカスタムNNSA Tri-Lab Operating System Stack(TOSS)の使用に切り替えつつあると述べている。

El Capitan を大きな Linux クラスタと考えれば、これは理にかなっているとクインは言う。「数千のノードではなく、他のクラスタと同程度のノード数です。このクラスタを使えば、センター内のすべてのシステムでまったく同じオペレーティングシステムを走らせることができるのですから、これは大きな魅力です。」

リバモアでは、El Capitanの受領に備えて、すでに多くの試験・開発用システムを運用している。そうした早期アクセスシステムのうち、rzVernal、Tioga、Tenayaの3つは、最近のTop500リストで上位200位にランクインしている。いずれも HPE が構築したもので、Cray EX のキャビネット内に AMD MI250X GPU、Milan CPU、Slingshot-11 ネットワーキングで構成される「フロンティアスタイル」ブレードを使用している。

LLNLは、核科学の軍事的応用を通じて国家安全保障を強化する国家核安全保障局(NNSA)の支援のもとに運営されている。このため、クイン氏は、米国の「世界の競合相手」が近年、核兵器備蓄の近代化を進めていると説明する。「米国は核兵器の寿命を延ばすことに頼ってきた。「アメリカはこれまで、核兵器の寿命を延ばすことに頼ってきました。しかし、政府が保有する核兵器の近代化を検討する段階にまで来ています。El Capitanは、その使命を果たすために計画されたのです。」

先月、NNSAは、2020年3月にプロジェクトを開始した後、リバモアにおけるエクサスケールコンピューティング施設近代化(ECFM)プロジェクトを完了した。クイン氏は、既存の施設は十分な広さ(48,000平方フィート)と構造的完全性(1平方フィートあたり625ポンド)を備えていましたが、2つのエクサスケール級システムの同時運用を可能にするというサイトの使命を支えるためにオーバーホールが必要だったと説明している。電力供給は45MWから85MWにアップグレードされ、冷却は新しい18,000トンの冷却塔を含む28,000トンの水を収容するために規模が拡大された。

El Capitanへの設置は2023年に予定されており、2024年の第2四半期にNNSAのワークロードを本番稼動させることを目指している。2024年から2030年まで稼働する予定だ。

エクサスケール分野

NNSAのEl Capitanシステムは、現在、米国のエクサスケールキューの3番目に位置している。HPE-AMD-DOEの共同開発によるFrontierは、2022年春のTop500リストで1.102エクサフロップスを記録し、Linpackエクサフロップスの閾値を超えた最初のスーパーコンピュータとなったばかりだ。Green500では、Frontierの他に試験・開発用システム(Frontier TDS、通称Borg)が1位を獲得している。(Borgは19.2ペタフロップスでTop500の29位)。

アルゴンヌ国立研究所は、2エクサフロップスのHPE-Intel製スーパーコンピュータ「Aurora」の完成を待っている。Auroraの実行は、Sapphire Rapids CPUに関する追加の遅延に悩まされる可能性もあり、正確なスケジュールは曖昧だが、報道によれば、設置は進行中であるとのことだ。

Oliver Peckhamがこのレポートを寄稿した。