HPEとAMD、米国エネルギー省(DOE)向けに新たなスーパーコンピュータ2台を構築(Discovery/Lux)
オリジナル記事「HPE and AMD To Build Two New Supercomputers for DOE, Discovery and Lux」
エネルギー省は、科学的な発見と人工知能(AI)を推進するため、ヒューレット・パッカード・エンタープライズとAMDと契約し、2台の新たなリーダーシップクラスのスーパーコンピュータを構築すると発表した。Discoveryはオークリッジ国立研究所のFrontierの後継機となり、2029年の稼働開始時には核研究と癌研究のブレークスルーに貢献することが期待される。一方Luxはマルチテナント型AIクラウドクラスターとして機能し、DOE研究所の研究者が科学技術分野のAIを推進するのを支援する。これはTrillion Parameter Consortiumの目標でもある。
HPEは先週、記者団に2基の新システムについて説明したが、顧客名という重要な情報を伏せた。ワシントンD.C.からエネルギー省の大規模発表が迫っているとの情報を得た時点で、新スーパーコンピュータがDOE研究所で稼働するクレイ製スーパーコンピュータの長い系譜を継ぐ次世代機であることは明らかだった。
HPEがまだ明らかにしていない詳細もある。チップ数や予想性能レベルなどだ。同社はミズーリ州セントルイスで開催されるSC25カンファレンスでこれらを公表するかもしれない。 Discoveryはデビュー時にTOP500リストの1位を狙って設計されているようだ。デビューは現時点で2029年を予定しているが、それはまた別の話だ。
いずれにせよ、現時点で分かっていることは以下の通りだ:
![]() |
|
| Discoveryは新たなDAOSベースのK3000ストレージクラスターを搭載する(画像提供:HPE) | |
DiscoveryはCray GX5000プラットフォームを基盤とする。これは新規開発品であり、Cray EX4000プラットフォームの後継機だ。接続先となるHPE Cray Supercomputing Storage Systems K3000も新規開発品であり、新開発の分散非同期オブジェクトストレージ(DAOS)並列ファイルシステムとLustreを併用する。Discoveryの演算層には、AMDの新「Venice」EPYC CPUと加速用AMD Instinct MI430X GPUを搭載する。HPE Slingshotで相互接続され、新型温水冷却システムで冷却される。
ヒューレット・パッカード・エンタープライズのHPC&AIインフラストラクチャ・ソリューションズ部門シニアバイスプレジデント兼ゼネラルマネージャー、トリッシュ・ダムクローガー氏は、Discoveryは従来のモデリングやシミュレーションといったHPCワークロードから、新たな生成AIワークロードまで、多様な処理を扱えると述べた。
「AIやChatGPTの爆発的な普及で、HPCとAIビジネスは狂ったような状況です」と彼女は先週の記者ブリーフィングで語った。「だから顧客からは『両方のワークロードに対応できる統合システムが必要だ』と言われてきました。つまり、多くの顧客にとって中核となるモデリングとシミュレーションに対応しつつ、AIの世界にも適合しなければならないのです。」
HPEによれば、GX5000は2018年に初登場したEX4000よりも、様々な指標で優れた性能を発揮するとのことだ。電力密度では、GX5000は1コンピューティングスロットあたりの電力供給量が127%向上し、設置面積を25%削減できる。ストレージ層はラックあたり7500万IOPSを実現し、これは39%の改善だという。最後に、冷却水温度を32度から40度に引き上げ、8度の改善を達成した。
「GX5000の開発は数年かけて進めてきましたが、正直なところ、この1年半で方向転換を余儀なくされました。TDP(熱設計電力)の増加、各ベンダーから登場する多様なシリコンの進化、そしてこれら多様なワークロードを全てサポートする必要性を目の当たりにしたからです」とダムクローガーは語った。
DAOSの採用は、HPEが新たなファイルシステムに確信を持っていることを示している。このシステムは10年前にインテルが考案したもので、Lustre、BeeFS、PanFS、GPFS(Storage Scale)よりも優れた性能を提供することを目的としていたが、問題に直面した。インテルは当初、DAOSを新たなストレージクラスメモリであるOptaneと連携させる計画だったが、2022年にOptaneの開発を中止した。しかしDAOSは、2023年11月にアルゴンヌ国立研究所、Enakta Labs、Google、HPE、インテルによって設立されたDAOS財団を通じて存続した。
![]() |
| Discoveryは最新の液体冷却技術を搭載する(画像提供:HPE) |
ダムクローガーによれば、HPEは昨年秋にインテルからDAOSエンジニアを迎え入れ、LustreベースのE2000を含む自社ストレージクラスターへのDAOS統合作業に着手できたのは幸運だったという。HPEはアルゴンヌ国立研究所向けにインテルと共同開発したAuroraマシンでDAOSを運用した経験があるため、学習曲線はそれほど急ではなかったかもしれない。
「率直に言って、DAOSはアルゴンヌのエクサスケールマシン[Aurora]の一部でした。ですから我々はエクサスケールシステムを提供するためにDAOSチームと緊密に連携してきたのです」とダムクローガーは続けた。「我々はオープンソースへの貢献を継続し、そのオープンソース基盤の上に構築することで、業界初の組み込みオープンソースソフトウェアを搭載した工場生産型ストレージシステムを実現したのです。」
Discoveryは2028年に納入され、翌年には稼働開始が見込まれる。オークリッジ国立研究所(ORNL)は、この新クラスタが核エネルギー向けAIモデリングや精密医療向けAIデジタルツインから、航空宇宙産業向けのモデリング・シミュレーションまで、多様な業務負荷の処理に貢献すると期待している。
「AI競争に勝つには、米国が誇る最先端の知性と産業を結集する、新しく創造的な連携が必要です」と、クリス・ライト米国エネルギー長官は述べた。「だからこそトランプ政権は、Luxとのコンピューティング連携における新たな常識的アプローチの第一例を発表します。競争的調達プロセスの一環として『Discovery』も発表します。AMDとHPEとの連携により、前例のない速さで新たな処理能力を稼働させ、共有イノベーションを国家の力に変え、官民パートナーが協力して構築する時にアメリカが主導権を握ることを証明します。」
一方、Luxは専用AIシステムとして、科学技術分野のAIイニシアチブを支援するAIトレーニング・推論ワークロードを実行するためのクラウド型マルチテナントクラスター構築というエネルギー省の要望を満たす。LuxはDiscoveryより大幅に短期間で構築され、2026年の稼働開始を予定している。
LuxはHPE ProLiant Compute XD685プラットフォーム上に構築される。AMDプロセッサを搭載し、Instinct MI355X GPUとEPYC CPUを含む。データアクセス高速化のためPensandoデータ処理ユニット(DPU)を活用する。AMD、HPE、Oracle Cloud Infrastructureによる共同開発と報じられている。
Luxは、DOE研究所やその他の計算グループがアクセス可能な共有AIクラスターとして適しているようだ。Trillion Parameter Consortiumのメンバーは、今年初めに開催されたTPC 25イベントにおいて、科学的発見を支援するAIモデルの訓練と実行に使用できる大規模な共有計算インフラストラクチャの構想について議論した。
オークリッジ国立研究所(ORNL)の科学部門ディレクターであるBronson Messerは、チームがDiscoveryとLuxをORNLに迎えることを楽しみにしていると述べた。
「Discoveryは、HPC、AI、量子コンピューティングの融合能力を新たな次元へ引き上げる基盤となるでしょう。他のシステムとの連携によりさらなる知見を提供すると同時に、Luxは研究者が専用AIリソースにアクセスする機会を大幅に拡大します」とメッサーは述べた。「その結果、両システムが生産性のパラダイムシフトに貢献し、科学研究とリーダーシップの様々な重要分野において比類のない成果をもたらすと期待しています。」








