世界のスーパーコンピュータとそれを動かす人々


2月 3, 2025

【東京大学】「計算・データ・学習・推論」融合基盤システム 【資料締切 3/17】

HPCwire Japan

機関名

東京大学情報基盤センター

件名

「計算・データ・学習・推論」融合基盤システム

調達方式

借入

導入予定時期

令和8年度(2026年度)3月以降

これまでの流れ

手続き 公示日 説明会開催日 締切日
入札     入札:
開札:
意見招請      
資料招請 2025/2/3 2025/2/10 14:00
オンライン
2025/3/17 17:00

 

主な仕様(資料招請時)

A 本システム全体は以下の要件を満たしていること。

a 本システムは、「データ・推論基盤(データ活用社会創成プラットフォーム基盤)」部、「計算・学習基盤」部とストレージからなること。計算ノード、ストレージは互いに透過的に利用できること。

B 本システムの「データ・推論基盤」部は以下の要件を満たしていること。

a 以下のハードウェア要件を満たしていること。
   ① 計算ノードは、汎用CPUノード、データ解析ノード、推論ノードからなること。合計800Gbps以上のバンド幅でシステム外部と通信できること。
   ② 汎用CPUノード群の総メモリバンド幅は、350TB/秒、総メモリ容量は100TiByte以上であること。
   ③ 汎用CPUノード群の総理論演算性能(倍精度浮動小数点による)は、3.0PFLOPS以上であること。演算加速装置は搭載しないこと。
   ④ データ解析ノード群の演算加速装置が備える総メモリ容量は、8.2TiByte以上であること。
   ⑤ データ解析ノード群の演算加速装置が備える総理論演算性能(FP4またはそれ以上の精度を持つ浮動小数点による、疎性を考慮しない)は260PFLOPS以上であること。
   ⑥ 推論ノード群の演算加速装置が備える総メモリ容量は、8.2TiByte以上であること。
   ⑦ 推論ノード群の演算加速装置が備える総理論演算性能(FP4またはそれ以上の精度を持つ浮動小数点による、疎性を考慮しない)は260PFLOPS以上であること。
   ⑧ 各計算ノードは物理容量3.0TByte以上のNVMe SSDを持つこと。
   ⑨ 計算ノードが備えるノード間接続ネットワークインタフェースは、汎用CPUノードではノード当たり400Gbps以上、データ解析ノード・推論ノードでは演算加速装置当たり400Gbps以上であること。各演算加速装置の主記憶の内容を汎用CPUの主記憶を介さず直接転送可能であること。
   ⑩ 計算ノードが備える外部接続ネットワークインタフェースは、ノード当たり100Gbps以上であること。
b 以下のソフトウェア要件を満たしていること。
   ① Kubernatesによるコンテナ管理機能を備えること。管理のためのWebポータルを備えること。
   ② プロジェクト管理のためのWebポータルを備えること。

C 本システムの「計算・学習基盤」部は以下の要件を満たしていること。

a 以下のハードウェア要件を満たしていること。
   ① 計算ノードは、シミュレーションノード、学習ノードからなること。
   ② シミュレーションノード群の総理論演算性能(倍精度浮動小数点による)は、250PFLOPS以上であること。
   ③ シミュレーションノード群の総メモリバンド幅は、18PByte/秒以上であること。
   ④ 学習ノード群の総理論演算性能(FP4またはそれ以上の精度を持つ浮動小数点による、疎性を考慮しない)は、2.6EFLOPS以上であること。
   ⑤ 計算ノードが備えるノード間接続ネットワークインタフェースは、演算加速装置当たり400Gbps以上であること。各演算加速装置の主記憶の内容を汎用CPUの主記憶を介さず直接転送可能であること。
   ⑥ 各計算ノードは物理容量3.0TByte以上のNVMe SSDを持つこと。
   ⑦ シミュレーションノード群と学習ノード群との間は、バンド幅が5.0TByte/秒以上であること。
b 以下のソフトウェア要件を満たしていること。
   ① Linuxオペレーティングシステムが動作すること。
   ② 汎用CPU向けに自動SIMDベクトル化機能及びOpenMP API(バージョン4.5以上)を有するFortran2008、C11、C++17以降に対応する処理系を備えること。演算加速装置向けに自動並列化機能、OpenACC API(バージョン2.7以上)あるいはOpenMP API(バージョン5.0以上)を有するFortran2008、C11、C++17以降に対応する処理系を備えること。
   ③ MPI3.1以上の通信ライブラリが提供されること。
   ④ Pythonの処理系を備えること。
   ⑤ 高度に最適化された数値計算ライブラリ、学習ライブラリが提供されること。
   ⑥ バッチジョブシステムが提供されること。シミュレーションノード群と学習ノード群の両者を同時に使用する単一のジョブが実行できること。
   ⑦ コンテナシステムが提供されること。
   ⑧ 「計算・学習基盤」部の管理サーバ群は、「データ・推論基盤」部の汎用CPUノード群を使って構成すること。

D 本システムのストレージは以下の要件を満たしていること。

a 以下のハードウェア要件を満たしていること。
   ① 高速ストレージとして、20PByte以上の記憶容量を有する高い信頼性を持つストレージシステムを提供すること。「計算・学習基盤」部の計算ノード群から1.2TB/s以上の転送性能でアクセスが可能であること。
   ② アーカイブストレージとして、20PByte以上の記憶容量を有する高い信頼性を持つストレージシステムと、5PByte以上の記憶容量を有する高い信頼性を持つテープアーカイブ装置を提供すること。他の学内スパコンシステムからも読み書き可能な機能を備えること。
b 以下のソフトウェア要件を満たしていること。
   ① 高速ストレージ上の領域に対し、本システムの全ての計算ノードから並列ファイルシステムとしてマウントしPOSIXアクセスが可能であること。ファイル圧縮機能を備えること。
   ② 高速ストレージ上の領域に対し、本システムの全ての計算ノード、および本システム外部から、AWS S3(Amazon Web Service Simple Storage Service)互換オブジェクトストレージとしてアクセス可能であること。ファイル圧縮機能を備えること。上記1項と透過的にファイルが参照可能であることが望ましい。
   ③ 高速ストレージ上の領域に対し、「データ・推論基盤」部の計算ノードからNVMe over Fabricsプロトコルによりブロックデバイスとして接続が可能であること。
   ④ アーカイブストレージ上の領域に対し、本システムの全ての計算ノードから、ファイルシステムとしてマウントしPOSIXアクセスが可能であること。また、本システム外部からオンラインストレージサービスとしてアクセス可能であること。ファイル圧縮機能を備えること。テープアーカイブ装置も含めた階層的な管理が行えること。
   ⑤ ユーザー情報、グループ情報の管理機能を備えること。「データ・推論基盤」部と「計算・学習基盤」部にそれぞれマッピングして提供する機能を備えること。

E 本システムのインタコネクトは以下の要件を満たしていること。

a 以下のハードウェア要件を満たしていること。
   ① 「データ・推論基盤」部と「計算・学習基盤」部との間はバンド幅が3.5TByte/秒以上であること。
b 以下のソフトウェア要件を満たしていること。
   ① 「計算・学習基盤」部の計算ノードは、「データ・推論基盤」部を経由して本システム外部との間で通信が行えること。

F 導入システム全体の消費電力は、冷却設備の電力を含めて4.5MVA以下であること。CPU、演算加速装置、メモリおよびディスク装置が連続的に稼働し続けた際にも十分な廃熱が行えるよう、電源容量、冷却、設置方式が考慮されること。汎用CPUおよび演算加速装置の冷却は水冷とすること。設置面積は冷却設備を除いて370平方メートル以下であること。屋外に設置する冷却設備の設置面積は500平方メートル以下であること。

これまでのシステム調達結果

件名 「計算・データ・学習」融合スーパーコンピュータシステム
調達方法 借入
落札日 2020.11.13
落札業者 富士通株式会社
落札価格 (月額)94,875,000円
備考 借入期間:2021/5/14~2027/5/13

 

関連リンク

Wisteria/BDEC-01 スーパーコンピュータシステム(「計算・データ・学習」融合スーパーコンピュータシステム)