【東京大学】データ活用社会創成プラットフォーム基盤システム 【資料締切 11/21】
機関名
東京大学
件名
データ活用社会創成プラットフォーム基盤システム
調達方式
購入
導入時期
2020年度1月以降
これまでの流れ
手続き | 公示日 | 説明会開催日 | 締切日 |
入札 | |||
意見招請 | |||
資料招請 | 2019/10/11 | 2019/10/17 14:00 東京大学情報基盤センター1階遠隔講義室(103) |
2019/11/21 17:00 |
主な仕様
A データ活用社会創成プラットフォーム基盤システム(以下、「基盤システム」と呼ぶ)は以下のハードウェア要件を満たしていること。
B 計算ノードに関する要件
a 計算ノードは、汎用CPU部のみからなる汎用ノード、汎用CPU部に加えて演算加速装置部を備える演算加速ノードとデータ解析ノードからなること。
b 各ノードの汎用CPU部は複数の均一なCPUコアからなり、全てのCPUコアはハードウェア共有メモリ機構により相互に接続されること。CPUコアは64ビット拡張されたIA32アーキテクチャに基づくものであること。
c 各ノードの演算加速装置部は、複数の演算装置からなり、内部にそれらの演算装置間で共有可能な独自の共有メモリを持ち、汎用CPUと適宜データ交換を行うことにより超高速演算が可能であること。
d 汎用ノードは、総理論演算性能(倍精度浮動小数点)は 2 PFLOPS以上で、総メモリバンド幅は 150 TByte/sec以上であること。汎用ノード各ノードは、汎用CPU 2個を搭載し、100 Gbps以上のリンクで内部ネットワークに、100 Gbps以上のリンクでストレージネットワークに接続されること。
e 演算加速ノードは、倍精度浮動小数点の総理論演算性能が4.5 PFLOPS以上、総メモリバンド幅は600 TByte/sec以上であること。演算加速ノード各ノードは、汎用CPU 1個または2個、演算加速装置を最大4基まで搭載し、演算加速装置当たり 50 Gbps以上のリンクで内部ネットワークに、汎用CPU当たり50 Gbps以上のリンクでストレージネットワークに接続されること。
f データ解析ノードは、単精度浮動小数点の総理論演算性能が16 PFLOPS以上、半精度(16bit)浮動小数点の総理論演算性能が120 PFLOPS以上であること。データ解析ノードは、汎用CPU 1個または2個、演算加速装置を最大8基まで搭載し、演算加速装置当たり 25 Gbps以上のリンクで内部ネットワークに、汎用CPU当たり50 Gbps以上のリンクでストレージネットワークに接続されること。
C ストレージに関する要件
a ストレージは、高速内部ストレージ、大容量内部ストレージ、共有ストレージ、コールドストレージからなり、高い信頼性・耐故障性を有すること。
b 高速内部ストレージは、NVMe SSDからなる総計8 PByte以上のストレージを有する高速内部ストレージノードから構成され、計算ノード群からは2 TByte/sec以上の転送速度でNVMe over Fabricsによりアクセスできること。また、管理ノードからのみ設定できる隔離手段により個々の計算ノードからアクセス可能なストレージノードやドライブ等を制限できること。
c 大容量内部ストレージは、総計15 PByte以上のストレージを有する大容量内部ストレージノードから構成され、計算ノード群からは100 GByte/sec以上の転送速度でアクセスが可能であること。各計算ノードからiSCSI等によりアクセスできること。また、管理ノードからのみ設定できる隔離機能により個々の計算ノードからアクセス可能なストレージノードやドライブ等を制限できること。
d 共有ストレージは、30 PByte以上の容量を持つAmazon S3互換のオブジェクトストレージであり、100 GByte/sec以上の転送速度で対外接続ルータに接続されること。
e コールドストレージは、磁気テープや光ディスク等により構成されること。15PByte以上のストレージメディアを有するとともに、装置を増設することなしに50 PByte以上のストレージメディアを追加してオンラインアクセスできる状態にできること。
D 内部ネットワークに関する要件
a 計算ノード(汎用ノード、演算加速ノード、データ解析ノード)は、Spine-Leaf型のIPネットワークにより、相互および対外接続ルータに接続されること。計算ノードのインタフェースはイーサネットであること。基盤システムを構成するスイッチは、管理ノードからのみ設定できること。スイッチの設定により任意の計算ノード群の間で相互に通信できない分離されたネットワークを構築できること。
b 任意の計算ノードに任意のネットワークを接続できること。
c 計算ノード間にてRDMAによる通信が可能なこと。
E ストレージネットワークに関する要件
a ストレージネットワークは、フルバイセクションバンド幅を持ち、管理ノードからのみ設定できるスイッチの設定により、任意の計算ノード群とストレージノード群の間で相互に通信できないネットワークを構築できること。
F 対外接続ルータに関する要件
a 2台以上のルータによる冗長構成をとること。
b IPv4、IPv6、MPLSのルーティングが行え、BGP や OSPF、OSPFv3 を含む基幹ルータで一般的に用いられる全てのルーティング制御方式に対応していること。最小フレームサイズでワイヤレートの転送が行えること。
c 2組以上の100Gbps以上のイーサネットネットワークで、基盤システム外と接続できること。
d 2組以上の総計200 Gbps以上のリンクで内部ネットワークの各Spineスイッチに接続されること。
e 東京大学柏IIキャンパス内の他の2式の計算機システム「AI橋渡しクラウド (ABCI)」および「『計算・データ・学習』融合スーパーコンピュータシステム」と100 Gbps以上の帯域で接続でき、これらの計算機システムとの相互通信のルートを設定できること。
f VLAN機能、VLANタグ変換機能、リンクアグリゲーション機能を有すること。
G ポータルサーバ、管理サーバに関する要件
a 基盤システムを利用するユーザが、自身の資源を要求・操作するためのWebベースポータルを運用するポータルサーバを有すること。ポータルサーバは冗長構成とすること。
b 基盤システム全体の資源管理を行う以下の管理サーバを有すること。仮想資源管理サーバ、運用管理サーバ、認証サーバ、セキュリティログ保存サーバ。各管理サーバは冗長構成とすること。
H 基盤システムは以下のソフトウェア要件を満たしていること。
a 全ての計算ノードでは、仮想マシン(VM)、またはコンテナもしくはその両方が動作すること。
b ポータルサーバ、管理サーバはLinuxオペレーティングシステムが動作すること。
I 以下の機能を持つ資源管理ソフトウェアを備えること
a 利用者の要求に応じて、適切な認証認可の下で利用者に計算ノード上のVMおよびコンテナ、およびストレージの一部、ネットワークの一部(仮想化した資源を含む)の割り当てを行うこと。
b 全ての計算ノード上にVMおよびコンテナをプロビジョニングし、VLANを含むネットワーク設定を行えること。また、VMの構成定義に関して詳細な管理が行えること。
c 内部ネットワークおよびストレージネットワーク上に、相互に通信できない隔離された仮想ネットワークを構築し、これに合わせた計算ノード、ストレージノードの設定を行えること。
d 故障個所を特定し、自動で迂回または復旧する機能を持つこと。
e 資源管理ソフトウェアは、中心部分が管理サーバ上で動作し、計算ノードのサーバ管理機能やネットワークスイッチおよびストレージの制御機能を協調して管理すること。
f 利用者に対して計算資源専有利用可能の属性を与えることができ、計算資源専有利用可能の属性を与えられた利用者が利用する VM およびコンテナは、他の利用者の資源とは隔離された計算ノードにて動作すること。g 複数の VM およびコンテナとそれらを連結するネットワーク構成を資源構成テンプレートとして管理でき、利用者に対してテンプレートから生成される資源を提供できること。
h VM もしくはコンテナから演算加速ノードに搭載された演算加速装置を共用利用できるよう管理すること。
J 利用者のVMまたはコンテナ環境において以下のソフトウェアを利用可能にすること。
a LinuxまたはWindowsオペレーティングシステムが動作すること。
b 汎用 CPU 部向けに自動SIMDベクトル化機能及び OpenMP APIを有する C/C++, Fortran 2003の処理系を備えること。演算加速装置部向けにOpenACC APIを有するC/C++, Fortran 2003の処理系を備えること。
c MPI3.1以上の通信ライブラリが提供されること。
d Python 2および3の処理系を備えること。
e 高度に並列化された数値計算ライブラリが提供されること。
f バッチジョブシステムが提供されること。
K 導入システム全体の消費電力は、冷却設備の電力を含めて2.0 MVA以下であること。CPU、メモリおよびディスク装置が連続的に稼働し続けた際にも十分な廃熱が行えるよう、電源容量、冷却、設置方式が考慮されること。設置面積は冷却設備を除いて170平方メートル以下であること。屋外に設置する冷却設備の設置面積は300平方メートル以下であること。