世界のスーパーコンピュータとそれを動かす人々


3月 1, 2021

東京大学、富士通製の統合型HPC/AIスーパーコンピュータが今春登場

HPCwire Japan

Tiffany Trader

富士通の統合型HPC/AIスーパーコンピュータ「Wisteria」が今春、日本に登場する。東京大学は、サイバー空間と物理空間の融合による経済的・社会的利益の実現を目指す「Society 5.0」プロジェクトの一環として、シミュレーションやビッグデータの 【学習】に取り組むヘテロジニアスコンピューティングシステム「Wisteria/BDEC-01」の導入準備を進めている。

 
   

システムは、シミュレーションノードグループ「Odyssey」とデータ分析ノードグループ「Aquarius」の2つのパーティションで構成されている。名前はそれぞれ、アポロ13号のコマンドと月面モジュールのコールサインを参照している。これらの新しいコンピューティングシステムを合わせると、倍精度で33.1ペタフロップスを実現し、巨大なクラスタであるOdysseyは、Top500のリーダーである富岳に次ぐ世界最速のArmベースのマシンの一つとなる。

Odysseyは20台の富士通PRIMEHPC FX1000ラックに合計7,680ノードを搭載し、それぞれに富士通Armベースの48コアCPUの「A64FX」を搭載している。システムのピーク性能は25.9ペタフロップスである。各ノードが32GiBのHBM2メモリを提供しているため、Odysseyの総メモリ容量は240TiB、総メモリ帯域幅は7.8PB/秒となっている。各ノードは富士通のカスタムTofuインターコネクトDで接続されており、二等分帯域幅は13.0TB/secとなっている。

Aquariusは、GPUを多用する富士通のPRIMERGY GX2570サーバをベースにしている。このシステムは45台のノードで構成されており、各ノードには2個のIntel Ice Lake CPUと8台のNvidia A100 GPUが搭載されており、合計7.2ペタフロップスの倍精度ピーク性能を実現している。Nvidia Mellanox HDR 200 Gb/s InfiniBandがシステムを接続しており、完全二分割帯域幅を採用している。システムの総メモリ容量は36.5TiB、総メモリ帯域幅は578.2TB/秒。25GB/秒のイーサネットインターフェースは、800Gb/秒のデータレートで外部接続を提供している。

100GbpsのEDR InfiniBandバックボーンは、OdysseyとAquariusを2TB/秒のネットワーク帯域幅で接続する。

Wisteria/BDEC-01はLustreをベースにした富士通Exabyte File System (FEFS)を利用している。実際には、大容量共有ファイルシステム(25.8PB、500GB/s)と高速NVMeファイルシステム(1PB、1TB/s)の2つのファイルシステムがある。

 

Fortran、C / C ++コンパイラ、Pythonインタプリタ、MPI通信ライブラリなど、よく知られたHPCプログラミングツールをサポートしている。「計算科学、データサイエンス、機械学習、人工知能など幅広い分野のライブラリ、ツール、アプリケーションを提供しています。」と東京大学のプレスリリースでは述べている。

複合ワークロードをプログラミングすることについては、まだ未解決の技術的課題がある。アーキテクチャ(Arm64とx86)が混在しているため、2つのパーティションで単一のMPIジョブを実行することはできないが、同じジョブスクリプトを使って異なるワークロードを実行することは可能だ。

 
  2つのノードを組み合わせてシミュレーションモデルのパラメータを最適化する様子を示す図 (出典:東京大学)
   

2月15日に開催された理研R-CCS国際シンポジウムでは、プロジェクトリーダーの中島研吾氏(東京大学/理研R-CCS)がシステム設計とソフトウェアの目標をレビューした。(本記事の図はその発表のものである。)

Wisteria/BDEC-01は、日本のBDEC(ビッグデータ・エクストリームコンピューティング)プラットフォームの第一弾システム。「Hierarchical, Hybrid, Heterogeneous (h3) system」で、シミュレーション、データ解析、機械学習/深層学習(パートナーがS+D+Lと表記している)の統合を容易にするh3-Open-BDECと呼ばれる新しいソフトウェアプラットフォームを導入する。この5年間の(ソフトウェア)プロジェクトは、日本政府から1億5,700万円の予算で実施される。

中島氏は次のように述べている。「h3-Open-BDECは、データ解析や機械学習の専門家によるサポートなしに、計算科学者がそのような統合を実現できる、エクサス時代のスーパーコンピュータ上でのS+D+L(シミュレーション、データ、学習)の統合を実現するための最初の革新的なソフトウェアプラットフォームです。」

講演のアブストラクトには、さらに詳しい内容が記載されている。「h3-Open-BDECは、(1)適応的精度・精度検証・自動チューニングによる新しい計算原理に基づく革新的な数値解析手法と、(2)機械学習に基づく階層的データ駆動アプローチ(hDDA)に着目し、スーパーコンピュータの性能を最小限のエネルギー消費で最大限に引き出すために設計されています。hDDAは、特徴検出、MOR、UQ、スパースモデリング、AMRを用いて、学習データを効率的に生成するための簡易モデルを自動的に構築します。」

 
  ウィステリア/BDEC-01で考えられる “S+D+L “の応用例(出典:東京大学)
   

Wisteria/BDEC-01は、2021年5月14日に予備運用を開始し、2021年10月に本格的な運用を開始する予定だ。本スパコンは、HPCIおよびJHPCNプログラムの各種共同利用・研究プログラムに利用され、日本政府が掲げる「サイバースペースとフィジカルスペースが高度に統合されたシステムにより、経済の発展と社会問題の解決を両立させる人間中心の社会」である「Society 5.0」の実現を支援するものだ。

Wisteria/BDEC-01は、国内外の産・学・官の機関に高性能な計算資源を提供している東京大学情報基盤センターに設置される。同センターでは、富士通製のTop500マシン「Oakforest-PACS」と「Oakbridge-CX」を運用しており、学内外の約2,600人のユーザーに利用されている。

また、来月(2021年3月)には、東京大学の新システム「MDX」が稼働を開始する予定である。SC20のポスターでは、MDXはクラウド的なデータ・プラットフォームであり、「ビッグ・サイエンスよりも日常的なアプリケーションに適している」と説明されている。汎用のIntel Ice Lake CPUノードと、2台のIntel Ice Lake CPUと8台のA100 GPUを搭載した加速ノードを組み合わせることで、産学官連携活動のためのピーク倍精度ペタフロップス8倍以上のコンピューティングを実現するという。