世界のスーパーコンピュータとそれを動かす人々


4月 19, 2021

GTC21:デル、ケンブリッジ大学とダーラム大学でクラウドネイティブ・スパコンを構築

HPCwire Japan

JOhn Russell

GTC21と連動して、デル・テクノロジーズは英国のDiRAC(Distributed Research utilizing Advanced Computing)の各大学に新たなスーパーコンピュータを導入し、Nvidia BlueField DPUテクノロジーの利用を検討する計画を発表した。

ケンブリッジ大学では、Cambridge Service for Data Driven Discovery (CSD3) システムを拡張する。

  • 第3世代のIntel Xeon Scalableプロセッサを搭載したPowerEdge C6520サーバが400台以上:
  • 第3世代のAMD EpycプロセッサとNVLink搭載のNvidia A100 GPUを搭載した80台以上のPowerEdge XE8525サーバ;
  • 4ペタフロップスのアプリケーション性能によって、天体物理学、核融合発電、臨床医学などの研究を推進する。

ダラム大学のスーパーコンピュータCOSMA8は、現在プロトタイプとして運用されているが、2021年10月には完全に運用される予定で、以下を備えている;

  • 第2世代および第3世代のAMD Epycプロセッサを搭載した90台以上のPowerEdge C6525サーバ;
  • 直接水冷式冷却装置およびNvidia Mellanox HDR InfiniBandネットワーク;
  • また、COSMA8のコンピュートノードを来年中に600台以上に拡張し、ダークエネルギーやブラックホールの研究に必要な計算能力と効率性を提供する予定だ。

(DiRACは、英国STFCの科学プログラムの大部分をサポートしており、素粒子物理学、宇宙素粒子物理学、天体物理学、宇宙論、太陽系・惑星科学、原子核物理学(PPAN、総称してSTFCフロンティアサイエンス)の英国フロンティアサイエンス理論コミュニティにシミュレーションとデータモデリングのリソースを提供している。)

 
Nvidia BlueField-2 DPU  
   

NvidiaのMellanoxネットワーキング部門マーケティング担当上級副社長のGilad Shainerは、事前説明会で「ケンブリッジ大学のシステムは、Top500リストの上位70~75位に容易にランクインするだろうし、世界初のアカデミック・クラウドネイティブ・スパコンになるであろう」と述べている。このシステムは、OpenStackとのコラボレーションの一環として、クラウドネイティブスパコンの機能を継続的に開発するために使用される。”

Shainerは、ケンブリッジ大学が英国の医療機関と広く連携していることを指摘し、「クラウドネイティブ・スパコン・アーキテクチャ」を構築することで、セキュリティ能力が強化され、「解析の一環として個人情報や臨床情報をスパコンに持ち込むことが容易になる」と述べている。

CSD3は、Nvidia社が実現した新しいクラウドネイティブスーパーコンピューティングプラットフォームと、ケンブリッジ大学とStackHPC社がDiRAC HPC FacilityとIRIS Facilityの資金提供を受けて開発したScientific OpenStackと呼ばれるクラウドHPCソフトウェアスタックを採用している。

ダラム大学のシステムは、宇宙論と物理学に焦点を当てています。

「COSMA 8は、ビッグバンから今日に至るまでの宇宙全体のモデル化を目指しており、これまで以上に大規模なシミュレーションを行うことで、私たちがどこから来たのか、宇宙における私たちの位置についての理解を深めることができます」と、ダーラム大学のDiRACメモリ集中サービスのテクニカル・マネージャーであるAlastair Basdenは述べている。「これらの大規模なシミュレーションは、InfiniBandが提供する帯域幅に依存しており、この研究を可能にしています。これは、DiRACとダーラム大学が、Nvidiaとの継続的な協力関係を通じて、スーパーコンピューティングの分野をいかに発展させていくかを示す一例です」と述べている。

Nvidiaは、ダーラム大学の発表と同時に、ケンブリッジ大学のシステムに関するブログ(Gilad Shainer)と、クラウドネイティブ・スーパーコンピューティングの簡単な説明(Rick Merrick)を掲載している。

BasdenはGTCでも講演を行い(On the edge of Exascale, Nvidia Bluefield at Durham University)、ダーラム大学のBlueField-1を使った初期の研究について紹介した。COSMA8のプロトタイプシステムは2020年10月にサービスを開始し(詳細な仕様はダーラム大学のウェブサイトより)、COSMA8のフルシステムは現在設置中で、2021年10月にサービスを開始する予定だ。

「COSMAは、事実上、英国のDiRAC Tier-1国家施設の一部です。2001年にCOSMA1としてスタートし、現在はCOSMA8として第8世代目を迎えています」とBasdenは講演で語った。「ノードあたり1テラバイトのRAMを搭載し、ファットツリー・トポロジーのHDR200ノンブロッキング・ファブリックをフル装備しています。また、オンチップで直接液体冷却を行い、5ペタバイトのバルクストレージシステムを接続し、1.25ペタバイトのスクラッチストレージシステムには、今回の作業で使用するリスタートファイルを格納しています。これは、ギガビットではなく、毎秒約400ギガバイトで動作します。」

 

現在、BasdenのチームはBlueField-1を使用して、MPI Progression Problemと呼ばれる問題に関連した遅延の解決などに利用できないかを検討している。Basdenのプレゼンテーションは直接見るのが一番ですが、大まかには、BasdenがSmartNICs(DPU)と呼んでいるものがデータトラフィックのハウスキーピングやMPIの問題の解決に役立つのではないかと期待を込めて、進捗状況を報告している。

以下にその一部を紹介する(一部編集)。

「基本的に私たちが考えているのは、ホストが科学の計算をするということです。BlueFieldのタスクは、必要に応じてデータを移動させる役割を担います。これらはすべて、かなり初期の段階で行われています。ですから、プロダクションコードに入れたいようなものはまだありません。ただ、アイデアを練って、いろいろ試して、少しずつ解決しているところです」とBasdenは講演で述べた。

全体的な課題について聞かれると、こう答えた。

「最初に言うことは、(BlueFieldを使うことは)些細なことではないということです。単純ではありません。カードは2つの異なるモードで動作させることができます。1つは彼らが組み込みモードと呼ぶもので、組み込みスイッチのような役割を果たします。もう1つはホスト分離モードで、ホストとカードの両方がそれぞれのMACアドレスを持ち、お互いにアドレスを指定することができます。このモードは、最も柔軟性が高く、やりたいことを実現するのに最適な機能を備えているため、私たちが使用しているモードの中でも最も便利なものです」とBasdenは述べている。

「ホスト上で動作するx86バージョンとBlueField上で動作するArmバージョンの2つのバージョンのコードをコンパイルします。そして、それらを一度に適切な場所で起動させるMPI実行を行います。これは便利な機能ですね。物事を非常にシンプルにしてくれます。通信にMPIを使用していなくても、これらのタスクを適切な場所で同時に起動する良い方法だと思います」。

ここでは、彼の講演からいくつかのスライドを紹介するが、このセッションは全文を見るのが一番だ。

 

ケンブリッジ大学のNvidiaブログへのリンク: https://blogs.nvidia.com/blog/2021/04/14/csd3-cloud-native-supercomputer-cambridge-university/

NvidiaによるCloud Native Supercomputingの概要説明へのリンク: https://blogs.nvidia.com/blog/2021/04/14/what-is-a-cloud-native-supercomputer/

ダーラム大学の発表へのリンク: https://nvidianews.nvidia.com/news/durham-university-and-diracs-new-nvidia-infiniband-powered-supercomputer-to-accelerate-our-understanding-of-the-universe

バーデンのGTC21講演へのリンク: https://gtc21.event.nvidia.com/media/1_2zpi3u45?ncid=ref-spo-38311