Mellanox、IBM、ORNLがUCXフレームワーク・イニシアティブを先導
John Russell

ISCの会期中にインターコネクト技術のスペシャリストであるMellanoxが、高性能でデータ中心型アプリケーション用の新しいオープンソース・ネットワーク・コミュニケーション・フレームワーク – United Communication X Framework (UCX) – の共同開発を発表した。
この取り組みは、「高性能演算およびデータプラットフォーム」用の様々な通信技術をサポートするプラットフォームの抽象化を提供しようとしており、エクサスケール・コンピューティングに向けた方法を築くことを助けるものとなる予定だ。UCXの創立メンバーは、DOEのオークリッジ国立研究所、NVIDIA、IBM、テネシー大学のグループとNVIDIAが含まれている。
UCXのオーガナイザーは、このイニシアティブは産業界、研究所、およびアカデミア間の連携に拍車をかけると言っている;データ中心なHPCアプリケーション用のオープンソースの運用レベルの通信フレームワークを作成し;ソフトウェア-ハードウェア・インタフェースのコデザインを通じて最大性能を可能とする。主要なUCXコンポーネントには次が含まれる:
- UC-S サービス:コンポーネントベースのプログラミング、メモリ管理、および便利なシステム・ユーティリティのための基本インフラ。機能:プラットフォームの抽象化およびデータ構造、
- UC-T トランスポート: 基盤となるハードウェアでサポートされる基本ネットワーク操作を行う低レベルAPI。機能: 作業要求のセットアップと操作のインスタンス化。
- UC-P プロトコル:アプリケーションで一般的に見られるプロトコルを構築するUCTフレームワークを使う高レベルAPI。機能:マルチレール、デバイス選択、保留キュー、ランデブー、タグマッチング、ソフトウェア・アトミック、など。
この取り組みの中心にあるコデザイン手法は、エクサスケール・コンピューティングへの道を開発するための取り組みの進展を助けるものだ。UCX連合のメンバーは製品品質のソフトウェア用の乗り物だけでなく、エクサスケール・レディなプログラミング・モデルのためのより柔軟でポータブルなサポート用の低レベルな研究インフラも提供する。下図の概要ダイアグラムを参照。
「共有メモリ、MPIおよび基盤となるネットワーク・トランスポート技術における私どもの進歩を提供することで、オープンな標準ベースのネットワークおよびプログラミング・モデルを発展し続けることができるのです。」とGilad Shainerは語った。「UCXは、クロス・プラットフォームにほぼネイティブ・レベルのインターコネクト性能を可能にする
通信経路におけるより低いソフトウェア・オーバーヘッドのための最適化を提供します。このフレームワーク・インタフェースは、HPCプログラミング・モデルだけでなく、データ中心のアプリケーションも同様にターゲットとするセマンティックスを出すのです。また、ベンダー個々のライブラリの開発も可能とします。」
UCXは高性能、低遅延な通信層を提供し、UCXの関係者によると、アプリケーション開発者に、PGAS(Partitioned Global Address Space)のAPI、FortranのコアレイやOpenSHMEMのようなもの、また異機種ノード上で複数のメモリドメインに渡るOpenMPを含んだ、生産的でエクストリーム・スケールなプログラミング言語とライブラリを提供することで支援をしているとのことだ。
このグループが主張するUCXがやらないことはデバイスドライバーだ;これはハードウェアの機能へのアクセスを提供するハードウェアに近いAPI層の代わりであり、ベンダーが提供するドライバーに依存するものだ。IBMは、DOEがとりわけ新たな取り組みがまたOpenPOWERエコシステムをさらに拡張することを求めており、UCXの取り組みをDOE用のCORALプロジェクトに統合する方向性を示している。
「UCXは明らかに将来のハイパフォーマンス・システム用のオープンソースな通信フレームワークです。」とIBMのフェローでデータ中心システムのディレクターであるJim Sextonがこの発表に伴う公式プレスリリースで述べている。「私どもは、重要なOpenPOWERおよび大学のパートナーの皆様とUCXで協調したいのです。特にIBMは、すでにいくつかのトップ10スーパーコンピューティング・システムでも利用されているPAMIハイパフォーマンス・メッセージソフトウェアで主要な技術革新を提供しています。」
NVIDIAにとっては、UCXは一般的にアクセラレータの組み込みの取り組みを簡単にすることができる。「UCXは、GPUDirect RDMAやNVLink高速インターコネクトを含むTesla加速化演算プラットフォームのHPC通信スタックへの追加を、より速く、より簡単にするものです。」とNVIDIAのプラットフォーム・アライアンスのディレクターであるDuncan Pooleは語っている。「私達はUCXのメンバーと一緒に、新しいレベルのハイパフォーマンス・コンピューティングのソリューションをHPCにもたらすことに期待しています。」UCXは一般的にシステムメーカーにとってNVIDIAのGPUを組み込むことを簡単にするのだ。
ORNLのソフトウェア開発者で、今回の記者発表の広報担当であるPavel Shamisによると、この取り組みは約1年行われている。ORNLはOpenSHMEMに取り組んでおり、この通信ライブラリ(CおよびFortran PGASプログラミング・モデル、ポイントツーポイントおよび集団ルーチン、同期、およびアトミック操作)がいかにOpenSHMEMの利用を最も拡大し、業界のサポートを作るかに関するORNLの検討を刺激している、と彼は指摘している。
従来、様々なインターコネクト技術とプログラミング言語をサポートする普及した主流の通信フレームワークは3つある:MXM、Mellanoxテクノロジーが開発;PAMI、IBMが開発;UCCS、ORNL、ヒューストン大学およびテネシー大学が開発。UCXはこれら通信ライブラリの個々の強みと機能を統一し、高性能通信エコシステムの開発用に不可欠なビルディング・ブロックを提供するひとつの統合通信フレームワークに最適化するものだ。
UCXの協調は次を含むハイパフォーマンス・コンピューティング・リーダーシップ・チームにより導かれる予定だ: オークリッジ国立研究所計算科学・数学部門のディレクターであるArthur Bernard Maccabe博士;NVIDIAのTeslaシステム・アーキテクトであるDonald Becker;テネシー大学イノベーション・コンピューティング研究所の研究ディレクターであるGeorge Bosilca博士;Mellanoxテクノロジーのシニアソリューション・アーキテクトであるRichard Graham;IBMインド研究所のディープコンピューティングおよびハイパフォーマンスコンピューティング・システムんの研究科学者であるSameer Kumar博士;オープンソフトウェアシステムソリューションズのCTOであるStephen Poole;IBMの並列環境MPIミドルウェアのチームリーダーであるSameh Sharkawi博士。
ORNLにおけるUCXプロジェクトは米国国防総省から資金提供されており、ORNLのエクストリーム・スケール・システム・センターのリソースを利用している。このプロジェクトはORNLのオークリッジ・リーダーシップ・コンピューティング・ファシリティのリソースを利用して開発されており、契約番号DE-AC05-00OR22725の下で米国エネルギー省科学部に支援されている。