NSFが資金提供する再構成型スパコンのプロトタイプ「ACES」を3大学が共同開発
Oliver Peckham

ムーアの法則が弱まる中、HPCの開発者は、専用のコードと専用のハードウェアによるスピードアップを求めるようになっている。しかし、このような専用化は、逆にコードのテストや導入を困難にすることもある。今回、テキサスA&M大学、イリノイ大学アーバナ・シャンペーン校、テキサス大学オースティン校の研究者たちは、NSFの資金援助を受けて、500万ドルの試作スーパーコンピュータ(「ACES」)を構築した。これは、ハードウェアのニーズがますます多様化する中で、開発者をサポートすることを目的としている。
ACES(Accelerating Computing for Emerging Sciencesの略)は、「革新的なコンポーザブル・ハードウェア・プラットフォーム 」として発表された。ACESは、Liqid社のPCIeベースのコンポーザブル・フレームワークを活用し、インテルの高帯域メモリSapphire Rapidsプロセッサと20種類以上のアクセラレータへのアクセスを提供する。その中には、インテルのFPGA、NECのベクトルエンジン、NextSiliconのコプロセッサ、GraphcoreのIPU(Intelligence Processing Unit)、そしてインテルが近々発表するPonte VecchioのGPUが含まれている。これらのハードウェアは、インテル社のOptaneメモリやDDN社のLustreストレージと連携し、Mellanox社のNDR 400Gbpsネットワークで接続される。
![]() |
|
「ACESは、アプリケーションやワークフローが、異なるアクセラレータ、メモリ、ネットワーク内のコンピューティングプロトコルを動的に統合し、大量のデータを迅速に処理することで新たな知見を得ることを可能にします。」とNSFの助成金には書かれている。また、研究者には、複雑なハイブリッドプログラミングモデルを作成するための独自のプラットフォームを提供し、これまで実現不可能だった計算を効果的にサポートする。
テキサスA&Mのハイパフォーマンスリサーチコンピューティング(HPRC)のエグゼクティブディレクターであり、ACESプロジェクトの主任研究員であるHonggao Liuは、HPCwireに対し、「ACESは、現在研究者が利用できないコンポーザビリティ、再構成可能なハードウェア、新しいアクセラレータ、高帯域メモリプロセッサ、ネットワーキングを取り入れることで、現在計画されているXSEDEリソースよりも次のステップに進んでいます。ACESは、PCIe 5.0のマルチファブリックサポートとコンポーザビリティを統合したLiqidの革新的なコンポーザブルインフラストラクチャプラットフォームを活用しており、ユーザのジョブ要件に応じて20種類以上のアクセラレータやOptane SSDをコンピュートノードに動的にペアリングすることができます。ワークフローに応じて適切なアクセラレータを使用する一方で、ブロックされていないリソースは他のジョブに自由に割り当てることができます。」と述べている。
また、Texas Advanced Computing Center(TACC)のユーザーサービス担当ディレクターで、ACESの共同研究者であるTimothy Cockerillは、「ユーザは基本的に、物理的なサーバーノードの内容に制約されることなく、ジョブごとに必要なカスタム環境を構築することができるでしょう。」と付け加えた。
Liuによると、チームは2022年9月までにACESプラットフォームを導入したいと考えており、テキサスA&Mキャンパス内のデータセンターに設置される予定である。
ACESシステムは、幅広い分野の研究者をサポートするために使用される予定で、研究者たちは、この汎用性の高いハードウェアの可能なアプリケーションとして、健康人口情報学、農業科学、気候モデル、量子化学などを挙げている。Liuは、ACESのリソースはNSFがサポートするシステムによって調整されると説明している。
「このようにして、ACESシステムは、全米の幅広い研究分野における最先端のプロジェクトに貴重なサポートを提供します。ACESは、HPRCが行ってきた、幼稚園児から大学生、専門家までを対象とした科学の普及とコンピューティングへの参加を促進する活動を活用し、トレーニング、教育、アウトリーチに焦点を当てることで、全米に大きな影響を与えることになるでしょう。」と述べている。
イリノイ大学アーバナ・シャンペーン校の地理・地理情報科学の教授であり、ACESの共同研究者であるShaowen Wangは、「ACESが提供するハイブリッドなコンピューティングリソースと適応性の高いフレームワークを利用することで、地理空間のビッグデータや人工知能によってますます複雑化する科学的ワークフローを可能にし、多くの科学のフロンティアにおけるエキサイティングな進歩が実現するでしょう。」と付け加えた。(また、このプロジェクトには、テキサスA&MのHPRCに所属するLisa PerezとDhruva Chakravortyも主任研究員として参加している。)
今回の助成金では、このシステムに2021年10月から2026年9月までの期間に500万ドルが割り当てられ、さらにシステムの運用とサポートのために5年間、毎年100万ドルが追加される。Liqidは昨年、国防総省のハイパフォーマンス・コンピューティング近代化プログラム(HPCMP)で3年連続の受賞を果たしたばかりだが、今回の助成金は新たな成功を意味している。
LiuはHPCwireの取材に対し、「ACESの基本的な考え方は、コンピュートタスクをそのタスクに最も適したテクノロジーに帰属させることで、研究者がそれぞれのテクノロジーの強みを真に活用できるようにすることです。研究者が自分のワークフローに最も適したプロセッサやアクセラレータで実行できるようにすることで、ACESは、大量のデータを迅速に処理することで新たな知見を得ようとする科学・工学分野の多くの研究開発プロジェクトに恩恵をもたらすでしょう。」と述べた。
ACESプロジェクトの詳細については、テキサスA&Mのプロジェクトのホームページをご覧いただくか、プロジェクトに資金提供しているNSFのグラントをご覧ください。