世界のスーパーコンピュータとそれを動かす人々


7月 31, 2023

AWS、自社製Armプロセッサをクラウド・スーパーコンピューティングで利用可能に

HPCwire Japan

Agam Shah オリジナル記事

AWSはついに、スーパーコンピューティングに利用可能なArmベースのCPUを公開した。このチップGraviton3Eは、6月に利用可能になったAWSのEC2 HPC7gクラウドサービスを通じてのみアクセスできる。

Graviton3Eは、ハイパースケーラーが高性能チップを自社開発し、クラウドを通じて利用できるようにする傾向が強まっていることを受けて開発された。AWSのように、Googleは自社でチップ(TPUと呼ばれる)を開発し、Google Cloudを通じてHPC顧客に提供している。このテーマは、ドイツのハンブルグで開催されたISC会議の基調講演で、ユタ大学のダン・リード学長が強調した。

Graviton3Eのようなチップは、ハイパフォーマンス・コンピューティング分野のイノベーションを牽引している、とリード氏は言う。アマゾンは何年もネットワークのプロトコルオフロードを行っており、その過程でチップの開発コストを削減している、と彼は付け加えた。リード氏の基調講演のスライドによると、Graviton3Eは64個のNeoverse V1コアを持ち、チップレット設計に基づいている。550億トランジスタ、DDR5メモリ、PCIe 5インターコネクトをサポートしている。

AWSは、Graviton3Eは、AMDのEpycチップをベースとしたx86ベースの先行製品よりも60%電力効率が高いと主張している。AWSは、HPC7gやGraviton3Eとx86サーバーとの性能比較は行っていない。

スーパーコンピューティングが最高のパフォーマンスを提供することに変わりはないが、エネルギー効率はエクサスケールの閾値を超えたスーパーコンピューターを構築する上で重要な指標になりつつある。Armベースのチップは、x86サーバーチップよりもエネルギー効率が高いことが知られているが、一方でx86チップは、ハイパフォーマンス・コンピューティングにより関連する、純粋な性能において優れている傾向がある。

Graviton3EもGraviton3と比較され、ベクトル性能は35%向上し、Linpack性能は2倍になった。3EはGraviton2よりもメモリ帯域幅が50%、暗号性能と浮動小数点演算性能が2倍向上している。

スーパーコンピューティングのワークロードが徐々にクラウドに移行する一方で、クラウドインスタンスとオンプレミスシステム間のネットワーク帯域幅が依然としてボトルネックとなっている。AWSは、HPC7gインスタンスを「天気予報、計算流体力学、金融オプションの価格設定など、計算とネットワーク集約型のHPCワークロードが緊密に結合したインスタンスタイプ」と位置付けている。

ネットワーク集約型機能は、Nitroオフロード・システム・オン・チップを中心としたもので、ネットワーク、I/O、セキュリティを処理するデータ・プロセッサーまたはインフラストラクチャー・プロセッシング・ユニットである。Nitroは、インテルと共同開発したNvidiaのBluefieldやGoogleのMount Evansに匹敵する。

NitroはAWSのクラウドインフラストラクチャの目玉として登場し、分散システム全体で高性能に適したI/Oを提供している。

HPC7g VMは、16コアから64CPUコア、128GBのメモリ、Amazon Elastic Blockストレージ、200GbpsのEFA(Elastic Fabric Adapter)帯域幅、25Gbpsのネットワーク帯域幅のインスタンスで利用できる。インスタンスあたりの価格は、すぐには明らかにならなかった。

HPC7gインスタンスではGPUオプションは利用できない。しかし、AWSのParallelCluster技術によって、HPC顧客はx86とArmベースのインスタンスを混在させることができる。AWSは、ファイルシステムのサポートについての詳細は明らかにしていない。

すでにHPC7gインスタンスを利用している組織もある。理化学研究所は、世界で2番目に速いスーパーコンピューターであるArmベースの「富岳」のクラウド版をHPC7gインスタンスで構築している。