世界のスーパーコンピュータとそれを動かす人々


9月 11, 2023

Googleの新しいスーパーコンピューティングH3 VMは高速だが、GPUは不在

HPCwire Japan

Agam Shah オリジナル記事

Google Cloudの新しいH3仮想マシン・インスタンスは、ネットワーク性能に重点を置くことで、パフォーマンスを大きく飛躍させるが、シングルスレッドしかサポートせず、GPUオプションは利用できないという制約がある。

同社は先月、H3 VMインスタンスを発表しており、純粋なHPCおよび科学計算市場をターゲットとしている。H3 VMは、インテルの新しいチップセットSapphire Rapidsをベースとし、ノードあたりシングルスレッド・インスタンスで提供され、インスタンスあたり最大88コア、352GBメモリを搭載する。

H3は、今年初めに発表された26,000個のNvidia H100 GPUを搭載したA3スーパーコンピュータなど、GoogleのクラウドにおけるHPCオプションに新たに加わったものだ。

Googleは他にもSapphire Rapids VMを提供しているが、H3インスタンスは、企業がパブリッククラウドとプライベートクラウドの間でHPCやエンジニアリングのワークロードをオーケストレーションできるようにミドルウェアを提供するRescale社などの統合パートナーによって特筆されている。Rescale社がH3インスタンスを加えることで、帯域幅の影響を受けないワークロードをGoogle Cloudにオフロードすることができる。

クラウド・プロバイダーは通常、HPCに最適化されたファイルシステム、OS、ハードウェアを提供するが、HPCに最適化された完全なスタックは提供せず、ミドルウェアの組み込みは、ハイパフォーマンス・コンピューティングを専門とするRescaleやNvidiaのような企業に任せている。各社は独自のクラウド最適化スタックも開発しており、RescaleはNvidiaも顧客としてカウントしている。

H3インスタンスはパブリック・プレビューであり、Googleは一般公開の可否についてコメントを求めたが回答しなかった。Googleは通常、数カ月後にプレビューVMを一般公開する。

「H3 VMはオンデマンド、または1年間と3年間のコミットドユース割引(CUD)で利用できます。H3 VMはGoogle Kubernetes Engineと一緒に使うことができるのです」とGoogleはウェブサイトで述べている。

Googleは、ハイブリッド・クラウドのサポートやソフトウェア・スタックに関する質問に対してコメントを求めたが、回答は得られなかった。Rescaleがパートナーとしてリストアップされていることは、H3がオンプレミスとクラウドの両方のHPCデプロイメントに対応できることを示している。

GoogleのH3の最大のライバルは、ARMベースのGraviton3EチップをベースにしたAmazon Web ServicesのHPC7gインスタンスだ。マイクロソフトもSapphire Rapids VMを提供しているが、まだHPC向けに最適化されていない。

 
  2023年1月10日、インテルは第4世代インテルXeonスケーラブル・プロセッサー、Sapphire Rapidsを発表した。(出典:インテル コーポレーション)
   

Googleは、新しいVMのベンチマークをいくつか提供したが、その主張は類似比較ではなかった。H3 CPUのみのVMは、Sapphire Rapidsから2世代遅れているインテルのCascade Lake CPUをベースにした従来のC2 VMと比較して、ノードあたりのパフォーマンスが3倍向上している。また、実行速度が大幅に向上しているため、顧客はコストを50%削減できる。

インテルの前世代のIce Lakeチップとの比較はなかったが、古いVMに固執している人はH3 VMの方が良い選択肢だと思うかもしれない。

H3インスタンスに対するより競争力のあるオプションは、汎用コンピューティング向けのSapphire RapidsインスタンスであるC3 VMかもしれない。C3はインテルのAMXエクステンションを利用してAIアプリケーションを強化できるが、H3はシングルスレッドHPCアプリケーション向けなので、そうはいかない。

H3インスタンスが特筆されるのは、インテルと共同開発したカスタム・データ・プロセッサ「Mount Evans」をベースにした、C3に次ぐグーグルのクラウド製品である点だ。Mount Evansチップは、NvidiaのBlueFieldのようなもので、データ移動を処理し、ネットワーキングとストレージ操作を最適化する。インテルがE2000と呼ぶMount Evansチップは、それ自体が16個のARMベースのNeoverse N1コアを備えた独自の強力なコンピュート・モジュールを持っている。

H3のVMは、ネットワーク帯域幅の速度を利用するために地理的に近接している。H3はノードが通信するために200Gbpsのネットワークインターコネクトを持っており、これはAWSのHPC7gインスタンスと競合する。