世界のスーパーコンピュータとそれを動かす人々


8月 24, 2015

AMDのHPC戦略はヘテロジニアスに

HPCwire Japan

Tiffany Trader

最近のIEEE Microに掲載された論文によると、チップ・メーカーAdvanced Micro Devices (AMD) の技術者と計算機科学者のチームは、現実世界のアプリケーション性能を上げるためのハードウェアとソフトウェア・サポートについて、CPUとGPUを統合したものからなる、「exascale node」に基づくヘテロジニアス・アプローチによって、エクサスケール・コンピューティングを構想している。

Achieving Exascale Capabilities through Heterogeneous Computing」という論文の著者らは、どのようにヘテロジニアス・エクサスケール計算機を実現し、AMDがどのように係わるか、議論している。

進歩の例として、次世代の性能目標へ到達するために、AMDのスタッフは、リアル・アプリケーションを扱うエクサスケール・システムが、それぞれが少なくとも10 TFLOPSの能力を持つ10万ノードから成ると指摘する。現在、最高性能のGPUは、倍精度演算で3 TFLOPSのピーク性能を持つ。

このような力を持つシステムは、力の集約で実現できるが、現在の技術水準では、メモリーとノード間の通信速度が要求を満たさないと、著者は主張する。その他の主要な課題は、システムが10メガ・ワットの電力を必要とすることと、マシンを走らせ続けるために、弾力性と信頼性が必要なことである。

この包括的な目標を実現するためのAMDのビジョンは、同社を支持する者には驚く事ではないが、ヘテロジニアス・アプローチである。AMDは、2006年にグラフィック・チップセット・メーカーのATIを買収し、HPCワークロードのために、CPUとGPUの密結合の潜在的な利点を提起し、Fusionプログラムを開始した。2012年1月、AMDは、FusionをHetelogeneous Systems Architecture (HSA) に変更し、エンタープライズとデスクトップに注力するように見えたが、この数ヶ月に、ハイエンド・サーバーとHPCの分野に戻ると発表した

論文の要約において、ムーアの法則が縮小するために、ハードウェアの性能向上がますます難しくなり、専用ハードウェアは魅力を回復するが、コモディティーな既製品に対して逆転するのは10年以上に渡って難しいだろうと、指摘している。ヘテロジニアス・アプローチは、コモディティー・スケールから利益を得られるが、全てを支配する唯一のISA (Industorial Standard Architecture)はない。

彼らはこう書いている:

「特定の機能のために最適化されたハードウェアは、汎用コアよりも、はるかにエネルギー効率がよいです。しかし、スーパーコンピューターの利用者には、ハイエンドHPCシステムのためだけの専用部品にお金を掛けたくないと、強く望んでおり、エネルギー効率とデータ並列計算のために、量産GPU技術は自然な選択です。」

20150729-F1-AMD-exascale-vision-figure-1-IEEE-Micro-July-2015

AMDが想定するエクサスケール計算機の各ノードは、高性能マルチコアCPUと高スループット汎用GPUを統合したAPUからなる。著者によると、「CPUコアは、並列化が困難なコード・セクションとレガシー・アプリケーションを処理するのに対し、GPUは、エクサスケールの計算に必要な高いスループットを提供します。」

AMDが考案するシステムは、エクサスケール科学の大規模問題に必要な、広帯域幅、低消費電力、充分な総メモリー容量を達成するために、さらに、APUダイに積層されたダイナミックRAM (DRAM) と、大容量不揮発性メモリー (NVM) を使う。それに加えて、計算能力とメモリーは、高バンド幅で小オーバーヘッドのネットワーク制御装置 (NIC) を通して、他のシステムノードに接続される。

CPUだけのシステムも、エクサスケールの候補として考えられるが、AMDは、この方法では必要な電力エンベロープが実現不可能であると考えていた。CPUに接続されている外付けのGPUカードを搭載するシステムも考えられるが、統合されたチップは、次の理由によって、優れていると考えられていた。

  • CPUとGPUの間の、データ移動とタスク、カーネルの起動について、レイテンシーと消費電力の通信オーバーヘッドが小さい
  • CPUとGPUの間の動的な消費電力のシフト
  • CPUとGPUの間のキャッシュ階層について、コヒーレンシーと同期のオーバーヘッドが小さいことによる、プログラミングの容易さ
  • m3当たりの高FLOPS (性能密度)

AMDは、APUに基づくアプローチ (ヘテロジニアス・システム・アーキテクチュアの結合) が、エクサスケール・ヘテロジニアス・プロセッサー (EHP) としての、次世代APUであると、強く信じている。

著者によると、「私たちのヘテロジニアス・コンピューティングのビジョンの重要な部分は、各EHPが完全に(他のもののとの間で)提供のHSAをサポートしていることです(例えば、CPU、GPU、およびその他のアクセラレータなど)。ノード内のすべてのデバイスは、単一の共有システムアーキテクチャ、統一仮想メモリ空間です。これによって、プログラマーは、CPUとGPUのコードを自由に、PCIエクスプレス(PCIe)の上で時間がかかるメモリ転送を必要とする再フォーマットやデータ構造、あるいは複雑なデバイス固有のメモリ割り当てのマーシャリングをせずに、ポインターを交換できるアプリケーションを作成できます。」

「HSAはまた、任意の計算装置は、他のユニットのためのタスクを生成できることを特徴とする、ハードウェアによってサポートされるユーザーレベルのタスクキューを提供します。ほとんどの従来の(非HSA)GPUベースヘテロジニアス・コンピューティングにおいて、すべての制御がCPUを通って流れなければならないのに対し、例えば、HSAのGPUは、オペレーティングシステムまたは複雑なドライバを介さずに、GPU自体に新しいタスクを起動できます。前者は、非効率性と難しいプログラムコード構造につながります。」

AMDの図は、EHPアーキテクチャがどのように見えるかを示している。100,000個のEHPノードを接続して得られるちょうど1エクサFLOPSの計算スループットを目標に、CPUとGPUに加えて、10 TFLOPSの持続性能を持つための3次元DRAMのようなパッケージ内メモリーを統合する。AMDによると、統合3D DRAMがメモリー帯域幅の大部分を提供するが、追加のパッケージ外メモリーも、大容量メモリーを必要とする目的のために残る。

Heirarchicalメモリー構成について、AMDの科学者は、論文で詳しく説明した帯域幅と容量、何かの相反する目的に対処するために採用されてる。 AMDは、「第一レベルのDRAMがNVM層に高帯域幅とビット当たり低消費電力のメモリアクセスだけでなく、ストア操作のバッファリングを提供します。」想定エクサスケールの時間枠では、第2のレベルが実現される可能性が高いと考えられている(例えば、相変化メモリとmemristorsなど)NVM技術である。この第二のレベルのオフ・パッケージ・メモリーはDRAMよりも低いコストと低消費電力のために、ノードごとの容量の必要性を満たすことを意図している。 AMDは、フラッシュや抵抗メモリなどの高いメモリ容量、ストレージクラス·メモリの第3のレベルを必要とするシステムのために、ノードに追加することができると指摘している。

AMDの概念EHP設計はx86コアだけに限定されるものではない。同社がこれまでに詳述したように、APUのためのビジョンは、オープンである。 ARMは、HSAのパートナーであり、AMDによると、ARM命令セット·アーキテクチャは、ノード内のx86と同様に使用できる。古いアプリケーションの逐次実行部分、性能が重要でない部分、GPUへの移植が難しい部分を処理するためである。

12ページの論文には、ここでカバーされているものよりもはるかに多くの情報がある。

  • 現在および開発中のメモリ技術の両方のコンテキストでエクサスケールのメモリ帯域幅とメモリ容量の要件の深い議論
  • 「オープンなハードウェアとソフトウェア・インターフェースによって、現在もHPCアプリケーション・プログラマーがヘテロジニアス・エクサスケール・システムの鍵を開けるための」重要な役割であるHSAプロジェクト意義の概要
  • スケールと消費電力による物理的な制約のもとでの、プログラマビリティとパワー、回復力と信頼性
  • ラップトップ、ゲーム機からスーパーコンピューターまでの広い範囲で、性能と低消費電力を可能にする、キー・テクノロジーとしての、ヘテロジニアス・コンピューティングの枠組み

しかし記事では、AMDのGPUとAPUロードマップが懸念されているように多くの詳細を提供していない。同社は2016年から2017年の期間に「HPCおよびワークステーション用のマルチテラフロップスを」提供するために、ターゲット上にある開発中の次世代サーバのAPUを持っているが、こらが半精度あるいは倍精度の対応があるかは、明らかでない。

そして、2015年7月初め、AMDはそのGPUファミリーの最新メンバー、FirePro S9170を「DGEMM重い倍精度のワークロードのための世界初かつ最速の32ギガバイトのVRAMを持つGPUサーバーカード」を発表した。このGPUチップは第二世代のAMDグラフィックス·コア次(GCN)GPUアーキテクチャ、およびピーク単精度演算性能の5.24テラフロップスに、ピーク倍精度性能の2.62テラフロップスまでの最大供給することがでる。 AMDは競合製品よりも10パーセント少ない電力を使用しながらカードは、40%より優れた倍精度性能をサポートすると言う。