ARMチップとGPUによるHPC
Timothy Prickett Morgan

信頼できる64ビットARMプロセッサの登場は、2014年末から2015年初めであり、HPCコミュニティはいつものように、より効率よくあるいはコストパフォーマンスよく様々な類のシミュレーションを動かすために、これらのチップを運用できるか悩んでいる。
Applied Microは、X-Gene 1によって、64ビットARMサーバーについて先行し、Tesla GPUを作っているNVIDIAと提携し、ドイツ、LeipzigでのInternational Computing conferenceにおいて、X-GeneとTeslaを宣伝した。3社のベンダー、Cirrascale、E4 Computer Engineerring、Eurotechも、同じ場所で、ARM-Teslaハイブリッド・システムを予告し、2014年末から2015年初めにかけて、疑いなくARMにより多くの参入があるだろう。
スーパーコンピューター業界にXeonが普及しているので、Xeon Phi並列X86コプロセッサーと競争するために、Nvidiaは、ライバルであるIntelのXeonともインテグレートする必要がある。しかし、Nvidiaは、多くのシステム・バイヤーと同様に、プロセッサーについて第二第三の選択肢を望み、NvidiaがIBMのPower8とそれに続くプロッセッサーとアクセラレーターをインテグレートするために、OpenPower Foundationにも投資している。さらにNvidiaは、ARMの波に乗って、ARMv8プラットフォームのアクセラレーターになろうと望んでいる。
Nvidia GPU計算ソフトウェア部門ジェネラル・マネージャーのIan Buck氏によると、「第一に、GPUによってHPC分野で64ビットARMが競争可能になります。ARM64プラットフォームが実用になることが疑いなく見えてきています。ARMについて興奮するには2つの理由があります。第一に、過去しばらくの間、私たちは革新的なCPUを持っていませんでした。ARMアーキテクチュアは、最大24コアであり、それらがダイに載っています。さらに、Broadcom社とCavium社は、ネットワーク機能をダイに載せようとしています。第二に、選択の余地です。ARMによって、選択の余地と多様性が広がります。」
Buck氏によると、ネットワーク・デバイスには多くのスレッドを処理できるチップが好まれるが、一般的に、そのようなチップには、浮動小数点演算能力があまりない。簡単に想像できるように、Nvidiaは、64ビットARMプラットフォームのためのコプロセッサーとしてTeslaを望んでいる。64ビットARMに対応できるCUDA 6.5の開発が始まっており、シミュレーションと分析の仕事のために何百ものサード・パーティー製ライブラリーが作られている。Nvidiaは、ARM-Teslaハイブリッドへアプリケーションを移植する顧客を援助できると考えている。
「現在までのARMに関する経験に基づくと、よく構造化されたコードはかなり迅速に移植できます。」と、Buck氏は述べている。「多くのHPCコードはx86専用の組み込み機能 (intrinsics) を使っていないので、かなり容易に移植できます。移植前のコードが既にGPUを使っているならば、ARM64チップ上でも完全なGPU性能を得られます。」
IntelのXeonプロセッサーおよび低消費電力用途のAtomプロセッサーに対抗して、Applied Microは、AMD、Cavium、Broadcomと共に、ARMv8プロセッサーで競争を仕掛ける。Intelはチップ製造工程において優位であり、何を数えたいかによるが、AMDを引き離している。今までのIntelの歴史においてなかったことだが、2014年6月の発表によると、スーパーコンピューターとハイパースケール・カスタマーのために、Xeonに特別な命令を追加したり、消費電力を上げてでもクロックを上げたり、FPGAをチップに組み込んだりするだろう、とIntelは発表している。
この新しい動きは、GPU、DSP、FPGA、その他専用回路によって、ワークロードを加速する別の64ビットARM陣営の猛攻撃に対する、Intelの対抗である。実際には、ARMに対抗するために、ARMコミュニティーの可搬性アプローチを採用している。
Applied Microによる初期のX-Gene 1プロセッサーは、2013年前期からサンプル出荷されており、チップの生産ウェハは3月末に開始され、Taiwan Semiconductor Manufacuguringの40ナノメートル・プロセスで製造されている。このチップは、Applied Micro自身が設計したARMv8コアを8個搭載し、2.4GHzで動く。 Sanchayan Sinhaシニア・プロダクト・マネージャーがHPCwireに語ったところによると、X-Gene 1のシングル・スレッド性能は4コアの「Haswell」Xeon E3に匹敵し、メモリー・バンド幅は「Sandy Bridge」Xeon E5に匹敵する。
Sinha氏は、これはおおざっぱな比較であり、実際のベンチマークは近似よりも厳しいものになるだろうと、強調した。実際に、ISC’14で公開された開発システムがすでにある。同社は、Linpack並列Fortran行列積ベンチマークに代わりつつある、高性能共役勾配法 (HPCG) ベンチマークを実行するために、サーバー・パートナーと協力してX-Gene 1を使う。Sinha氏によると、Applied MicroとNvidiaは、X-Gene 1にTesla K20コプロセッサーを加えて、x86プロセッサーにTesla K20を加えた物と同じことを行おうとしつつある。
X-Gene 2チップは、初期設計の改良版であり、8個のARMコアを含み、TSMCの28ナノメーター・プロセスで生産される。プロセスの縮小によって、クロックを上げられ、Socにより多くの物を載せられるだろう。興味深い新機能は、チップ上のRemote Direct Memory Access (RDMA) ネットワークである。具体的には、チップにイーサーネット・インターフェースを内蔵し、InfiniBand がイーサーネット・プロトコルに小さなレイテンシーでアクセスするためのRDMA over Conveged Ethernet (RoCE) を、オンチップで可能にする。これによって、X-Gene 2チップは、小さなレイテンシーを要求するHPC用途だけでなく、エンタープライズ・データセンター向けのデータベース、ストレージ、トランザクション処理にも適する。
さらに、Applied Microは、TSMCと協業して、16ナノメートルFinFET 3次元トランジスター・プロセスを使い、X-Gene 3を作ろうとしている。このプロセッサーは、今のところ、16コアのSoCであることしか知られていない。
X-Gene 1の初期型は、「Mustang」と呼ばれるApplied Micro製開発ボードに搭載された。それはX-Gene XC-1として、社外に知られた。このARMベースHPCシステムは、Cirrascale社からE4 Computer Engineeringにおいて、製品版X-Gene 1チップを搭載するMustangボードとして発表された。
Cirrascaleの開発マシンは、コンパクトな1Uサーバー・シャーシーに、2個のMustangボードと2個のTesla K20またはK20X GPUアクセラレーターを搭載する。
このマシンは、Cirrascale製品カタログ内RM1905Dと呼ばれ、他のMustangボードと同様に、2チップの1チップごとに2ポート、ボード上に最大64ギガバイトのメモリー、4個のイーサーネット、うち2個が1Gb/sもう1個が10Gb/sのデータ用、で残りが10Gb/sの管理用である。PCI-Express 3.0が8スロットあり、Tesla GPUも搭載できる。1個の6Gb/s SATA-2ドライブをシャーシーに搭載できる。シャーシーの電源は400ワットである。
E4 Conputer EngineeringのEK003の速度は、プレス発表時には間に合わなかったが、Nvidiaは、マシンが2個のTesla K20 GPUのコプロセッサを持っている3Uエンクロージャに2個のX-Gene 1システムボードが含まれていることHPCwireに伝えた。開発マシンは、地震、信号処理や画像処理、ビデオ分析、トラック分析、Webアプリケーション、およびMapReduceのワークロードを目的とする。
Nvidiaによると、Cirrascale及びE4 Computer Engineeringは、2014年7月に自社の開発マシンを出荷する予定である。
Eurotechは、ARMベースのAuroraシステムを高密度に実装するために、ロープロファイルで、基盤にメインメモリーを半田付けしたX-Gene-1搭載カスタム・ボードを作っている。Auroraマシンは、この会社の「brick technology」と呼ばれるマシンに基づいている。コンポーネットの直接水冷を使う。これにはARMプロセッサーとTeslaコプロセッサーが含まれる。このEurotech Auroaシステムの詳細は、2014年後半に出荷予定で明らかになるだろう。