8月 25, 2014

ARMチップとGPUによるHPC

HPCwire Japan

Timothy Prickett Morgan

信頼できる64ビットARMプロセッサの登場は、2014年末から2015年初めであり、HPCコミュニティはいつものように、より効率よくあるいはコストパフォーマンスよく様々な類のシミュレーションを動かすために、これらのチップを運用できるか悩んでいる。

Applied Microは、X-Gene 1によって、64ビットARMサーバーについて先行し、Tesla GPUを作っているNVIDIAと提携し、ドイツ、LeipzigでのInternational Computing conferenceにおいて、X-GeneとTeslaを宣伝した。3社のベンダー、Cirrascale、E4 Computer Engineerring、Eurotechも、同じ場所で、ARM-Teslaハイブリッド・システムを予告し、2014年末から2015年初めにかけて、疑いなくARMにより多くの参入があるだろう。

スーパーコンピューター業界にXeonが普及しているので、Xeon Phi並列X86コプロセッサーと競争するために、Nvidiaは、ライバルであるIntelのXeonともインテグレートする必要がある。しかし、Nvidiaは、多くのシステム・バイヤーと同様に、プロセッサーについて第二第三の選択肢を望み、NvidiaがIBMのPower8とそれに続くプロッセッサーとアクセラレーターをインテグレートするために、OpenPower Foundationにも投資している。さらにNvidiaは、ARMの波に乗って、ARMv8プラットフォームのアクセラレーターになろうと望んでいる。

Nvidia GPU計算ソフトウェア部門ジェネラル・マネージャーのIan Buck氏によると、「第一に、GPUによってHPC分野で64ビットARMが競争可能になります。ARM64プラットフォームが実用になることが疑いなく見えてきています。ARMについて興奮するには2つの理由があります。第一に、過去しばらくの間、私たちは革新的なCPUを持っていませんでした。ARMアーキテクチュアは、最大24コアであり、それらがダイに載っています。さらに、Broadcom社とCavium社は、ネットワーク機能をダイに載せようとしています。第二に、選択の余地です。ARMによって、選択の余地と多様性が広がります。」

Buck氏によると、ネットワーク・デバイスには多くのスレッドを処理できるチップが好まれるが、一般的に、そのようなチップには、浮動小数点演算能力があまりない。簡単に想像できるように、Nvidiaは、64ビットARMプラットフォームのためのコプロセッサーとしてTeslaを望んでいる。64ビットARMに対応できるCUDA 6.5の開発が始まっており、シミュレーションと分析の仕事のために何百ものサード・パーティー製ライブラリーが作られている。Nvidiaは、ARM-Teslaハイブリッドへアプリケーションを移植する顧客を援助できると考えている。

「現在までのARMに関する経験に基づくと、よく構造化されたコードはかなり迅速に移植できます。」と、Buck氏は述べている。「多くのHPCコードはx86専用の組み込み機能 (intrinsics) を使っていないので、かなり容易に移植できます。移植前のコードが既にGPUを使っているならば、ARM64チップ上でも完全なGPU性能を得られます。」

IntelのXeonプロセッサーおよび低消費電力用途のAtomプロセッサーに対抗して、Applied Microは、AMD、Cavium、Broadcomと共に、ARMv8プロセッサーで競争を仕掛ける。Intelはチップ製造工程において優位であり、何を数えたいかによるが、AMDを引き離している。今までのIntelの歴史においてなかったことだが、2014年6月の発表によると、スーパーコンピューターとハイパースケール・カスタマーのために、Xeonに特別な命令を追加したり、消費電力を上げてでもクロックを上げたり、FPGAをチップに組み込んだりするだろう、とIntelは発表している。

この新しい動きは、GPU、DSP、FPGA、その他専用回路によって、ワークロードを加速する別の64ビットARM陣営の猛攻撃に対する、Intelの対抗である。実際には、ARMに対抗するために、ARMコミュニティーの可搬性アプローチを採用している。

Applied Microによる初期のX-Gene 1プロセッサーは、2013年前期からサンプル出荷されており、チップの生産ウェハは3月末に開始され、Taiwan Semiconductor Manufacuguringの40ナノメートル・プロセスで製造されている。このチップは、Applied Micro自身が設計したARMv8コアを8個搭載し、2.4GHzで動く。 Sanchayan Sinhaシニア・プロダクト・マネージャーがHPCwireに語ったところによると、X-Gene 1のシングル・スレッド性能は4コアの「Haswell」Xeon E3に匹敵し、メモリー・バンド幅は「Sandy Bridge」Xeon E5に匹敵する。

Sinha氏は、これはおおざっぱな比較であり、実際のベンチマークは近似よりも厳しいものになるだろうと、強調した。実際に、ISC’14で公開された開発システムがすでにある。同社は、Linpack並列Fortran行列積ベンチマークに代わりつつある、高性能共役勾配法 (HPCG) ベンチマークを実行するために、サーバー・パートナーと協力してX-Gene 1を使う。Sinha氏によると、Applied MicroとNvidiaは、X-Gene 1にTesla K20コプロセッサーを加えて、x86プロセッサーにTesla K20を加えた物と同じことを行おうとしつつある。

X-Gene 2チップは、初期設計の改良版であり、8個のARMコアを含み、TSMCの28ナノメーター・プロセスで生産される。プロセスの縮小によって、クロックを上げられ、Socにより多くの物を載せられるだろう。興味深い新機能は、チップ上のRemote Direct Memory Access (RDMA) ネットワークである。具体的には、チップにイーサーネット・インターフェースを内蔵し、InfiniBand がイーサーネット・プロトコルに小さなレイテンシーでアクセスするためのRDMA over Conveged Ethernet (RoCE) を、オンチップで可能にする。これによって、X-Gene 2チップは、小さなレイテンシーを要求するHPC用途だけでなく、エンタープライズ・データセンター向けのデータベース、ストレージ、トランザクション処理にも適する。

さらに、Applied Microは、TSMCと協業して、16ナノメートルFinFET 3次元トランジスター・プロセスを使い、X-Gene 3を作ろうとしている。このプロセッサーは、今のところ、16コアのSoCであることしか知られていない。

X-Gene 1の初期型は、「Mustang」と呼ばれるApplied Micro製開発ボードに搭載された。それはX-Gene XC-1として、社外に知られた。このARMベースHPCシステムは、Cirrascale社からE4 Computer Engineeringにおいて、製品版X-Gene 1チップを搭載するMustangボードとして発表された。

Cirrascaleの開発マシンは、コンパクトな1Uサーバー・シャーシーに、2個のMustangボードと2個のTesla K20またはK20X GPUアクセラレーターを搭載する。

このマシンは、Cirrascale製品カタログ内RM1905Dと呼ばれ、他のMustangボードと同様に、2チップの1チップごとに2ポート、ボード上に最大64ギガバイトのメモリー、4個のイーサーネット、うち2個が1Gb/sもう1個が10Gb/sのデータ用、で残りが10Gb/sの管理用である。PCI-Express 3.0が8スロットあり、Tesla GPUも搭載できる。1個の6Gb/s SATA-2ドライブをシャーシーに搭載できる。シャーシーの電源は400ワットである。

E4 Conputer EngineeringのEK003の速度は、プレス発表時には間に合わなかったが、Nvidiaは、マシンが2個のTesla K20 GPUのコプロセッサを持っている3Uエンクロージャに2個のX-Gene 1システムボードが含まれていることHPCwireに伝えた。開発マシンは、地震、信号処理や画像処理、ビデオ分析、トラック分析、Webアプリケーション、およびMapReduceのワークロードを目的とする。

Nvidiaによると、Cirrascale及びE4 Computer Engineeringは、2014年7月に自社の開発マシンを出荷する予定である。

Eurotechは、ARMベースのAuroraシステムを高密度に実装するために、ロープロファイルで、基盤にメインメモリーを半田付けしたX-Gene-1搭載カスタム・ボードを作っている。Auroraマシンは、この会社の「brick technology」と呼ばれるマシンに基づいている。コンポーネットの直接水冷を使う。これにはARMプロセッサーとTeslaコプロセッサーが含まれる。このEurotech Auroaシステムの詳細は、2014年後半に出荷予定で明らかになるだろう。

順位	機関名	システム名	ピーク性能(TFLOPS)
1	理化学研究所	富岳	537,212
2	産業技術総合研究所	ABCI 3.0	181,490
3	ソフトバンク株式会社	CHIE-4	151,880
4	ソフトバンク株式会社	CHIE-3	138,320
5	ソフトバンク株式会社	CHIE-2	138,320
6	産業技術総合研究所	ABCI-Q	99,350
7	最先端共同HPC基盤施設	Miyabi-G	72,800
8	FPTジャパンホールディングス	FPT AI Factory	67,440
9	東京科学大学	TSUBAME 4.0	61,600
10	さくらインターネット	SAKURAONE	47,790

すべての国内スパコンリストはこちらから。

西克也
西克也はフェアチャイルド社、クレイ・リサーチ社、ベストシステムズ社など、30年以上に渡ってHPCに関する仕事に従事している。Hpcwire Japanの編集長として記事の作成と翻訳を行っている。

島田佳代子
1999年～2007年まで英国在住。2001年よりスポーツ、旅、ビジネス、映画など幅広いジャンルで執筆活動を開始し、Hpcwire Japanでは主に日本のHPC業界が世界に誇る研究者、開発者の方々のインタビューを担当。

小柳義夫
小柳義夫氏は40年以上に亘ってHPCに携わってきた研究者であり、日本のHPC業界における生き字引として有名。現在　高度情報科学技術研究機構に所属し、産業界のHPC推進にあたっている。

小西史一
小西史一は、理化学研究所、東京工業大学においてHPCおよびバイオインフォマティクスに関する研究と教育に携わってきた研究者。2012年からフォトグラファーとしての活動を開始し、現在はIT技術・セキュリティのコンサルティング業務に携わっている。

eNewsletter

検索

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

ARMチップとGPUによるHPC

調達情報

ニュース記事

お知らせ

特別イベント

International Conference for High Performance Computing, Networking, Storage & Analysis (SC26)

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

【PCCC】PCCワークショップin 神戸 2026 「AIによるHPC／AI-driven HPC」

【RIST】第48回HPCプログラミングWebセミナー: チューニング技法入門

インダストリアルデジタルツインサミット 2026

【CAE懇話会】第45回中部CAE懇話会　CAEを導入して、できる事、できない事

【CAE懇話会】第45回中部CAE懇話会： CAEを導入して、できる事、できない事～CAEを導入、利用するために必要な事～

2026年並列／分散／協調処理に関するサマー・ワークショップ（SWoPP 2026）

リコンフィギャラブルシステム研究会 (RECONF)

【RIST】第13回成果報告会／第9回HPCIコンソーシアムシンポジウム

寄稿者

HPCwire Japan

E-Marketings, Inc.

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

ARMチップとGPUによるHPC

調達情報

ニュース記事

ホットな話題

お知らせ

特別イベント

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

寄稿者

HPCwire Japan

E-Marketings, Inc.