世界のスーパーコンピュータとそれを動かす人々


2月 20, 2015

アーキテクチャ的な驚愕を示す新HPCベンチマーク

HPCwire Japan

Nicole Hemsoth

ここ数年のスーパーコンピューティング業界で最も白熱した議論のテーマのひとつは、世界最速のTop 500ランキングを決める基礎となる、高性能LINPACK(HPL)ベンチマークの妥当性についてである。

これらの多くの批判の中で、LINPACKベンチマークの創始者の一人であるJack Dongarra博士(オークリッジ国立研究所、テネシー大学)と彼のチームは、多くのセンターがHPLについて感じる痛みにも似た弱点に対処するために熱心に取り組んできた。それは、実際のアプリケーション性能がHPLの示すピーク性能に近い数値と辻褄が合う形で潜在的な性能を適切に測定するものではなかった、という点である。我々はこれまでもLINPACKや新しいベンチマークについてそれぞれの価値について色々書いてきたが、最近HPCGに新たな進展が見られ、その最新の結果が出てくるようになった。

我々は、いつもHPCGが登場する時はいつも注意しているように、この新たな測定がTop 500ランキングを置き換えるものではない。むしろふたつは相補的であり、各々がブックエンドとして機能して、実際のアプリケーションの性能はそれらのブックエンドの間に見つけることができるようになる。そうは言っても、ベンダーから始まってより広い世界の誰もが、スーパーコンピューティングのためのゴールドスタンダードとして認識されてきたパフォーマンスの数値の対抗勢力として、いよいよ登場する時が来た、と考えている。Dongarra博士は、大規模システムでHPGCが勢いを見せ始めているとはいっても、まだまだなされるべき事は沢山ある、と言っている。

下のグラフにあるように、この11月に提出されたHPGCの25の結果は、性能面ではそれほど劇的なものではない。しかしながら、このベンチマークは大規模システムが実際のアプリケーション性能のひずみをどのように扱うかを理解する上では大いに役立っている。この数字は世界で共有するのには魅力的でないかもしれないが、超大規模システムが単なるトリックショーでは無い事を証明したい人々にとっては、一艇の差を持っていることが重要である。そしてもちろん、将来システムが評価されそして調達される方策にとっても重要なことである。

20141201-F1-slide11

先に進む前に、Top 500とは少し異なるHPGCの性能ランキングリスト(クリックすれば画像が拡大するはずですが)を見てみよう。比較しやすいように、今年のTop 500のランキング位置も入っている。二つのリストの間での大きな違いは、すぐに判るだろう。HPCGのリストで最も顕著なのは、日本のK ComputerがTop 500の第4位から第2位へ上昇し、Oak RidgeのTitanシステムが第3位に転落したことであろう。

20141201-F1-topten

20141201-F1-secondset

ここで留意すべきことは、このベンチマークを実行してエントリがあったのは25サイトのみということである。昨年の11月に較べるとエントリ数は倍増しており、Dongarra博士もこれからのエントリサイトの増加を期待している。これまでの所そのテンポはゆっくりとしたものだが、センターやベンダーは自分達のマシンのための最適化プロセスを理解し始めたようだ。Dongarra博士のチームは、NVIDIAとIntelを含めたトップ参入者達が様々なアプローチをどう実現したかについてそのベストプラクティスやメモをまとめてこの数ヶ月にレポートとして公開する予定である。

リスト上の赤いマークは、GPUあるいはコプロセッサが存在するシステムであることを意味している。LINPACKで輝くような性能を見せる傾向にあるGPU加速システムが、この現実世界のアプリケーション指向のベンチマークでは同じような性能を引き出せないことがわかる。Dongarra博士が言ったように、「GPUとコプロセッサから性能を引き出すことが困難のため、それらがピーク性能に比較して低い性能しか達成できない場合はHPLでも同じ事です。プログラミングのしやすさでもありません。それはインターコネクトの問題です。その問題が消えればこのゲームは劇的にに変わります。」

その事は近い将来に大規模システム上のGPUやコプロセッサに起こるだろうが、それは先行き不安のメッセージというわけではない。コプロセッサやGPUにとって大きなインターコネクト問題が過去のものになってしまえば、データはそのチップ外へ移動する必要がなくなる。このベンチマークにとっては、当面はシステムやアプリケーションと同じ様に、Knightファミリーの新世代プロセッサやOpenPower FoundationとNVIDIAによるダイ内にデータの動きを留める仕事に牽引される事が重要である。

アクセラレータシステム以外のトップ500のほとんどに適用されるルールにはいくつかの奇妙な例外がある。たとえば、ベンチマークの性質を良く言い表している右端の「ベンチマーク性能のピーク性能比」の数値をチェックしてください。

まず、理論的ピーク性能値と比較される時はこれらのシステムにとってはそれが常識なのだという事を理解するまでは、これらの数値は全体的にひどいモノ見えるかもしれない。いくつかのセンターが将来的にLINPACKの実行さえも拒否する理由を述べた記事をあげるまでもなく、その数字自身が全てを物語っている。しかし、リストを眺めればアーキテクチャに付随する二つの事項が浮かび上がってくる。

まず、K Computerはピーク性能の4%をわずかに超えるという際立ったベンチマーク性能を達成している。それがネイティブなプロセッサや環境に基づいていることを考えると、伝統的なアーキテクチャと呼べるものではないが、実際のアプリケーションの性能はかなり顕著なものである。しかしベクトルアーキテクチャほどは顕著ではない・・・?

それはそうとも思われる。リストの終わりの方にある東北大学のNECのマシンを見ると、ピーク性能の10%以上を達成している。Dongarra博士はこれはCrayのようなベクターマシンの復活の兆しではないと言うが、それが示しているのは、ベクターマシンがまだまだ有効で、その性能バランスは注目に値するということである。リストに挙げられた性能を達成したしたのは、いずれも2,000以上のコアを持つシステムだという事実も注目すべきである。

他にも注目すべきシステムがある。例えば、Edisonシステムも、3.1%と良い数字をだしている。BlueGeneからK Computerのようなアーキテクチャのシステムがこの測定ではうまく機能している。これは25システムに関するものである事に注意する必要があるが、アーキテクチャの内訳を見ると、必ずしもGPU/コプロセッサのパラダイムがトップということではない。逆になっている。アクセレータ型が高い性能値を達成してはいるのだが、もっとシンプルなプログラムオプションとしての従来CPU型も実際にはそこそこがんばっている。そしてカスタムアーキテクチャーの傾向は、何が実アプリケーションで良い性能を出すのか、少なくともこのベンチマークが実アプリケーションをどのように一般化しているのか、についてひとつの物語を語っている。

20141201-F1-archslidess

最後に、要はバランスのとれたアーキテクチャを実現することだ。それが目標である場合は、実機におけるHPCGベンチマークの努力はいつか報われるであろう。それは自然と最適化の大仕事につながっていく。HPCG最適化のためには多くの工数がかかるので、いくつのセンターがその作業に取りかかれるのかは判らない。しかし、エネルギー省が支援しているDongarra博士やそのチームの「より現実世界に則した測定」に向けた努力により、多くのセンターが現在の25エントリに追随することを期待したい。最適化の背後に潜む技術的なプロセスや様々な話題に関するこのチームの観察結果の公表はおおいに役立つだろう。

このベンチマークの詳細と最適化への取り組みに関する新しい情報は以下のURLから参照する事ができる。http://www.hpcg-benchmark.org/