世界のスーパーコンピュータとそれを動かす人々


8月 1, 2014

バランスされたTSUBAMEプロトタイプシステム

HPCwire Japan

Nicole Hemsoth

大規模なスーパーコンピューティングのインストールになると、アジアは次の数年間注意深く見ておく必要がある大陸だ。すでに世界のトップシステムである中国のTianhe-2を持っており、日本や他の国も上位10位以内のシステムを狙っている。

最新のランキングでは、日本は世界のTop500スーパーコンピュータの中で30システムを保有しており、2010年の18システムから伸びている。第4位の理研 京コンピュータシステムに加えて注目を集めているのは14位のTSUBAME 2.5だ。(もしくはTSUBAME KFC、Kepler Fluid Coolingから命名、皮肉にもオイルに浸されている) この76,032コアのシステムに注目すべき理由は、はるかに高性能な新しいマシンのためのステージとして設定されているからだ。ユニークなストレージ、ネットワーク、ミドルウェアおよびその他の技術を統合する新たなものである。

20140709-F1-TSUBAMEKFCsmall-300x238

6月のISCにおいて、東京工業大学の松岡聡教授が、2016年にこのチームが展開する予定の同名の次世代システムのための前身またはプロトタイプとなるTSUBAME KFCマシンの進行状況の概要について講演を行った。2016年にこれが現れる際には、ミドルウェア、ストレージおよびネットワークに対して行われる新しい技術をバランスさせながら、TSUBAME 3は25から30ペタフロップスの性能が予測されている。この夏にGreen500効率ランキングで首位となった中心である「Kepler Fluid Cooling」に加えてだ。

「TSUBAME-KFCのエネルギー効率がエクサフロップス・スーパーコンピューティングシステムまでリニアにスケールすると仮定すると、1秒間に百万兆回の浮動小数点演算をする場合、このようなシステムは225メガワット(MW)程度の電力を消費することとなります。」とGreen500のWu Fengは語った。「この225メガワットの電力は、DARPAの楽観的目標である67メガワットからはまだかけ離れていますが、最初の公式Green500が始まった2007年の初期の見込みであった3000メガワットの見込み比べれば改善されており、数倍となっています。」

しかし、Green500とTop500のプロトタイプシステムの位置付けは大きな話の一部にすぎない。松岡教授がコミュニティに見落とさないようにして欲しい箇所だ。それは次世代のデータ集約型アプリケーションの取り扱いだ。それはスーパーコンピューティング以外から学ばなくてはならない領域だ。

TSUBAME-3 (2020-2022年には4へとつながる)がフォーカスするのは、効率性、データの迅速性、およびもちろん性能、または、講演の中で松岡教授が述べたのはエクストリーム・ビッグデータにスーパーコンピューティングを集中させることのバランスを取ることになるだろう。我々全員が、ビッグデータのバブルがHPCに現れるのを危惧しているが、ハイパースケール・クラウドデータセンターから学ぶだけでなく、最終的なエクサスケールクラスのシステムに向けて何が必要か学んだレッスンを統合化するシステム設計をするのが重要であると、と松岡教授は語っている。

20140709-F1-TSUBAME4

現在のKFCマシンは、Graph500で12位にランクされ、「ビッグデータ」グラフ問題を解くエネルギー効率を見るGraph Green 500では6位だ。ここに2016年の化身となるシステムの本当の将来のフォーカスがある所だ、と松岡教授は語った。彼が説明するように、Graph500リストの最初の頃には、何人かの予測では、このリストはTop500とははるかに異なり、いくつものクラウドベンダーが分散マシンでランキングに応募すると予測されていた。しかし、リストはTop500とかなり酷似しており、Top500の上位マシンと同じものがGreen500でも上位であり、下位もそのままだ。望は、これらのカテゴリに渡るトップの結果が、リアルワールドのアプリケーションの目でバランスすることであり、ただのベンチマークでは困る。

表面上はビッグクラウドが「ビッグデータ」ジョブと取り組んでいたために、これらの初期の予測がたてられたのだ。共通する予想は、Amazonのような巨大なWebサービス企業がおおよそ6百万コアを持った約500,000ノードをネットワーク上に広がって持っていることだ。これは巨大な分散マシンを構成するが、これら格安サーバのコア数はしばしば超高密度スーパーコンピュータよりも低いことである。例えば、Tianhe-2は18,000ノードで3百万コアを持っている。松岡教授は、これは驚くに足りないと語っている。大規模データセンターは共通だが、かれらはまばらな傾向があり、スーパーコンピュータのネットワークや高密度を必要としない。だから、同じ機能ではないのだ。

2016年のTSUBAMEの次の化身の目標は、必要な帯域と計算パワーをもっと小さな空間で供給できるように、システムのサイズを削減することだ。安価なSSD、超高密度システム設計、および重要な処理タスクをオフロードするためのバーストバッファー技術の利用を活用することが、今後のTSUBAME 3や将来の4マシンの鍵となるアプローチとなる。

20140709-F1-TSUBAMEKFC

TSUBAME 3は、シングルラックでローカルな帯域で約50TBの容量または50GB/sの帯域を東工大のチームに提供し、40ラックの場合には、毎秒数テラバイトの総帯域となる、大容量のSSDを特色とするだろうと、松岡教授は語っている。かれらは現在この将来を促進するためにDDNと動いている。

2016年のTop500リストは面白いものとなりそうだ、特に11月のはすでに我々が聞いている新世代マシンと他のいくつかの追加で。すべての主要なマシンが、適切に目標を反映していないために有名なベンチマークを実行するLinpack時間までには、オンライにならないかもしれないが、日本は3つのすべての主要なベンチマークの機会におけるアドバンテージを目指している。To500、Green500、そしてGran500だ。彼らが求めているバランスされたシステムを見せるために。超効率的、ビッグデータ対応、そしてもちろん上位10位以内の高性能だ。