世界のスーパーコンピュータとそれを動かす人々


7月 24, 2014

エクサ・スケールの可能性へ向かうバースト・バッファー

HPCwire Japan

Nicole Hemsoth

科学目的のスーパーコンピューターにしても、ハイパースケールなウェブ・ファームにしても、大規模なデータ・センターには、生産性と効率のために、「防御的なI/O」と「攻撃的なI/O」の競争がある。長時間動くアプリケーションをチェックポイントから回復するために、技術の集合が戦線を押している。ロス・アラモス国立研究所のGray Grider氏が5年前に、I/Oを扱いその価値を大規模に証明するために、「バースト・バッファー」という概念を提示した。

新しい概念ではないにもかかわらず、バースト・バッファーについては不満が増えている。特に、2013年11月のSupercomputingにおいて、DDN、EMC、NetAPPなどのベンダーが、アプリケーションの性能と効率を上げることに加えて、フラッシュ・メモリーをボードに載せて、チェックポイントからの回復をデモンストレーションした。提案は広範囲にわたる。純粋なストレージの提供、フラッシュ・メモリーと計算機能をノードに組み込み、ストレージをより能動的かつスマートに、容量と計算能力の両方に渡るワークフローのレイヤー構築である。

Grider氏によると、「これはすべて、純粋に経済性に基づいています。私たちの経済性分析が初めてディスク・ドライブとフラッシュ・メモリーのバンド幅と容量を比較した数年前から、予測されていたことです。」2009年に書かれたその報告書は★ここ★にあり、現在においても正しいが、現在ではよりフラッシュ・メモリーに傾いている。

Grider氏が2009年に経済性を正確に予測していたことは、注目に値する。下図は、オリジナルの報告書による。

20140501-F1-Grider1

フラッシュ・メモリーの価格は若干変動するが、一般的な傾向では値下がりしている。このために、信頼できるチェック・ポイントのために、大規模なデータ・センターにおいて、フラッシュ・メモリーを使おうという力が働く。チームがバースト・バッファーを調査し続けたので、信頼性に取り組み、どのくらいのユーザーが専用ノードの集合において計算とフラッシュ・メモリーを使えるかどうかが明らかになってきた。デバッグ、データ分析、動的なロード・モジュールの実行など、Grider氏と同僚には、光が見え始め、スペクトル全体につながっていく。その時から、彼の業績の多くがバースト・バッファーに向かったが、少数の警告もあった。

より多くの研究がアイデアに向かって押されると、Grider氏らは、それが純粋なストレージとチェックポイント保存場所だけではなく、スーパーコンピューターについてより多くのことをできると望むようになった。ストレージ重視のエクサ・スケールなI/O指向プログラムについて、バースト・バッファーは、ファイル・システムからビット列として取り出せるものとしてだけでなく、より深い意味を持たせられるようになる。複雑で未成熟であるにもかかわらず、ソフトウェア・パラダイムはユーザーをよりスマートに進化させるであろう。バースト・バッファーの能動的なノードは、データをはき出しながら、実行形式を扱える。

下に示すGrider氏の図は、最新のシステムを経済的、ある意味実現可能にすると示している。Trinityは、現実世界の文脈において、可能であるだけでなく必要であることを示している。

20140501-F1-Grider2

これはTrinigyと将来のプレ・エクサスケールおよびエクサスケールについては理にかなっているが、同じ経済的側面は、正確には、より広い世界に適用できない。Grider氏の率直な話によると、「これは、皆さん全員のためではありません。これは多くの場合に、ほとんどの質問につながる最大の誤解です。」ベンダー・コミュニティーは現在の一般的な技術の集まりが、バースト・バッファーがこの世界の問題を解決できる言っていると、彼は指摘する。それは、非常に大規模でない限り、簡単に言えば、一般的なチェックポイントのためのバースト・バッファーへの投資は、はるかかに多くのノードが故障してチェックポイントで止まることを意味するので、多くの場合に、経済的に健全でない。また、多くの小規模なIT部門は、何テラバイトか、あるいは近いうちにペタバイトを扱うが、これは合理的にダンプする。彼らは、スマート・ストレージ・アプローチの有効成分を利用している場合には、つまり、ノード上の計算を活用している場合には、それが役に立つかもしれない。彼は、このことについて注意を促したが、それはあなたが利益を得るつもりならば、特にチェックポイントのために、ロケット・サイエンスではないことを注意した。

他の質問者に対して、Grider氏は、多くの場合にバースト・バッファーが置かれるべき場所を中心に話を展開している。彼の答えは、スーパーコンピューティング・ノードの次の世代では、おそらく同じアクティブ・マス・ストレージ・タスクを実行する重たいサーバーが、ソフトウェア障害をたぶん滑らかにするだろうと語っている。しかし現在、最小限の複雑さの集中以来、それらはスーパーコンピューターの内部ノードの別個のセット内に存在する。フラッシュ、コンピューティング、ディスク、およびアプリケーション間のより統合されたフローを持つためには、おそらく5年間以上かかるだろうと、Grider氏は述べている。しかし再び、彼の現在の研究活動だけでなくプログラミングに関する他の作品は、これらのいくつかに対処している。エクサスケールのために必要な他のソフトウェアの課題と比較して、小さなバースト・バッファーの問題を解決することは容易であると、彼は指摘している。

なんと言っても政府出資の研究所では、I/Oの経済性のメッセージを取得している。Grider氏が私たちに語ったように、これは実際にRFPのラウンドは、計算と容量以外のものに今回初めて焦点を当てた。ストレージとデータの移動の問題と、そこに起因する故障チェックポイントによって、あまりにも多くの生産性を失っているし、それらの苦痛を減らすために驚くべきことではない議論が活発である。

「私たちがシステム上でやっているダンプは、現在、数百テラバイトの範囲にあります。約2年後には、マシンの多くは2から5ペタバイトの範囲でダンプを行おうとして言います。あなたも、現在のサイズでダンプする場合には、すべてのメモリのダンプに要する時間は4時間ごとに1時間程度でしょう。つまり、時間を失っているのです。科学のために使うべきマシン時間の25%を消耗していることになります。これは、チェックポイントに関する本当の経済学的議論です。」と、Grider氏は語った。

2014年5月に報告されているように、新しいNERSC-8「Cori」システムは、結合可能な残り半分のシステムであるRFP Trinityに、バースト・バッファーを組み込む可能性を持っている。両方の目標は90%の効率である。このために、電力効率を改善し、バースト間の時間を利用してチェックポイントによる影響を減らし、アイドル状態のデータを重要な役割を持つ。

Nick Wright 氏と Katie Antypas 氏が2014年5月に私たちに語ったことによれば、NERSC-8 「Cori」システムの紹介の間に、RFPの別の側であるTrinityが2014年後半に公表される予定であり、これは同様に非常に可能性が高いコンポーネントになるだろう。エクサスケール・システムの今後、どこでこれらが生きながらえ、ファイルシステムとソフトウェアがどのように相互作用するかについて、ソフトウェアの仕事がある。一方、次世代システム Lustreについて、Grider氏ら多くの方が、同様の問題を考慮して、ベンダーがバースト・バッファーを推進し、前向きに究極の効率を実現する物語がどうなるか待っている。