世界のスーパーコンピュータとそれを動かす人々


8月 18, 2015

読書リスト:HPCのための耐故障性テクニック

HPCwire Japan

Tiffany Trader

有用なエクサスケール・マシンを展開する主な課題の中で、対故障性は大きな存在だ。初来のノード数と組み合わせた今日の故障率は、干渉無しでも生産的なワークフローを支えることはできない。この問題の重要性は見過ごされてはいない。耐故障性テクニックの包括的コレクションが、Thomas HeraultとYves Robert著の「Fault Tolerance Techniques for High-Performance Computing」と呼ばれる1巻にまとまっており、先月Springer Verlagから出版された

「耐故障性は現在の大規模プラットフォームにおいて既に顕著な問題となっています。」と編集者は本の序文に書いている。「数百万コアと数十億の並列度を持ったエクサスケール・コンピュータの出現はシナリオを悪くする方向に行くだけです。エラーや故障に対処する能力は、HPCアプリケーションを効率的に展開するために重要な要素となるのです。」

この参考図書はHPCアプリケーションの様々な耐故障性手法の概要を2つの部分で提供している。パートIでは、編集者は同僚のJack Dongarraと共に、「HPCプロトコルにおける耐故障性のためのデファクトスタンダードなテクニック」であるチェックポイントにフォーカスしている。著者等は協調化および階層化の主要プロトコルを提示し、これらのプロトコルを評価するための確率的性能モデルを紹介している。定義的にまだ存在しない将来のハードウェア扱う際には、このようなモデルはバイアスを最小化するために必要であると彼らは言っている。故障予測とレプリケーションと組み合わせたチェックポイントを彼らは見ている。チェックポイントやロールバック・リカバリ・プロトコルだけでなくアプリケーション固有の方式を含む汎用テクニックが考慮されており、ABFTもしくはアルゴリズムベースの耐故障性などだ。また、サイレントエラーに対処する方法のセクションもある。

著者等はスケールの点で問題を説明しており、機会(「持続ペタスケールへの最も実行可能なパス」)と脅威の両方で書いている:

「将来のプラットフォームはエクサスケール時代に入るために、さらに多くの計算リソースを登録します。現在の計画が参照するシステムは、100,000ノードで各10,000コアが装備されているものか(ファットノード・シナリオ)、もしくは1,000,000ノードで各1,000コアが装備(スリムノード・シナリオ)されているものです。」

「各ノードで個々のMTBF(平均故障間隔)が例えば1世紀だとすると、100,000ノードのマシンでは平均9時間毎に故障に遭遇することになり、それは多くのHPCアプリケーションの実行時間よりも大きいのです。さらに悪いのは、1,000,000ノード(同じ1世紀のMTBF)のマシンでは故障は平均53分おきに発生します。ノード当り1世紀のMTBFは楽観的な構図で、各ノードが数百もしくは数千コアから構成されていることが条件であることに注意が必要です。」

「さらに暗い構図では、スケールで計算する際には複数のエラータイプを考慮する必要があります。従来の故障停止エラー(ハードウェア障害のような)に加えて、サイレントエラー(別名サイレントデータ破損)を考慮しなければなりません。故障停止障害に反して、サイレントエラーは直ぐには検知されませんが、代わりにある任意の検知遅延があり、それが対処策を難しくしているのです。」

パートIIは「技術貢献」とラベル付されており、4つの章で構成されている。

  1. エラーと障害 Ana Gaiaru、Franck Cappello
  2. 耐故障MPI Aurélien Bouteiller
  3. エクサスケール・システムの耐故障性のためのリプリケーションの利用 Frederic Vivien、Dounia Zaidouni
  4. エネルギーを考慮したチェックポイント戦略 Guillaume Aupy,、Anne Benoit、Mohammed El Mehdi Diori、Oliver Glück、Laurent Lefèvre

各章はスケールにおける耐故障性の異なる側面にフォーカスしている。例えば第5章は電力の課題と耐故障性の課題の間に存在する接続にスポットライトを当てていることが重要だ。

「耐故障性とエネルギー消費は相互に関係しています: 耐故障性はエネルギーを消費し、エネルギー削減のテクニックのいくつかはエラーと故障率を増加させます。」とHPC専門家の国際チームは書いている。

この320ページの本はハードカバー、eBookおよびKindle版で利用可能だ。この本のパートIはまた2015年5月のレポート【PDF】では少し修正された形で表れている。

Thomas Herault博士はテネシー州のテネシー大学ノックスヴィル校の革新的コンピューティング研究所(ICL)の研究科学者である。Yves Robert博士はフランスのリヨン高等師範学校の並列コンピューティング研究室の教授で、ICLの客員研究学者である。