世界のスーパーコンピュータとそれを動かす人々


10月 7, 2014

DOE、エクサスケールの耐故障性研究に資金提供

HPCwire Japan

Tiffany Trader

最初のエクサスケール・スーパーコンピュータに向けてカレンダーはカウントダウンするように、険しい技術的課題を解決する努力は数的にも緊急度的にも増加している。エクストリームスケール・コンピューティング・プラットフォームを阻害する多くの障害の中で、耐故障性は最も重要なもののひとつだ。システムが10億規模の並列に近づくにつれて、現在の率でエラーが増えるのは無理だ。この課題の深刻さを認識した上で、連邦政府はエクストリームスケール・コンピューティング・プラットフォームの耐故障性の課題に対処する基礎研究のための提案を求めている。

2014年7月28日、科学局にある高度科学計算研究(ASCR)局は「エクストリーム・スケール・スーパーコンピューティング・システムのための耐故障性」の旗印の下に資金提供の機会をアナウンスした。このプログラムは障害およびエラーの軽減し、それによってエクサスケール・アプリケーションが効率的に完了でき、適時に正しい結果を生成できる研究に拍車をかけることを狙っている。

「次世代の科学的発見は、コンピューティング技術における重大または破壊的進歩を効率的に利用できる研究の進展によって可能となります。」と公式概要を述べている。「エクストリーム・スケール・コンピューティング・システムで動作するアプリケーションは、規模的にかなり高い解像度と忠実度で結果をだし、今日のハイパフォーマンス・コンピューティング・プラットフォームで可能なものよりもかなり短かい解決時間を達成します。しかしながら、これらの新しいシステムは増加した周波数によってハードおよびソフトのエラーが起きる兆候があり、アプリケーションが効率的に実行され、タイムリーに正しい結果を出して完了することを可能にする耐故障性への新しいアプローチに対する研究が必要です。」

この要求の著者は、大規模システムにおいては少なくとも計算容量の20パーセントが故障と復旧に浪費されていると推測する。システムの規模と複雑さが増すたびに、新たな目標を絞ったアプローチが開発されない限り、もっと多くの容量が失われるだろう。

DOEは特に3つの焦点領域において提案を求めている。

1. 障害検出および分類 – DOEのコンピューティングエキスパートによると、将来のマシンにおける同様の現象を防止するために、現在のスーパーコンピューティングシステムはより理解されなければならない。

2. 障害軽減 – このカテゴリは2つの部分に分かれる。: もっと効率的で効果的なチェックポイント/リスタート(C/R)の必要性とC/Rに対する効率的代替の必要性

3. 異常検出と障害回避 –十分に事前に障害を予測するために機械学習戦略を使うことによって、実行中のアプリケーションを他のノードに移行するなどの先制措置をとる

約4つから6つが採択され、3年の間、年間100,000ドルから1,250,000ドルが支給される。議会の承認がおりると資金総額は年間4,000,000ドルが予定されている。