世界のスーパーコンピュータとそれを動かす人々


7月 28, 2015

エクサスケールの電力と耐故障性に挑む

HPCwire Japan

Tiffany Trader

FLOPS主導のベンチマークのユーティリティは興味深い議論を起こすことができるが、実際は1,000倍の性能の進歩のような主要なスーパーコンピューティングのマイルストーンは科学的な発見に不可欠であり、また大規模なHPCエコシステムへの関心と投資を引き起こすことに貢献することに変わりはない。2008年のペタスケールのマーカーを過ぎからは、アクセラレータの恩恵がHPCの推進を助けてきたが、エクサフロップス・クラスのマシンをさばくことは、少しばかり慎重を要する。

減速したムーアの法則に責任の一端はあるが、対象となる投資の役割は誇張することができない。そのために、早期キャリア研究プログラム(DOE科学部が支援する分野における研究キャリアを刺激するための報奨金)が2つのエクサスケールの最大課題に取り組むプロジェクトで利用可能となった:電力と耐故障性だ。

ASCR Discoveryの記事では、これらエクサスケールの障害を少しずつ取り除くこの2つの2015年受賞者の取り組みについて記述されている。シカゴ大学計算科学の助教授であるHank Hoffmannは、彼の取り組みである「CALORIE:エクサスケールの電力管理のための制約言語と最適化ランタイム」で受賞した。このプロジェクトの狙いはシステムがアプリケーションの性能を最適化するために電力をスマートに分配するものである。

このアプローチは自己意識コンピューティングの実装である。「コンピュータはモデル上で動作し、自己意識コンピューティングは、そのモデルを操作することができます。実行されるにしたがって、動作を変更することができるのです。」とHoffmanは説明する。

2番目の問題である耐故障性は、エネルギー効率を好む低電圧部品は信頼性が低いということで、電力の課題に関連している。より小さい部品はより低電力で、より少ない発熱となる傾向があるが、微細化プロセスがシステムの状態を危険にさらす欠陥を導く可能性がある。エクサスケール・ソフトウェアの複雑性がさらに信頼性を悪化させるのだ。

Christian Engelmannによると、結果はハードウェアとソフトウェア障害の大幅な上昇であり、オークリッジ国立研究所でシステムソフトウェアチームのタスクが計算科学研究グループを率いている。

20150721-S1-Resilience-Design-Pattern-Templates

Engelmannは、エクストリーム・スケールHPC用の耐故障性設計パターンにおいて、2015年の早期キャリア賞を受賞している。このプロジェクトは、タイムリーで効率的な方法で正確なソリューションに到達するために、科学アプリケーションの能力を高めるように努めている。このアイデアは、ハードウェアおよびソフトウェアに渡る柔軟な障害管理を使うことで、繰り返し発生する耐障害性の問題に適合するのだ。

これらのパターンが識別されると、研究者達は、異なるHPCシステム・アーキテクチャでも耐障害性の移植性を容易にする再利用可能なプログラミングのテンプレートを作るであろう。

彼は、1990年代に開発されたコンセプトで、その後並列コンピューティングに適用されたオブジェクト指向ソフトウェアに触発された、と語っている。

受賞者は現状からかい離している試みの難しさを認識しているが、このリスクは価値があると言っている。

「私達は非常に少数の人しか最適化することができない非常に複雑なコンピュータシステムを構築しようとしているのです。」とHoffmanは指摘している。「なので、私達はこのいくつかを処理する能力を持ったマシンを作る必要があり、そうでなければ役に立たないマシンを持つことになるのです。」

米国エネルギー省(DOE)の早期キャリア研究プログラムは、現在6年目であり、初期のキャリアの優れた科学者の個々の研究プログラムの開発をサポートしている。2015年のプログラムでは、DOEは国中の620の応募者の中から50名の研究者を選んでいる。賞は通常5年間実行され、大学研究者用の年間15万ドル(夏の給与と研究費をカバー)からDOE研究者用の年間50万ドル(年間給与と研究費をカバー)までの範囲である。