エクサスケールに向けてソフトエラーを制御する
Tiffany Trader

エクサスケール時代に向けてHPC分野を進めるにあたり多くの重要な問題が存在するが、すべてのこれらの変数の中で、本当に目立つ5つ程度の厄介なポイントがある:これらの一つは、ソフトエラーの関する制御である。
マシンあたりのコア数が増えると、ソフトエラーとして知られる間違った振る舞いがシミュレーションの妥当性を脅かし始める。エクサスケールマシンで数億の並列性を活用しようと考えると、この問題に対処する必要性が明らかである。
PNNLの科学者チームは、大規模コンピュータ上でソフトエラーの高いリスクを明らかにする実験を行った。研究チームは、干渉なしで、ソフトエラーがケースの大部分でシミュレーションを無効にすることを見つけたが、彼らはまた、それらの95%を補正する技術を開発した。
Chemical Theory and Computation誌内の論文によると、次世代システムは、数百万コアを結合することにより、予期しない結果を生成し、ソフトエラーの確率を高めるだろうと言う。
「すべてのコアの信頼性が高い場合であっても、その膨大な数により殆どのアプリケーションの実行は、少なくとも一つの障害を被り、平均故障間隔がさらに短くなることを意味します。ハードウェアの断続的な誤った振る舞いに起因する特定のソフトエラーは、サイレントデータの破損につながる可能性が懸念されます。」と著者は指摘する。
これらのエラーに対処する唯一の方法は、それらを識別し、改善することである。論文では、初期推定から開始し、正しい解が得られるまで繰り返し誤差を低減する最適化アルゴリズムにおけるソフトエラーの影響を探っている。具体例として、チームは、量子化学におけるHartree–Fock 法を使用した。
その結果、最適化アルゴリズムは、大きなエラーとならずに程度の小さなソフトエラーとなるよう良く機能したことを示している。言い換えれば、計算は、依然として症例のかなりの割合で失敗した。チームは、データ構造の異なるクラスのためのメカニズムは、大きなエラーを検出して補正することを許容するだろうことを暗示している。彼らは、それは計算コストのわずかな増加だけで、これらの技術を用いてソフトエラーの95%以上を補正することが可能であると結論付けている。
この作業は、PNNLに位置する環境分子科学研究所、ならびにPNNL機関計算施設の資源を使用し、eXtreme Scale Computing Initiativeにより支援された。論文は、PNNLの研究者、Hubertus J. J. van Dam、Abhinav Vishnu、そしてWibe A. de Jongによって執筆された。