静かなデータ破壊の脅威に対処する
Tiffany Trader

今後十年以内に、HPCプラットフォームは技術的進歩により毎秒10の18乗回の浮動小数点演算を提供できるようになるだろう。専門家は、これらのエクサスケールの計算機での並列性は十億レベルに達すると予想している。膨大なコア数は様々な問題を引き起こし、信頼性の問題は中でも代表的な課題である。HPC研究者がソフトエラーと無兆候データ破損の現象に対する理解に一層の努力を傾けている事は、その事が背景になっている。
ロスアラモス国立研究所の研究員Sarah E. Michalak氏は、2010年の講演のスライドでソフトエラーを次のように定義している。「故障を起こさずに格納した情報を変更し、電子機器のある状態に対する意図的でない変更を起こす事である。例えば、宇宙線が誘発する中性子によって引き起こされるビット反転。」
ソフトエラーで最も厄介なのは、無兆候データ破損(Silent Data Corruption:SDC )によって引き起こされたものだ。計算機がエラーをログに記録せずに、間違った結果をそのまま出力した場合の事だ。この場合、アプリケーションは正常に終了するが、結果はソフトエラーの発生しないケースとは異なる。いくつかのケースでは結果は科学的に正しくなく、他の場合にはアプリケーションが長時間、時には永遠にハングしたりする。 (ソフトエラー脆弱性に関する詳細は、このSC12の論文で取り上げられている。 )
Michalak氏はソフトエラー率と無兆候データ破損率に関する実験を行い、数年にわたってスーパーコンピューティングの信頼性を研究してきた。Michalak氏とLANLの研究チームは、最近これらの実験に基づいた「Field Testing of Production and Decommissioned High Performance Computing Platforms at Los Alamos National Laboratory.」という論文を発表した。論文は「無兆候データ破損(SDC )は、HPCプラットフォームや他のシステム上で実行された科学技術計算の整合性を脅かす可能性を秘めている。」という主張から始っている。
彼らは、SDCは多くの要因によって引き起こされる可能性があると説明している。そして厄介な問題もその要因である。これまで特定され犯人には、温度や電圧の変動、粒子(中性子、陽子、およびアルファ線)、製造上の残渣、酸化による分解、および静電放電が上げられる。
形状と電圧が減少する一方で、クロック周波数、トランジスタ数そしてノイズレベルが増大する新技術の結果として、SDCがより一般的になることを研究者は予想している。当然の事としてSDCの増加に伴い、信頼性が低下する。
この困難な問題をより良く理解しその影響を軽減するために、 LANLを中心とした研究チームはアプリケーションの実行時にその正当性チェックするフィールドテストを実施してきた。テストはロスアラモス国立研究所の現役および引退したHPCプラットフォームの両方で行なわれた。
五年以上継続された大規模なフィールドテストの研究は、誤った計算結果の発生原因 – 改善できる可能性がある – を追跡するとともに、HPCプラットフォームで起こる誤った計算結果の発生率を測定する事を目的としていた。著者は、誤った計算結果が発生した時に、関連するエラーまたは警告メッセージが伴っていたかを確認するために、全てのシステムログをチェックする事は不可能だった、と述べている。即ち、観測された誤った計算結果の何パーセントが本当に兆候が無かったのかは不明である。
論文は、初期の研究結果として六つのテスト•プラットフォームについて論じている。三つの運用中のLANL HPCプラットフォームと五つの退役したLANLプラットフォームである。時には、同じマシンが運用中、退役後にもテストに使用された。運用システムでのテストはアイドル状態のノードのみで行われたが、退役システムでは使用可能な全てのノードを使用することができた。論文のセクションIIIには、六つのHPCプラットフォームのアーキテクチャと、テスト並びにエラー件数の詳細が述べられている。
テストはHPC Linpack (HPL)とCrisscross MPI データ転送テストコードを用いて行われた。五年間の実験期間中、テスト仕様は常に改善されてきた。初期段階では、多様なデータサイズのHPLだけのテストが室温やシステム電圧の操作とともに実施された。後には、室温やシステム電圧のコントロール無しで、少数のデータサイズでのHPLのテストも含まれるようになった。
これまでの研究では、500ノード年以上の計算と約80PBのデータ転送 – ノード内データ転送35PB以上とノード間データ転送約44 PB – を対象にしている。
二つのプラットフォームで、HPLの計算を実行する際に誤った計算結果が観察された。ともに引退したシステムである(論文のプラットフォーム番号2と3を参照されたい)。論文の結論として、「これらの結果の特徴は、中性子に起因する過渡故障を示唆している。 」と著者は記している。
まだこれらは予備的な結果であって、まだ先がある。LANLチームの次のステップは、残りのテストプラットフォームの結果を提示し、すべてのテストプラットフォームのFIT数の見積もる事だ。