スーパーコンピュータの殺し方:専門家からの助言
John Russell

あなたの1日が悪くなっていると考えていますか?IEEE Spectrumに掲載されたAl Geistのスーパーコンピュータが壊れる多くの方法に関する記事で気分を高揚させてみよう。オークリッジ国立研究所の計算機科学および数学部門のチーフテクノロジストであるGeistは、スーパーコンピュータの成果を固めるために、不快な傾向と伴に厄介者の活発な記述を書いている。
彼の記事である、スーパーコンピュータの殺し方: 電源不良、宇宙線、およびハンダ不良は、哀れなメモリ・レーンを掘り下げたものではないが(そう、メモリ破損はあるのだ)、多分エクサスケール・マシンを苦しめる課題となるだろう。例えば、エクサスケール・マシンのためのDOEの20MW目標を達成するために必要なより小さいトランジスタ(低電圧)は、オンとオフの自発的な反転のためにそれをより敏感にするだろう。耐故障性のメカニズムは新しい高さに到達する必要があるのだ。
Geistは次のように書いている、「私はマシンがクラッシュする障害について多くを話してきましたが、実はそれらは最も危険というわけではないのです。もっと恐ろしいのは、アプリケーションを最後まで走らせ、見た目は正しいが実際には間違っている答えを得ることなのです。このような計算を使って設計された旅客機に乗りたくはないでしょう。もしくは、そのような新しい原子炉を保証したくはないでよう。このような検知されないエラー(そのタイプ、頻度、影響)はクローゼットの中のスーパーコンピューティングの怪物の最も恐ろしい側面なのです。」とGeistは書いている。
可笑しく聞こえるかもしれないが、Geistの作品は面白く、速く読める。こちらにIEEE Spectrumの記事へのリンクがある。http://spectrum.ieee.org/computing/hardware/how-to-kill-a-supercomputer-dirty-power-cosmic-rays-and-bad-solder