Titan、全速力の稼働へ移行
Tiffany Trader

ニュースはそれが何であるかという、何がうまく行ったものよりもむしろ何が悪かったのかに焦点を当てる傾向があるが、オークリッジ・リーダーシップコンピューティング施設からのアップデートによると、彼らのCray XK7「Titan」のシステムに関連した初期の不調が解決されてきた。 OLCFの代表は、Titanは「挑戦的な立ち上げを克服しており、現在、印象的な安定性を示しています。」と言う。
「マシンは非常に良好に稼働しています。」とOLCFのHPC事業グループでのタスクを率いているDon Maxwellは述べています。
「ノードの障害は、私たちが予想したものと同等です。」とMaxwellは続ける。 「物事は非常にうまくいっています。私たちはここ5カ月でただ1度の計画外停止を経験し、2014年に入っての計画外停止はありません。」
ユーザアシスタンス&アウトリサーチグループのChris Fusonが似たような意見とマシンの安定性についての手掛かりを報告した。 「それはちょうど、マシンの成熟度を示しています。」
「十分な稼働時間があるため、より多くのジョブがキューを介して取得し、完了するまで実行することができます。」と彼は言った。
「私たちは、必ずしも私たちが通常よりもより多く稼働することを宣伝する必要はありません。」と彼は付け加えた。 「安定性の増加の直接的な結果は、ユーザが改善された経験を持っているということです。」
Titanが届けられたすぐ後に、問題は2回の「ローリング修理」を必要としたことであることを明らかにした。2013年4月8日に、研究所は最初のセットの修理が完了したことを発表した。今、第2セットの修理作業が2013年12月17日に完了したことを明らかにする。その修理は、マシンの約20%をアクセス不能にする区分で行われた。研究所関係者によると、修理が完了したのでマシンは「非常に安定していて、頻繁に利用されている。」
OLCFプロジェクトディレクター、Buddy Blandは、早い段階で幾つかのトラブルシューティングを行わなくてはならないことは、最先端のマシンで普通のこととを指摘している。彼は説明する:「私たちは、非常に大きな、世界初のシステムを何度も見てきたように、非常に多くの異なる場所に非常に多くの異なる部分があるという理由だけで、どこにも見つけることができなかったかもしれない異常や製造上の欠陥が見つかる可能性が高いものです。」
修理に対処し、そのフル稼働能力をTitanにもたらすことは、協調活動の結果であった。Maxwellは、4人のCray従業員とTitanの健康維持を任務としている3人のORNLのスタッフを率いている。任務は、ソフトウェアアップグレードのための予定停止時間の計画、および短期的と長期的な問題を常に把握するためのトラブルシューティングが含まれている。24時間/7日のサポートを提供することは、そのチームメンバーがコールにいる交代を意味します。
Maxwellはまた、新年以来、任意の計画外停止や障害停止が行われていないと付け加えた。ジョブがより少ないリスタートを伴って完了することが出来た時、全体的なユーザ体験を向上させることができる。その数値は、通常の可用性と利用率よりも高く、これを反映している。 2014年1月1日以来、OLCFユーザがTitanで110,587ジョブを完了し、 1,611,330,832コア時間を使用している。 2014年のINCITEプロジェクトの合計使用量は、割り当て周期内のこの時点でこれまで以上に高くなっている。もうひとつの興味深い状況は、性能使用度が高い事であり、今年、全ての割当てを横断してTitan上でこれまで使用された時間の62%が、リソースの20%以上を使用したジョブによるものである。