HPCクラスタの監視を近代化する
Nicole Hemsoth

皆さんはクラスタ管理ツールは数えるには多すぎると思っているかもしれないが、実はシステム監視については何もないのだ。オープンソースから商用パッケージまでリストは続いている。しかし問題は、大規模クラスタで何が起きているかを、スケジューラ、演算、およびアプリケーションからデータを収集することなどの包括的な方法で統一された視野で一緒に提供するツールがほとんどないことだ。
その利用についての確かな数字はないが、Gangliaがクラスタ監視の面で明らかなリーダーのようだ。X-ISSの社長兼CEOによると、すべてのサイズのHPCショップの約90%が、Supermonのような他の成熟したHPC監視ルーツを使った小さなサブセットと共にそのフレームワークを使っている。
彼の会社は10年プラスの間、大規模および中規模のHPCクラスタのシェアの動きをシステム事業の中で見てきているが、つい最近まで見つけることができなったのは、クラスタが全体的にどのように動いているのか「一枚のガラス板」の視野で見る方法だ。言い換えると、Gangliaや同様のツールの強さをとり、豊富な他のクラスタの監視やデータ管理の能力をかみ合わせる能力が無かったということだ。
公平に見て、特に「より広い世界」がこれらのツールの価値を理解している時から、Gangliaのようなツールの近代化と洗練化は急速に起きていた。Gangliaだけを選んでいるわけではないが(他にも適用な例があるので)、その利用はHPCのホールを越えて急増している。クラウド・サービス・プロバイダ、ハイパースケール・データセンターのオペレーター、そしてビッグデータ型の新しい集団が多数の中から選び出しているのだ。(「Ganglia growth」とGoogleで検索しないで欲しい。それはあなたが探しているものではない。)
既存の監視ツールの中核は、ハードウェアおよび一般的な性能の観点からクラスタで何が起こっているか基本を理解するには完璧であるが、幅広いアプリケーションやプロジェクト性能、ジョブ・コストおよび歴史的傾向関連のものを含んだ実用的な基準で、もっと包括的な視野を提供することはできていない、とKhoslaは語っている。LSF、Torque、PBSなどを含んだ普及しているすべてのスケジューラに見られる解析ツールと結合させたとしても、ユーザは、迅速に咀嚼するために技術的であり、多大な努力無しに調和するには分散し過ぎている結果の散乱したフィールドに取り残されている。
この問題は分散したHPCデータセンターを持っているセンターによって折り合いが付けられている。例えば石油・ガス産業においては、X-ISSは広い視野を構築するための原動力であり、しばしば様々なスケジューラやシステム環境と共に、異なるグラフィカル領域にクラスタがちらばっている。これらのシステムと、運用、アプリケーション、コストおよび性能レベルでの効率を1枚の画面に集約することは単純な仕事でなく、異なるツールを噛み合わせる面倒を引き起こす。
これらのユーザにとって、データを一緒にすることだけが現実的な課題ではない。「HPCユーザはスタックさせるようなものについては本来慎重なのです。」とKhoslaは述べている。「これは、彼らがGangliaや通常のスケジューラ・ツールのようなものを利用している時には、さらに監視や他のツールを追加するつもりがないことを意味しています。」だからこの場合、もっと包括的で結合された監視が必要なのは明らかである。では彼らは何をなすべきか?
解決策は、既存の監視などのツールやコレクタをフックして、すべてのデータは一カ所にあるように感じさせることだ。X-ISSおよびそのクラスタ解析の場合には、データはセキュアなトンネルを介して独自のサーバに供給され、そこで解析のためのリアルタイムもしくは履歴/傾向の表示をポータルを介して処理させるのだ。この方法では、ユーザが自分の監視業務に多くの重みを追加したり、管理するためのさらに別のツールを追加してシステムのパフォーマンスの性能低下を作引き起こす必要はない。
X-ISSが作り出す解析・監視ツールはDecisionHPCと呼ばれ、HPC環境で利用されているほとんどの一般的なスケジューラ(Torque, PBS Pro, LSF, CJM, and Grid Engine)に対応しており、Gangliaや他のカスタム監視ツールでスナップ可能だ。
ユーザはWebインタフェースをにアクセスすることで、クラスタの全体的な動作についていくつかの側面から見る事が可能であり、コスト分析、何に障害があり何がうまく動作しているか測定し精緻化する支援のための性能詳細、そしてもちろん調査結果を克服するか補うか調整するためのノウハウを含んだ新しい有利な視点から物事を見て分析を精緻化させることができる。
ダッシュボードの例を以下に示しているが、ここで注目すべき事はいつ何時でもクラスタに起こる事をリアルタイムの視点でどのように提供しているかだ、とKholsaは語る。異なる場所にあるクラスタで、さらには様々なハードウェア構成での異なるスケジューラ、監視エージェントでさえも監視できることだ。- もう一つのユニークな要素である、と彼は主張している。
彼はこれらの事を既存のツールで行うことが実際には可能であると認めているが、それらはすべて個別であり、洞察の部分的なものしか提供できない。例えば、「Linuxのツールで提供されているものはシステムレベルの測定ですが、ノードレベルまで行かないと行けなくなるので、ほとんどのHPCユーザはそれらのツールを利用することはありません。Gangliaのような他のツールはもっと管理し易い画面を提供してくれますが、技術的でピース毎に行わなければならず、グローバルな画面を見るのは困難です。」と彼は述べている。彼はさらに、CPU、メモリ、I/Oや他の要素で何が起きているのか見ることはできるが、「例えば、月単位でアプリケーションの観点からどのくらいクラスタがビジーなのか答えてはくれません」と付け加えた。現状では、多くはレポートのための独自のツールをただ書いているし、それはまた使い易さと必要な洞察のレベルを提供しないのだ。
「今日、私達の最大規模の顧客は、15,000の監視対象と5分毎の約20から30の測定値を持っています。そして任意の時点で7000のライブ画面を引き出すことができるので。スケジューラの分析ツールはこのような生のレポートを提供できません。目標の一部はアプリケーションのプロファイリングであり、ベンチマークもそうですが、個別のCPU、メモリ、ネットワークスループットも価値があります。」