世界のスーパーコンピュータとそれを動かす人々


6月 5, 2015

クラスタライフサイクル管理:キャパシティ・プランニングとレポート

HPCwire Japan

Deepak Khosla

以前のクラスタライフサイクル管理のコラムにおいては、クラスタを日常的にスムーズに運用し続けるための適切な取り扱いに関するベストプラクティスについて述べた。このコラムでは、将来を見据えて、あなたのHPCシステムが来るべきビジネスの拡大の要求を満たすためのキャパシティを持たせるオプションについて検討する。

クラスタの世話をするコラムでは、問題が大きくなる前の小さいうちに検知するようにHPCシステムを日常的に監視を行う重要性について指摘をして締めくくった。システムデータを収集するこのコンセプトは、日々収集する情報は将来のために計画することを助けるために、時間経過におけるより大きな運用傾向の概要を示す事となるため、キャパシティ・プランニングやレポーティングにつながることとなる。

HPCシステムは静的ではない。実際には、ほとんどが2,3年後にメジャーなアップグレード、拡張やリフレッシュを受ける必要がある。そして、おそらく、
これらの変化は事業の拡大に伴うシステムへの新しい要求によって促されるだろう。新規ユーザや新規プロジェクトは変更やアップグレードを必要とするだろう。もしくは、新たなまたはアップグレードされたアプリケーションがより処理能力を必要とする場合も出てくる。

おそらく殆どの場合、キャパシティのアップグレードを求めるトリガーはデータに関連している。今日の世界では、HPCクラスタが解決する問題はさらに大きく、複雑になり、より大規模で複雑なデータセットを処理することを必要としている。キャパシティを増やす事は、時には追いつくための唯一の方法なのだ。

監視とレポーティングはプロセスやアプリケーションがどのくらい効率的に動いているか教えてはくれるが、この情報はシステムが全体としてどの程度ビジーか理解するために解析する必要がある。これらの詳細情報はシステムのアップグレードや変更などの決定を行う上での助けとなるのだ。特に、いつキャパシティのアップグレードを実行するのか、システムのどの部分を変更するのか予測する必要がある。このデータで武装することで、資金を賢明に使う事ができるようになるのだ。

HPCのレポーティング・システムは、いつキャパシティをアップグレードまたは追加するのか、同様にどのようなタイプのリソースを追加するのか決定するのに必要な情報を提供することを助ける。必要となる典型的な解析のいくつかは:

  • 最も一般的に実行されるプロジェクトやアプリケーションは何か?
  • どのようにCPU時間によってランク付けするか?
  • どのようにCPUやメモリ使用率によってランク付けするか?
  • さまざまなアーキテクチャにおけるスループットは(理想的には「内蔵ウィジェット」のようなビジネス指標において)?
  • システムで最も利用が多いユーザは誰か?
  • 彼らのジョブにどのくらいリソースを使用しているか?
  • ユーザおよびプロジェクトごとの演算およびストレージのコスト配分はどうか?

これらの質問に対する回答は場所によって異なることを理解することが重要だ。大規模な組織におけるHPCの実装では非常に一般的である分散アーキテクチャにおいては、クラスタ、エンドユーザ、そしてデータセンターは世界中に広がっていることがある。これらのハードウェアやソフトウェアにおいては場所によっては同じではないことがある。さらに、労働力や電気代のような地域変数はシステムの運用コストに影響するだろう。

したがって、レポーティング・システムに関する真の課題は、複数箇所から集約される情報を提供できるようにすることで、それを分析できるようにすることだ。この分析は地域的、中央的の両方を念頭において、投資収益率(ROI)を用いて行わなければならない。この分析はビジネスの観点から、HPCの使用状況データを調べる必要がある。使用状況のメトリックは収益化されなくてはならないので、キャパシティ拡張の決定はROIに対して重み付けされる。
キャパシティのアップグレードは、組織全体にプラスの投資収益を提供しながら、エンドユーザとプロジェクトへのサービスを最大化させる方法で、計画され実装されなくてはならない。

では、どのようにレポーティングと分析は最もよく処理されるのだろうか?

キャパシティの変更に関するスマートな計画は、確実なレポーティングのデータによって明らかに利益がある。理想的には、データはシステムやスケジューラから連続的に収集され、決定を行わなければならない時に、正しいデータを探すことに時間を費やすより、必要に応じて分析ができるようになっている。

上述のような情報を提供することができるツールはいくつか種類がある。例えば、Gangliaようなオープンソースのチャート・ツール、Cacti、Zabbix等はシステムとネットワークから性能データを収集している。これらのいくつかは、カスタムのメトリックを追加するように拡張できる。いくつかのクラスタ管理にはクラスタの健全性と性能における洞察を提供するレポーティング・ツールも付いてくる。これらのソリューションの殆どはヘテロなアーキテクチャで動作する。

次のレベルは、様々な商用スケジューラのベンダーからでるジョブ固有のレポーティング・ツールだ。知的レベルを変化させながら、基本的なユーザおよぶジョブ情報をできるのだ。一般的にはこれらは各スケジューラで独自のものだ。

より高いレベルにおいては、様々なタイプの上述のソースから洞察を提供できるSplunkのような一般的なデータ分析ツールがある。これらは、かなりの専門知識、カスタマイズ、および効率的結果提供の維持を必要とする。最後に、DecisionHPCのようにプラットフォームに依存しない、HPC専用の分析ツールがいくつかあり、ヘテロなクラスタとスケジューラ用にグローバルに統合された単一の「1枚ガラス」システムとジョブ・レポーティングを提供している。

スペクトルの他の側面においては、HPCオペレーターは自分達独自のレポーティング・ツールを構築することを選ぶことができる。これはまたかなりのHPCの知識を必要とし、同様に、そのソリューションがスケールし、刻々と変化するユーザのニーズを満たし、長期にサポート可能で保守できることを保証するために開発の専門知識が必要である。

HPCの商用利用における採用が増加するにつれて、良いレポーティングと分析を持つ重要性も増加しており、それによって、利用可能な多くのソリューションにつながっている。理想的には、時間とともに変化する傾向がある様々な運用ツールとは独立しており、簡単にサポートすることができ、そして簡単にビジネスのニーズに応じてカスタマイズできるようなレポーティングと分析ソリューションの長期的戦略を持つべきである。

一日の終わりには、システム管理者はエンドユーザとビジネスの進化するニーズを満たす確実なレポーティング・システムが必要なのだ。リソースやキャパシティを増やす必要がある時に、前もって知る事は、予算サイクルに入れて、そしてアップグレードの調達は通常長いリード時間を必要とするので、重要な部分である。リソースをアップグレードする際には、現在と過去の傾向を見ること無しに最終決断や投資の決定は実際的ではないのだ。

次のコラムではクラスタのライフサイクルの最終ステージを話す – リサイクルと再生だ。

Deepak KhoslaはX-ISSの社長兼最高経営責任者である。(www.x-iss.com)