世界のスーパーコンピュータとそれを動かす人々


1月 21, 2015

クラスタの展開と検証方法

HPCwire Japan

Deepak Khosla

以前のクラスタのライフサイクル管理のコラムでは、ニーズに適合するクラスタを構築するための正しいベンダーを選択するための最高の練習について検討した。一旦、あなたのチームがベンダーを選び、新しいシステムの購入を確定したならば、次の重要なステップはHPCクラスタの展開と検証だ。

ベンダーの選択プロセスの一部として、私は提案価格の中に展開と検証サービスを含むよう候補ベンダーに依頼するように推奨している。全てではないにしろ、ほとんどのHPCシステムのプロバイダーは販売するハードウェアやソフトウェアをインストールして、すべてが正しく動作することを確認することができる。場合によってはベンダーは、熟練したHPCプロフェッショナルに、この作業の一部を委託することもある。

もしHPCに精通したIT部門があるならば、展開を自分でやった方がお金を節約できるが、このオプションは十分に考慮する必要がある。あまりにも多くの状況において、予想外の障害が起きている間、私は高価なクラスタがアイドルのままであることを見てきた。この停止時間は、内部のスタッフを使って展開することで期待していたコスト節約を一掃することになる。

展開責任者が決定し、最終の売買契約が締結されても、HPC選定チームの仕事が終わったわけではない。次に、内部関係者による同じグループは展開と検証フェーズに注意を払わなくてはならないのだ。

このチームの最初の仕事は直ぐにクラスタが設置される施設の準備である。チームは、選ばれた現場がハードウェアを収容するに十分なスペースを持っているか確認しなくてはならない。また、システムと冷却用の空調設備を動かすための十分で信頼性のある電力も必要だ。近くの施設では適さない場合もあるだろう;その場合、コロケーション施設も選択しなくてはならないだろう。電力を見る場合には、ベンダーに対し正確な電圧/位相/プラグの仕様を提供する特別な注意を払う。正しい電源接続ケーブルの提供は通常ベンダーの責任だが、正確な仕様を事前に必要とする。現場のインストール準備ができたら、展開を始めることが可能だ。

大規模クラスタでは、HPCベンダーは通常出荷前にオフサイトでクラスタを「ラックして積み上げる」、これは簡単に施設にラックを運び入れて指定の場所に置くことができることを意味している。そして、ラックは互いに接続され、電源に接続される。インストールおける重要なステップは、容易に識別できるように機器とケーブル接続にラベルを貼ることだ。

次に、ベンダーはハードウェアに電気を投入し、各部品が機能することを確認し、連続運転試験を実施する。オンサイトまたは出荷前に、ベンダーは、機器が様々なシステム部品をサポートするために、最新版のバイオスやファームウェアが入っているかどうか確認している。

次の重要な展開フェーズはオペレーティングシステムとソフトウェアの搭載だ。ほとんどのベンダーはオペレーティングシステムやHPCソフトウェアスタックのノードへの展開にクラスタ管理システムパッケージを使うだろう。具体的にはこの特殊なソフトウェアはノードが一貫して設定されていること、オペレーティングシステムから正常に起動し、すべてが同一のソフトウェアスタックを持っているを保証している。ノードが一貫性のあるイメージで設定されており、ヘッドノードへの接続があるならば、実行されるアプリケーションにとってはすべてが同じに見えるはずだ。また、ソフトウェア変更の展開などの必要がある場合、ノードへの再展開時間を大幅に削減する。

展開はクラスタで必要とされる外部ストレージの設定が含まれることもある。最後に、適切なスケジューラーとアプリケーションが適正に構築され展開される必要がある。

これでクラスタは基本的な検証の準備ができた。ベンダーは特にノードとクラスタを試験するために設計されたソフトウェア・スイートを実行する、通常はHigh Performance LINPACK(HPL)だ。あるいは、これらのスイートはメーカー固有のものでHPCスタックと一緒に出荷されているかもしれない。例えば、インテルはIntel Cluster Readyと呼ばれる独自のクラスタ固有の要件プログラムを提供している。オンラインの検証アプリケーションも利用可能だ。さらに、試験はあなたがリクエストするかもしれないし、特定の利用事例やアプリケーション用に特別に設計されているかもしれない。

一般的には、ノードを検証する最初の試験は個別に機能し、その後クラスタとして一緒に動作することを確認する。基本検証中に識別される問題のいくつかは、特定ノード内のメモリ問題やノード間のインターコネクトエラーだ。各インターコネクトとデータストレージドライブを試験するために、ツールがスイートに含まれていることもある。

多くの場合、ベンダーはこの時点で検証試験を完了する。しかし、私は追加の検証とプロセスの一部としてのベンチマークを推奨する。上位の基本的なクラスタ検証試験が完了したら、スケジュールを介してジョブを投入し、クラスタの端から端まで実行できることを確認することによって、アプリケーションの設定を試験することが重要だ。この時点でようやく、新しいクラスタが完全に稼働している自信を持つことができるのだ。

一部のベンダーは追加の作業を行い、ベンチマーク試験を行ってどの程度の効率でクラスタが動いているか確認する。例えばHPLベンチマークは実際の計算を行いながらHPCシステムが解に到達する速度を測る。結果はクラスタの性能のベースラインとなり、あるベンダーはシステムを微調整するためにこの情報を活用し、様々な設定を変更し、さらに大きなパワーとスピードを搾りだすのだ。

検証中の問題が解決し、ベンチマークのスコアが許容できると想定すると、ついにHPCクラスタは運用の準備が整った。

展開と検証に要する合計時間はシステムのサイズで変わる。例えば、16や32ノードで構成される小規模のクラスタじゃ運用できるまでに1週間程度かかり、一方200から300ノードのシステムは全体構成の複雑度や検収試験の要求に応じて1,2ヶ月掛かる。ベンダーがあなたの施設でのインストールや出荷前に多くの作業をオフサイトで行うならば、これらの時間はもっと短くなるだろう。

内部ITグループのメンバーはいくつかの理由で展開と検証の間中、近くにいるべきだ。計画通りにプロセスが進行することを保証することが重要だし、ベンダーの邪魔になることなく観察していれば、チームはどのように機器が接続されているか理解することができるだろう。ほとんどのベンダーは「知識移転」セッションを持ちたいと思っているが、作業進行中は進行を遅くしないために、展開と検証が完了するまでこれはお預けとなる。

さあ、新しいHPCクラスタを使って、効率的に動作が継続することを確認するときだ。次のコラムでは「クラスタの適切なケアと飼育」についてカバーする。

Deepak KhoslaはX-ISS社の社長兼CEOである。