世界のスーパーコンピュータとそれを動かす人々


10月 27, 2014

クラスタのライフサイクルを通してHPCニーズを評価

HPCwire Japan

Deepak Khosla

多くの組織では、HPCクラスタは最も高価で複雑なIT投資にランクされている。購入から更新までにおいて、これら複雑なシステムを他のIT資産とは違うユニークなライフサイクルの間中、積極的に設計、管理、運用しなければならない。

急速に変化する市場の中でROIを最大化するために、実践的なアプローチが必要だ。このコラムシリーズでは、初期のニーズの評価から、ニーズにマッチする設計、ベンダー選定、展開、保守、そして最後にリプレースステージまでのクラスタのライフサイクル管理を通して話を進めていく。

まずあなたはスーパーコンピューティング・クラブに入会することに決めた、では何をする?理想的には最初の仕事は、HPC技術の面で何が必要か正確に把握するためにニーズの評価から開始することである。

簡単に言うと、クラスタの利用目的と予想されるビジネスへの収益を理解することだ。クラスタの利用目的事例を理解することで正しいアーキテクチャと部品を備えた正しいサイズのクラスタを選択することができる。需要には小さすぎるクラスタを買うと、この先何年も予期せぬ支出に必要なお金が必要となる。必要以上に大きなクラスタを買うと、ROIが低い投資でお金を無駄使いすることになる。あなたがHPCが問題を解決するだけであったことを納得させるために懸命に働いた経営陣はどちらのシナリオも忘れそうにない。

ニーズの評価はクラスタで実行するアプリケーションと計算の種類を理解することから始まる。もしスタッフにHPC専門家がいれば、どのような担当者がクラスタを使い、どんなワークフローなのか、そしてどんなアプリケーションソフトウェアが展開されるのかを分析させることだ。このようなケースでは、HPC専門家はアプリケーションベンダーもしくは開発者と、必要とする理想的なノード数と種類および最適なオペレーティングシステムを決めるために協力する。もしスタッフにHPC専門家がいなければ、ユーザ要求とシステム需要を把握するために、ハードウェアおよびソフトウェアベンダーにクラスタのユーザと事業部門と協力することを依頼する必要がある。

具体的にはHPC専門家もしくはベンダーは、組織内の典型的な利用方法や各アプリケーションの性能やプロファイルを知りたいと思うだろう。

  • 任意の時点でどのくらいのユーザがアプリケーションにアクセスするのか?
  • そのアプリケーションは大きなワークフローの一部なのか?
  • どのように端末からアプリケーションを実行するのか?

これらの質問は、利用目的、性能や運用の目標に合致し、並列処理におけるクラスタの全体的な効率を最大化するための計算クラスタ(ノードタイプおよびインターコネクト)の設計をスコープする助けをするのに主要なものだ。

次に考慮するのはストレージの容量とI/O性能であり、どのくらいユーザが計算の入力および出力用のデータにアクセスするか決定することだ。

  • 入力データはどこにあるのか、どのように出力データを取得し結果を可視化するのか?
  • どのように他の人と仕事をシェアする計画なのか?
  • 入力および出力ファイルはどのくらい大きいのか?

最初のクラスタの需要要求に加えて、クラスタの将来の利用と拡大のニーズ評価も考慮すべきである。時間と共に利用がどのくらい拡大するのか理解するために、クラスタに関連するビジネスおよび技術ロードマップを見ることは重要である。その組織は2倍のクラスタユーザを持つかもしれない、クラスタに新しいアプリケーションが追加されるかもしれない。どちらも計算能力やメモリ、ストレージ、帯域および高可用性などの追加のクラスタ資源や能力を必要とする。

クラスタのハードウェアとソフトウェアが決まると、クラスタ管理のもっと実際的な検討を行わなくてはならない。インフラが最初に来る。システムのインストールのために適切な冷却と電気ネットワークを持ったスペースがあるのかどうか組織は尋ねる必要がある。将来の簡単な拡張を確保するために、計算能力の拡張、スペースの拡張も同様に評価されなければならない。

クラスタに高可用性(HA)は必要か?HAは主要なクラスタの部品に障害が発生しても、ユーザが利用可能なようにシステムを維持することを確保するものだ。これは冗長コンポーネントを意味しており、ヘッドまたはマスターノード、スイッチ、ストレージやネットワーク装置のような重要な部品を二重化することだ。要求する冗長性にもよるが、HA部品の採用はコスト、設計、構成、複雑な管理およびインフラに重大な影響を及ぼす。

それから、クラスタに必要とされる一連の特有のツール、アプリケーションおよびサービスを考慮する必要がある。どういうわけか、クラスタ全体を構成するすべてのハードウェアおよびソフトウェア・コンポーネントは相乗的に運用しなくてはならない。いくつかのサービスはクラスタの運用に必要だし、他は任意だ。同様にいくつかのクラスタツールは必要だし、他は便利なだけだ。クラスタ用のサービスやツールは異なり、選択するオプションはとても多くある。選択肢や能力を決めることは、クラスタの利用者および管理者にとって重要な決定である。

典型的なITスタッフを抱える組織は、HPCクラスタを世話して維持するための専門知識を個人的に欠如していることを知ってがっかりするかもしれない。そのような組織は新しい人材の採用もしくは、継続的な監視、率先したクラスタ管理、分析およびシステム運用のレポートを行う管理業務のアウトソーシングを検討しなければならない。クラスタ管理のために人材およびサービスは、痛みを伴う選択肢を与えられたニーズ評価の中で考慮されなければならないのだ。

このコラムシリーズでは、HPCクラスタの多くの問題点とコンポーネントにさらなる光を当てていく。次のコラムでは、ニーズ評価の結果があなたのために働くHPCクラスタの設計にマッチできる方法につて議論する。特に、どのように正しいノードタイプ、インターコネクト、オペレーティングシステムおよびデータストレージをニーズに基づいて選択していくか取り上げる。