世界のスーパーコンピュータとそれを動かす人々


12月 18, 2013

高エネルギー効率なHPCデータセンターへの道

HPCwire Japan

Hayk Shoukourian, Leibniz Supercomputing Centre

エネルギー効率は急速に多くの近代的な高性能コンピューティング(HPC)データセンターのための重要な要因となっている。 これは、HPCシステム環境(システムハードウェアとシステムソフトウェア)、ホスティング機能とインフラストラクチャ(冷却技術は、エネルギー再利用、電力供給網等)、およびアプリケーション(アルゴリズム、パフォーマンスメトリックなど)を覆い、総合的かつ一体的に対処する必要がある様々な課題をもたらしている。

現在のHPCデータセンター内に存在する管理方式の殆どは、HPCシステム環境、ホスティング設備および基盤の間でデータを共有することができない。しかし、次のような目的のためにデータセンターのすべての側面からデータを収集し、相関させることが重要である; データセンターの様々なコンポーネント間の相互作用をより良く理解; スポット改善の可能性; 任意に導入した改善策の評価。 データセンター内に存在するエネルギー消費の統一ビューを可能にするエネルギー効率関連データの完全な収集をし、相関させる事を支援するツールが今のところ無い。

そのような理由から、冷却および建物基盤からのデータをHPCシステムに組み合わせた包括的な方法で、スーパーコンピューティングサイトのエネルギー消費量を監視し、分析することができる新しいエネルギー計測評価ツールセットをバイエルン科学アカデミー(BAdW-LRZ)のライプニッツスーパーコンピューティングセンターで開発している。パワーデータ集計モニタ(PowerDAM)という名前のツールは、ソースシステムから独立したセンサデータの収集および評価を可能にし、HPCシステムだけではなく任意の他の基盤も階層ツリーとして表し、監視することができる。 それは物理的なセンサーだけでなく、いくつかの物理的なセンサーの異なる機能組成を表すことができ、仮想センサーを監視します。

PowerDAMは、ITシステムや建物基盤のような要求された監視対象のエンティティを定義するためのプラグインフレームワークを提供する。各監視対象エンティティのための2つのプラグインインタフェースを提供する:ひとつは、センサデータの収集のためのものと、もうひとつは、システム資源監視ツールからアプリケーション関連データ(例えば、計算ノードの利用状況やアプリケーションの起動・終了のタイムスタンプ等)を収集するためのもの。

PowerDAMは、BAdW-LRZにおけるエネルギー効率関連研究の基礎となるフレームワークである。

評価と報告

Energy-to-Solution(EtS)は、計算ノードと部分的なサブシステムコンポーネント(例えば、システムネットワークやシステム冷却)利用のエネルギー消費量から成るアプリケーションの集約されたエネルギー消費量を意味するPowerDAMにとって重要なメトリックである。

図1は、CoolMUC MPP Linuxクラスタ上で実行されるアプリケーションについてのEtSレポートを示す。レポートの最初の部分(パートI)は、タイムスタンプ、センサー名、値と単位の順ですべての利用コンポーネントのセンサー測定値を示している。

20131029-F1-2

図1:CoolMUC MPPのLinuxクラスタ上で実行されるアプリケーションに関するEtSレポート

第II部では、が無効(測定ミス、境界外のデータ等)であると考えるソースの測定データのすべての近似値を示している。 パートIIIは、実行されたアプリケーションの集約エネルギー消費量(EtS)を示し、計算、ネットワーキングおよび冷却の消費割合に関する情報を提供する。

アプリケーションのEtSを計算する能力は、ハードウェアの適応(例えば、静的/動的な電圧周波数スケーリング)を介して外部と同様に内部アプリケーション(アルゴリズム、メモリアクセスパターン等の変化を経由して)の更なる理解とチューニングを可能とする。

PowerDAMは、次のような様々な視覚化オプションを提供する;消費電力、使用率、使用計算ノードの平均CPU温度;これらのノードに関する電力と負荷の間の相関関係;異なるEtSレポート;および特定の時間枠(例えば、日、月そして年)に関するシステム電力消費。図2は、これらのいずれかのオプションを説明する・・・特定のユーザによって実行されたすべてのアプリケーションに関するEtSレポート(計算、基盤、冷却およびネットワーキングの割合をEtSに並列で包含)。

20131029-F1-3

図2:特定のユーザによって投入されたすべてのジョブのEtSレポート

PowerDAMの「ノードマップ」ビューは、特定のセンサータイプに関する計算ノードの動的挙動を表示する。このビューは、任意に指定された時間経過の後で自動更新され、そして計算ノード(図3)の動作を分類するためにカラーマッピングが使用されている。

20131029-F1-4

図3:CoolMUC Linuxクラスタについての計算ノードの活用マップ。 緑色は、96%~100%の利用範囲を例示。 白色は、0%と90~95%の利用範囲を例示。 赤色は、1%~89%の利用範囲を例示。(すべてのクラスタの計算ノードが描かれてはいない)

「ノードマップ」ビューは、異なるセンサータイプ間の相互接続を理解するために必要不可欠であると言うことができる。例えば、CPU温度(図4)と利用率(図3)を相関させると定義された計算ノードの利用率とCPU温度(ノード lxa130とlxa17)の間の相互依存性の調査を可能とする。

20131029-F1-5

図4:CoolMUC Linuxクラスタ(計算ノードあたり2基の8コアAMD CPU)に関する計算ノードの温度マップ
(すべてのクラスタの計算ノードが描かれていない)

さらなる開発によりPowerDAMは、次の事が可能となる:消費電力、ランタイム、性能およびエネルギー消費量に応じたアプリケーションの分類;リソース管理システムの強化のために必要なデータの提供;そしてPUE、ERE、DCiEの、WUE等のようなデータセンターの主要性能指標(KPI)に関するレポート

PowerDAMに関するより詳細な情報は、第1回持続可能性のための情報通信技術に関する国際会議の予稿集に含まれる「統合エネルギー効率評価ツールセットに向けて:ライプニッツスーパーコンピューティングセンター(LRZ)でのアプローチとその実装」(DOI 10.3929/ethz-a-007337628.)に公開されている。

PowerDAMの開発は、基金契約番号RI-283493に基づき欧州連合第7次フレームワークプログラム(FP7/2007-2013)からの資金を受けた作業パッケージ 「プロトタイピング」の中でのPRACE第2次実装フェーズプロジェクトPRACE-2IPと、基金番号01IH13007Aに基づきドイツ連邦教育研究省(BMBF)からの資金をSIMOPEKプロジェクトと共に受けた事によって可能となった。作業は、ドイツ・バイエルン州の支援を受けたBAdW-LRZにあるPRACE研究基盤リソースを使用して達成された。

著者は、貴重なコメントとサポートを受けたJeanette Wildeに感謝したいと思いう。

著者所属

Hayk Shoukourian(1,2)、Torsten Wilde(1); Axel Auweter(1); Arndt Bode(1,2)

(1) ライプニッツスーパーコンピューティングセンター(BAdW-LRZ)/バイエルン科学・人文科学アカデミー

(2) ミュンヘン工科大学(TUM)、情報科学科