世界のスーパーコンピュータとそれを動かす人々


9月 25, 2018

京都大学学術情報メディアセンターのきめ細やかな電源管理

HPCwire Japan

データセンターの電力管理は普遍的な挑戦であり、2011年東北地方太平洋沖地震と津波に伴う電力消費の制限が課された京都大学学術情報メディアセンター(ACCMS)ほど挑戦的な所は少ない。 2012年と2016年のHPCリソースの拡張は、定期的な4年置きのアップグレードサイクルの一環であり、京都大学がより細かい制御をできるように促進してきた。この例では、インテルのデータセンターマネージャ(DCM)が大幅に省電力を実現した。

「2011年の東北地方太平洋沖地震でHPCの消費電力を全国的に制限する動きがありました。」とACCMSの研究員で電力消費管理戦略を研究している中島浩教授は述べている。現在のところ、電力消費量は設備関連の問題であり、HPC資源だけではなく、特定の設備に基づいて供給可能な電力の最大量を意味している。

地震の結果として日本全国の原子力発電所が停止して以来、関西地域の電力価格はピーク時に約50%上昇した。 HPCシステムの使用料金には電気料金も含まれているため、ユーザのコストを削減するために電力効率の向上が求められていた。 DCMは、2016システムのリプレースの一環として導入された。

「以前の環境では個々のラックやノードのレベルで電力性能を測定していましたが、個々のサーバーをより詳細に監視するためにIntel DCMを導入することに決めました。」とスーパーコンピューティング部門の疋田淳一氏は述べている。

2018年時点で、ACCMSのHPC環境は3台のシステムから構成されている:Xeonプロセッサを搭載したHPCサーバで構成された2台のクラスタシステム、およびXeon Phiプロセッサを搭載したHPCサーバで構成された1台のMPPシステムである。システム全体で6.5524ペタフロップの計算性能を提供している。

「現在、ACCMS HPCシステムの使用率は、京都大学内が40%で、残り60%は外部です。ユーザ数は年々増えていますが、私たちの方針は、約70%の稼働率を維持して対処できるようにすることです。」と中島教授は述べている。

 
   

ACCMSの深沢圭一郎准教授は、「同じ仕様のCPUでも個体差による消費電力の変動や、電力効率の高いものや電力効率の低いものがあることを確認できました。パフォーマンスの低いCPUでは、CPUが熱くなり、消費する電力が増えます。電力効率を改善するには正確な監視が必要であり、高い電力性能を持つノードからジョブを割り当てることで消費電力が削減されると予測しています。」

実際には、監視値に基づいてスケジュールが設定され、電力効率の高いノードからジョブが割り当てられた場合とジョブがランダムに割り当てられた場合の比較では、70%のノード使用率でも電力消費量が2〜4%削減できることを確認している。さらに、電力効率が最も悪いノードからジョブが割り当てられた場合と比較した場合、ノード使用率が70パーセントの場合でも5〜8パーセントの電力消費が削減された。

「消費電力の2〜4%の減少は小さいように見えるかもしれませんが、年間電力料金が約1億5,000万円に達するACCMSにとっては大きな成果なのです。」と中島教授は述べている。

インテルのケースへのリンク:https://www.intel.com/content/www/us/en/software/reducing-power-consumption-hpc-environments.html