世界のスーパーコンピュータとそれを動かす人々


7月 20, 2016

ローレンス・リバモア、エクサスケールの電力要求に立ち向かう

HPCwire Japan

Tiffany Trader

古い格言に、「測定できないものは、向上させる事もできない。」というのがあるが、今日のユビキタスデータの時代において新鮮に聞こえる。 エクサスケール・コンピューティングの課題を検討する場合に、電力はそのリストのトップにある。現状では最大規模のマシンでピーク時電力が10MW、そして来るエクサスケール時代にはその3倍近くになる可能性のある電力需要を管理するために、主要なリーダークラスのセンターでは、できる限りの対処を行おうとしている。このレベルの負荷になると、大規模HPC施設では関連する多くの電力情報を把握する必要がでてくる。

国の核安全保障を委託されたエネルギー省(DOE)の中核施設であるローレンス・リバモア国立研究所(LLNL)においても、電力需要を管理することは優先課題だ。 20ペタフロップス級の旗艦スーパーコンピュータであるSequoiaは、9MW以上電力を消費している。それは1,000軒の家庭の電力消費量よりも大きいのだ。

数十メガワットの電力を消費するとなると、変動する電力需要と電力供給のバランスをとるために高度な電源管理が必要とされる。これには、調和の取れた組織と運用施設全体ならびにエネルギーグリッドに関するリアルタイムな状態把握が必要だ。わずかな電力中断が、高性能コンピューティングジョブをアボートさせるだけでなく、電力グリッドを混乱させてしまう。

エクサスケールでの電力需供のバランスをとるという課題に直面したLLNLはOSIsoft社に支援を求めた。 OSIsoft社は、データの収集、集約、蓄積に関するアプリケーションにそのルーツを持っている。OSIsoft社は、LLNLがコンピュータのラック、冷却システム、電力機器やその他の装置からのから運用データを追跡・分析し、そのデータを中央の制御ポイントに蓄積することを支援する。これにより、Anna Maria BaileyのようなLLNLのHPC施設管理者が、効率性の向上を見いだし、どんなデータが重要かを探り出し、リアルタイムで電力会社と間で負荷需要の予測を調整することが可能になった。

OSIsoft社のソフトウェア製品であるPI(パイ)システムを導入して以来、LLNLはいくつかのメガワット級の電力動揺を含む厄介な異常事象を識別できるようになった。LLNLの施設はLEED Goldも取得している。ピーク性能が120から150ペタフロップス級となるリバモアにおける次期大規模HPCシステムSierraに対して、着実にその運用の確実性を増加させていると報告している。

OSIsoft社は、各施設から精度の高いデータを収集、統合、蓄積するソフトウェア・プラットフォームを構築するビジネスに35年に渡って従事してきた。OSIsoft社は、所謂センサーデータを取り込んできた。今では、ビッグデータやIoTを呼ばれるものだ。そして過去データの追跡や予測分析だけでなく、リアルタイムの意思決定を可能にしたのだ。

OSIsoft社は精練業界で事業を始めた。その後、製紙業界、石油・ガスの精製業界、金属・鉱業業界へと事業を展開した。最近の10年間では、顧客リストにデータセンターを加えるようになった。 「それは非常に論理的な展開でした。何故なら我々は従来から重工業に関与していたのです。今でもデジタル時代の重工業に関与しているというわけです。」と、OSIsoft社の連邦政府および公共部門担当の副社長であるSteve Sarnekiは語った。 「データセンター、特にHPCデータセンターは、文字通り将来の工場であり、それらが生成するデータは私たちが創り出したPIシステムソフトウェアと非常によく適合するものです。」

OSIsoft社の製品がeBay、およびDell、HPなどのような商用データセンターに展開されたときに、OSIsoft社はインターフェースとデータ収集ソフトウェアを構築し、より良い意思決定を行うために、それらの機器の特定な部品群や様々なシステムからデータを収集できるようにした。

Sarnekiはさらに、米国内で作り出される電力の約80%がPIシステムを介していることを表明した。米国内で電力を供給する独立システム運用者(ISO)の100パーセントがPIシステムを利用し、104の核ライセンシーのうち78はPIシステムを利用し、104の核ライセンシー全ては原子力規制委員会へデータを提供している。原子力規制委員会はPIシステムの連邦政府ユーザーの一人であり、PIシステム上で緊急対応を監視している。

製品がリバモアのために変更されたかどうか尋ねられたSarnekiは、全く同じ製品であると述べた。彼の会社は、ソリューション・プロバイダーとしてだけではなく、ビジネス上の問題を理解する専門家のためのツールセットを提供している。

「リバモアでの私たちの仕事は、キャンパスに分散されている種々のセンサと接続し、そのデータを必要とする知的資源であるコンピュータシミュレーションや科学者の手に届くようにすることなのです。彼らはこの大量のセンサ群の前に立っているかのように、そのデータへ瞬時にアクセス可能なのです。」とSarnekiは述べた。

OSIsoft社とリバモアとの関係は2010年に遡る。LLNL・HPC・ファシリティマネージャーであるAnna Maria Baileyは、HPCのマスタープランの開発に関連してその関係が始まった、と説明した。 「私達はペタスケールさらにエクサスケール・コンピューティングをどのように達成するのかを検討していました。私達はマスタープランを作成しました。その中には、沢山の中核技術を含んでいました。持続可能なHPCソリューションから、計算流体力学、ベンチマーク、既存のHPC機能の活用、LEED認定の促進、フリークーリング、液体冷却、革新的な配電、ギャップ分析の開発、そしてもうひとつの課題は電力管理でした。」

マスタープランの検討に当たって、データの必要性が語られるが、データはリバモアの施設のものにもかかわらず、HPC施設内のすべてのデータに簡単にはアクセスできなかったと、Baileyは語った。例えば、特定トランスや計測データや特定チラーの流量を求めた際に、様々な問題に遭遇した。データフォーマットが異なる、最新データでない、不十分な頻度での計測、必要とされた時のみのダウンロードなどが発生した。

リバモアは、これらデータを集めることができる組織を探し始めた。そして電力業界の電気技師であったBaileyはOSIsoft社の事を知っていた。そのソフトウェアが彼らが探していた機能を持っていることが判明した後、両者の新たな関係が構築された。

「PIソフトウェアは、私達が所有していた膨大なデータを一箇所に集める事を可能にしてくれた。」と、Baileyは述べた。「私達は、単一のソースにデータを集約する必要がありました。必ずしも共通のダッシュボードに表示する必要はありません。必要なのはある種の能力でした。実際に共通のプラットフォーム上に操作可能なデータを集約すると、どのデータが有意であるか判断できるようになりました。」

PIシステム以前のリバモアでは、異なるタイムスタンプとフォーマットのために様々なソースからのイベントを相関させることができなかった、とBaileyは述べた。共通のタイムスタンプとフォーマットをもつOSIsoftの機能とPIシステムにより運用イベントを実行し、内部および外部データソース全てのリアルタイムデータ管理のインフラストラクチャを構築できた。

PIシステムはリバモアにおいて、ラックレベル、機器レベル、計測器レベル、建物レベル、管理レベル、電力会社レベルからデータを持ってくる事を可能にした。数百ものリアルタイムデータストリームのインターフェースを介して、Baileyと彼女のチームは大量のデータを管理収集し、評価し、分析し、リアルタイムデータに変換することができるようになった。PIシステムは、チームにトリガーやアラームを送信し通知する機能を提供し、さらに意思決定をサポートするための視覚データを提供する。

「私達の全体的な目標は、電力利用を下げ、明確にエクサスケールを実現する事です。それは長期的な目標なのです。何故ならこれらの資源をうまく使う事が出来れば、施設と設備基盤をもっと有効に管理することができるのです。」と、Baileyは述べた。 「2017年に稼働するSierraは、全てのラックはSequoiaの様に計測され、全てのデータはPIシステムに集約される事でしょう。」

プロジェクトは、設備運用ツールとしてスタートしたが、その後チームはSLURMから資源管理情報を入手するようになった。今では、それを使用する何人かの科学者がおり、彼らはそれを解析している。彼らはデータをPIに集め、PIからデータを移行させて解析している。相関するタイムスタンプを細かく調整することが可能になった。

施設チームは、そのデータを性能向上のためだけでなく、異常発見のためにも使用している。Baileyは、以下の例をあげた。彼らはSequoiaの設置中に、負荷の大きな変動に遭遇した。9.6 MWから180kWに消費電力が落下したため、8MWを超える一時間内の変動が繰り返し発生した。メンテナンスが原因として考えられるが、マシンを落としたためでは無いとの主張があった。しかし、Baileyのチームは電力会社と協力して、そのデータをメンテナンス期間と相関させることができた。

「PIは、電源に関するイベントスタンプをピックアップできるだけでなく、冷水プラントで何が起こっていたか、凝縮水プラントで何が起こっていたかをピックアップできるので、私達はある時間帯にそれらの相関がある事に気づきました。」と彼女は説明した。 「どこに問題があるのかの手がかりを得ることができ、実際にメンテナンスのシャットダウンを行うにも、その枠組みを得ることができました。まず一定程度電力を低下させ、例えば7.5 MWから5.5MWに落とし、しばらく待機して、その後シャットダウンを再開させる事により、時間当たりの変動を小さく抑えることができました。」

他にも分析的な利用例がある。LLNLの仕事仲間であるデータ・サイエンス・グループのGhaleb AbdullaはCabと呼ばれる大容量施設のPIデータを扱っている。彼がデータを集め解析し、それをノード上のデータと相関させ、そして視覚化を行う。その結果、有効なデータを取得できるセンサ位置群を正確に特定する事ができた。

Abdullaはまた別のプロジェクトに取り組んでいる。同じアーキテクチャで、液体冷却システムの場合と空冷システムの場合の違いを施設レベルからラックレベル、さらにはノードレベルにいたるまで、どのように分析するのが良いかを研究している。

「PIは一箇所にすべてのデータを持っているので、いいですね。」とBaileyは同僚を感想を伝えた。「装置のインターフェースはそれぞれ違います。PIのインターフェースノードは装置と接続できれば、SQLであろうと、HTMLであろうと、Modbusであろうと、BACnetであろうと、オープンプロトコルであれば、データを入手することができるようになります。これ程柔軟なシステムは他に例をみません。そこがPIの素晴らしい所です。データを取り込むだけでなく、取り込む前にデータの操作も可能です。そして不整合なデータを見つける事ができます。それがPIシステムの良いところです。」

Baileyと彼女のチームはさらに多くの利用例を求めている。彼らはエクサスケールクラスの電力需要を満たす為にその保証を提供できる「統合グリッド」に関する調査を行っている。GhalebとBaileyは協力して以下の項目の戦略を考え出そうとしている。きめ細かい電力管理、粗いレベルの電力管理、ジョブスケジューリング、バックアップ・スケジューリング、シャットダウンそして負荷の遮断について。

「エクサスケール時代になると20-30 MWのマシンが登場します。そのピーク時とシャットダウン時の差が供給側にとって大きすぎます。これが私達にとって大きな課題なのです。」と、Baileyは言う。 「私たちは、実際にPIを使用している電力供給会社のひとつと打合せをしました。将来における私たちの目標の一つは、私たちと彼らでデータを共有することです。彼らもまたDOEの一員です。私達は彼らとのコラボレーションを検討しています。しかしそれは2022年まで解決すべき大きな挑戦なのです。私達はどのように電力グリッドの統合をすればいいのでしょうか?エクサスケールマシンを持つ施設、それは2万平方フィートの空間で20~30 MWを消費するというのですから気違い沙汰です。私達はどのようにその環境をモニタリングすればいいのでしょうか?私達はどのように電力需要の変化に対応すればいいのでしょうか?グリッド統合の実装に際して、電力管理システムに対してどんなエネルギー・トランザクションが必要になるのでしょうか?私達はそれらの事を詳細に検討していますが、もう少し時間が必要です。その詳細な検討の為にもPIを大いに使う必要があります。」

リバモアは、PIによる実際の結果を報告している。Baileyは、HPC関連の全てのデータセンターでPUE(Power Usage Effectiveness)の改善を見た、と述べた。機械系システムでは、PIが収集している環境モニタリングデータから漏洩問題がある事を見つけた。散発的にオンラインになるチラーは、実際にPIが発見した機械的な問題を抱えていた。Baileyは、ビル管理システムは十分に長い期間のデータを保持しておらず、PIに入ってくるデータによってそのチラーがいつが動作したのかを明らかにする事ができたと指摘した。システムを再プログラムすることにより、冷水の使用量を減らすことができた。

今のところ、リバモアはHPC施設における唯一のOSIsoft社の顧客だ。 PIシステムを導入する他のセンター見通しについて尋ねられ、Baileyは、必要性はあるが縦割り組織が壁になっている、と語った。

「私達の組織はHPCの縦割り組織にはなっていません。私の上司は、システム管理の管理職ですが、施設の運用管理の管理職でもあり、さらにシステムエンジニア、システム・アーキテクトの管理職でもあります。HPCを生活しているようなものです。私達は整列して一糸乱れず動いているのです。」と、彼女は言った。 「他の研究所では、施設管理者やシステムエンジニアは他の組織に属しており、縦割り組織になっています。そのため、彼らは自分のラインマネージャーと100%一致しているわけでなないのです。その結果、本当にこれが必要だとラインの管理職を説得するのが難しくなるのです。基本的な合意がプログラムマネージャーに影響を与えるのです。私達はプログラムマネージャーの支持を得ており、それは重要な事なのです。」

「その様な支援が得られない場合は難しいですね。他の研究所でもこれまで見てきたのは、多くの人がやりたいと思っても、実際には完全な支援を得る事ができず、最後には誰がお金を出すの?になってしまうのです。私達の組織では、皆が同じ方向を向いて、同じ事にフォーカスしています。状況を改善するために必要な事は、エクサスケールが共通の目標になり、全員が一列になって揃う事なのです。そうなった時には、支援を得ることができるのです。」