世界のスーパーコンピュータとそれを動かす人々


9月 4, 2013

SLURMを立ち上げ稼働

HPCwire Japan

Nicole Hemsoth

BYU(ブリガムヤング大学)のスーパーコンピューティング・チームのメンバーは、最近、Linuxクラスタのために設計されたスケーラブルなリソースマネージャのSLURMの使用を始めるためのチュートリアルを投稿した。

SLURMは、現在、NUDTのTianhe-1A、D.E.ショー研究所によって構築されたAnton Machine、さらにスイス国立スーパーコンピュータセンターのCray “Rosa”システムとCEAのTera100を含む他のクラスタに選ばれたリソースマネージャである。

 

本質的にSLURMは、指定されたノードのセット上でジョブを起動し、実行し、監視するための枠組みでもあると同様に、排他的または非排他的な方法の両方で、資源を分配する割当メカニズムとして機能する。また、ジョブのキューを操作することにより、スケジュールの競合を管理する。

ローレンス・リバモアのドナ・クロフォードが彼らのBlueGene/LとPurpleシステムでのSLURMの利用について、SLURMを使う事で「数十分から数秒へ大規模ジョブの起動時間」を減らす事が出来た、と述べている。彼女は、「これは効果的に追加費用なしで、追加の計算資源を数百万ドル相当分提供してくれます。それはまた、私たち計算科学者がより効果的に時間を使う事ができるのです。SLURMは非常に多数のプロセッサへスケール可能であり、LLNLで使用する別の必須要素です。これはスケールに相応した解決可能である問題の増大に伴って、物理的なものより大きなコンピュータシステムを利用できることを意味しています。SLURMのスケーラビリティは、予見可能なサイズのコンピュータによって生じる利害関係から資源管理を排除しています。これは大規模並列コンピューティングで起こる最善なことの一つです。」

SLURMユーザが指摘する利点の一つは、比較的簡単に始められ、コア機能の拡張に役立つモジュラー形式の広範囲な配列機能が存在することだ。要点だけのセットアップ(添付のビデオで説明されたもの等)を行いたい人では、起動して実行するだけなら1時間弱ですんでしまう。