世界のスーパーコンピュータとそれを動かす人々


8月 22, 2019

ロシア最速のスーパーコンピュータ、Lomonosov-2

HPCwire Japan

ほぼ5年もの間、Lomonosov-2はロシアで第1位を誇るスーパーコンピュータである。新しい論文では、Lomonosov-2を管理しているロモノーソフモスクワ州立大学(MSU)の研究者チームが、スーパーコンピュータの歴史と仕様、および彼らが開発したソフトウェアツールについて詳しく説明している。

 
  Strelaシステム

MSUは、1956年にロシアで最初の量産コンピュータであるStrelaが導入されて以来、ロシアの最も強力なコンピューティングシステムのハブとなっている。それから63年もの間、MSUはいくつもの新しいシステムを見届けてきた。1999年に最初のコンピューティングクラスタを展開し、10年後、最初の「Lomonosov」システム(ロシアのpolymath M. V. Lomonosovにちなんで命名)がインストールされた。Lomonosov「1」の現在の性能は、12,000以上のIntel CPUと2,130のNvidia Tesla X2070 / X2090 GPUを所有する902 Linpackテラフロップスで計測されている。

2014年、MSUはLomonosov-2の4つのステージのうちの最初のステージのインストールを行った。 そして2018年までに、後継システムの4番目の最終ステージがインストールされた。

Lomonosov-2は、Intel Xeon E5-2697v3 14コアおよびGold 6126 12コアCPU、Nvidia K40およびP100 GPUノード、2.5 PBのシステムメモリを備えている。そして6月に、システムがアップグレードされたことにより、0.5PBのストレージが追加され、3 PBとなった。

InfiniBand FDRで接続された1,679の計算ノードにまたがるLomonosov-2は、それぞれ256ノードの6つのラックと、160ノードのInfiniBandおよびイーサネットスイッチシステムの7番目のラックの、合計7つのラックで管理されている。システムは、Compute、Test、およびPascalの3つのパーティションに分かれている。以下に示すように、リソースはノード間に分散される。

3つのLomonosov-2パーティションに割り当てられたハードウェア。著者提供画像。
 

Lomonosov-2はCentOS 7オペレーティングシステムを利用し、Open MPIおよびCUDAの数バージョンと、他のユーティリティホストの利用が可能である(下の図を参照)。

 

Lomonosov-2のソフトウェア。著者提供画像。
 

Lomonosov-2は、320Linpackテラフロップを提供した2014年初頭の初期インストールから現在までTop 500リストにランクされており、2014年後半に第2ステージが提供された後、最高位(22位)を記録した。Lomonosov-2は現在、2.5 Linpackペタフロップスで93位にランクインしている。

2014年11月にLomonosovを抜いて以来、Lomonosov-2はロシアで最も強力なスーパーコンピュータとしてランク付けされている。国の2番目に速いマシン、ロシア水文気象環境監視局にインストールされたCray XC40は、1.2Linpackペタフロップスを示しており、最新のTop500リストで364位を記録している。MSUの「Lomonosov」スーパーコンピュータは、ロシアの「Top50」リストにおいては、902テラフロップで3位のままである。

Journal of Supercomputing Frontiers and Innovationsに掲載されたこの論文では、MSUの計算科学者がセンターのスーパーコンピュータの複雑さを管理するために開発したソフトウェアツールについてもレビューしている。主なコンポーネントは次のとおりである。

  • Octoshell — HPCセンター管理システム
  • DiMMoN —スーパーコンピュータのパラメーターを詳細に監視するシステム
  • Octotron —スーパーコンピュータの信頼性の高い自律的な機能を保証するシステム
  • JobDigest —並列アプリケーションの動的特性を分析する視覚的なツール
  • 並列アプリケーションとスーパーコンピュータ全体の詳細な分析をユーザーとシステム管理者に提供するエキスパートソフトウェアシステム

この論文の著者は、ソフトウェアシステムがLomonosov-2スーパーコンピュータで積極的に使用され、スーパーコンピュータセンターのユーザと管理者に運用データを提供していることに注目している。 「コンピューターアーキテクチャの複雑さの増加と並列度の増加は、現代の大型スーパーコンピューターシステムすべてにおいて例外なく典型的で特徴的な機能です」と彼らは述べている。