世界のスーパーコンピュータとそれを動かす人々


9月 28, 2020

Supermicro、世界で最も効率的なスーパーコンピュータ「MN-3」のハードウェアの詳細を発表

HPCwire Japan

Oliver Peckham

6月に、HPCwireでは新スーパーコンピュータ「MN-3」を取り上げている。これは、1.6 Linpackペタフロップスのシステムで電力1ワットあたり21.1ギガフロップスの性能を提供し、少なくとも最新のGreen500リスト(Top500のエネルギーを考慮したリスト)によると、世界で最もエネルギー効率の高いスーパーコンピュータとなっている。このシステムを構築したのは、日本のAIスタートアップであるPreferred Networks社で、同社の社内アクセラレータであるMN-Coreを使用してMN-3の記録的な効率性を実現した。Preferred Networks社と協力しているのはモジュール式システムメーカーのSupermicroで、同社は最近のレポートで、チャートトップのこのグリーンジャイアントの背後にあるハードウェアとプロセスを詳細に説明している。

 
  MN-3スーパーコンピュータ
   

Supermicroが語るように、Preferred Networksは2つの面で課題に直面していた。第一に、クライアントのディープラーニングの問題を解決するためのより強力なシステムの必要性、第二に、彼らが想定していたシステムの法外な運用コストである。「電力コストの増加に伴い、PFNが必要としていた大規模なシステムでは、電力と関連する冷却の両方の運用コストが、割り当てられた予算を上回っていました。」とSupermicroは記載している。「したがって、余計なものにならないように、新しいソリューションのエネルギー効率を設計してシステムに組み込む必要がありました。」

Preferred Networksはこれらの問題を解決するため、パートナーシップを利用した。まず、神戸大学の研究者と協力してMN-Coreアクセラレータを開発し、ディープラーニングトレーニングプロセスに特化、エネルギー効率の最適化を行った。テストでワットあたり1テラフロップを超えるMN-Coreのベンチマークに成功した後、開発者はシステムの残りの部分に目を向けた。そして、そこにSupermicroが登場した。

来日したSupermicroのグローバルビジネス開発担当ゼネラルマネージャーのClay Chenは、かれらが必要としているものを聞くために、Preferred Networksとの対談を行った。

「最初に、彼らが使用しているGPUのタイプを尋ねました」とChenはHPCwireのインタビューで述べた。「彼らは、『ああ、いや、私たちはどのタイプも使用していません。私たちは独自のGPUを開発するつもりです』と言いました。それは私にとって非常に魅力的でした。」

Preferred Networksは、4枚のMN-Coreボード、2枚のIntel Xeon Platinum CPU、最大6TBのDDR4メモリ、Intel Optane永続メモリモジュールをシステムのエネルギー効率を犠牲にすることなく1つのボックスに収めるという困難な作業のためにSupermicroを選択した。

Supermicroは、複数のGPU(または他のアクセラレータ)と高速インターコネクトを搭載するように設計された既存のGPUサーバモデルをベースに設計した。Preferred Networksのエンジニアと協力してシミュレーションを行い、SupermicroはMN-Coreアクセラレータを十分に冷却し、効率を維持できるように最適な筐体設計とコンポーネントの配置を決定した。

驚くべきことに、このカスタムサーバは完全にファン冷却である。「私たちのコンセプトは、ファン冷却で設計できるのに、なぜ液冷を使うのかということです」とChenは述べた。「なぜなら、基本的には、液体から取り出された熱はすべてどこかで冷却されるからです。熱を箱の外に持ち出しても、ファンで液体を冷却する必要があります。」

最終的な結果として、Preferred NetworksのためだけにカスタマイズされたSupermicroサーバは、下の写真のようになっている。

 

サーバの4枚のMN-Coreボードは、SupermicroマザーボードのPCIe x16スロットと、MN-Coreボード間の高速通信を可能にするMN-Core Direct Connectボードに接続されている。

 

これらのカスタムサーバ(それぞれ7Uの高さ)は、後にMN-3スーパーコンピュータとなるもの(48台のサーバ、4台の相互接続ノード、5台の100GbEスイッチ)にラックマウントされた。合計では、システムの2,080個のCPUコアが1,621テラフロップスの性能を発揮し、Top500ベンチマークの実行に必要な電力はわずか77kWだった。この効率レベルは、Aurora、Frontier、El Capitanのような計画中のエクサスケールシステムが目標としている40メガワットの限界をわずか15%下回っているにすぎない。

「世界で最もエネルギー効率の高いスーパーコンピュータとして評価されたMN-3の構築において、我々と密接に協力してくれたSupermicro社と提携できたことを非常に嬉しく思います」とPreferred Networksの執行役員 計算基盤担当VPである土井裕介は述べた。「私たちは、このような大規模なスーパーコンピュータに必要とされていた電力を数分の一に抑えながら、優れた性能を実現することができたのです。」