世界のスーパーコンピュータとそれを動かす人々


10月 9, 2015

クレイ、そのクラスタ・スーパーコンピュータ戦略

HPCwire Japan

Tiffany Trader

象徴的なアメリカのスーパーコンピュータ・メーカーであるクレイ社が2012年の後半に20歳のHPCクラスタ・ベンダーを買収した際に、クレイのCEOであるPeter UngaroはAppro社の主要なIPを「世界で最も先進的な産業クラスタのひとつ」として参照していた。クレイはその製品ラインから利益とより大きな売り上げをApproから得、そしてApproはクレイの海外ネットワークを活用できる、と当時HPCwireはレポートしていた。

以下は要約記事です。原文はこちらをご覧ください。http://www.hpcwire.com/2015/07/28/cray-details-cluster-strategy/

  • 買収から3年経過して、クレイ社は「クラスタ・スーパーコンピュータ」のCSシリーズと、次世代のスーパーコンピュータにつながるXCシリーズの製品分けをしている。
  • Cray CSクラスタを導入しているのは、スイス・スーパーコンピューティング・センター(CSCS)、国防総省ハイパフォーマンス・コンピューティング近代化プログラム、ローレンスリバモア国立研究所、筑波大学、ミシシッピー州立大学、テネシー大学、鉄道総合技術研究所(日本)、サンディエゴ・スーパーコンピューティング・センターなどだ。
  • 現在、クラスタ・コンピューティングはプロセッサタイプのヘテロ性と増大するデータ集約性の課題に直面している。50万ドルを超えるクラスタは今後困難な状況になるとIDCは予測している。IDCの報告では、クラスタ・スーパーコンピュータは2013年において平均389ノードを搭載しており、これは小規模なものの22倍となっている。

20150728-F2-Cray-technology-adapted-from-supercomputing-slide-2015

  • クレイ社とIDCは、クレイ社のフラグシップのスーパーコンピュータ製品から、クラスタの顧客が必要とする要件に適合するような方法を模索している。
  • クレイ社のクラスタのVPであるJohn Leeの見解では、クレイは2つの製品ラインを単一のパラダイムにしようとしていると見ている。「クレイのビジョンは、大規模数学問題やデータ問題の両方のための高速ソリューションを提供するために、計算、保存、解析の分野で市場を先導するソリューションを開発することです。」
  • 最新のTOP500では、クレイは上位50システム内17システムを、上位100システムの内31システムを持っている。全体では71システムでHPやIBMに次いで3番だ。
  • 71システムの内クラスタは22システムであり、クレイのほとんどは「ビッグアイアン」であるスーパーコンピュータに関係している。クラスタの中で特に13位と14位の2台のCS-Stormクラスタが特徴的で、スパコンの技術を活用するクレイの能力を象徴している。
  • 下図で青色にハイライトされたシステムは新システムである。しかしクレイはリストには載らない小規模クラスタも数多く出荷している。

20150728-F2-Cray-cluster-leadership-slide-2015

  • 2つの製品ラインは異なるツール、異なる問題に対して設計されているが、重要な技術のクロスオーバーがある。
  • 例えば、CSクラスタには、XCシリーズで開発された革新的なパッケージング、冷却、高効率電力分配、高速シグナル·インテグリティ設計や包括的なソフトウェアツールなどが影響を受けている。
  • またクレイは他にもスパコンの技術をクラスタに移行している。エクトリームな並列処理、より優れたシステム耐障害性、電力・冷却の創造的効率的手法、包括的ハイパフォーマンス・コンピューティング・スタックなどだ。
  • 現時点ではクレイはすべての問題に対する答えは持っていないが、資金およびリソースの面で多大な投資を行っている。

Adaptive Supercomputing

  • クレイは2004年にアダプティブ・スーパーコンピューティング戦略を開始している。これは異なるプロセッサアーキテクチャを異なる問題のために採用するものである。GPUやXeon Phiだ。TOP500ではクレイはアクセラレータ搭載システムを53台持っている。
  • CS-Stormはハイブリッド・システムの良い例だ。CS-Stormは2Uシャーシに8個のGPUを搭載し、ラックで最大176基のGPUを搭載可能で、ラック全体での性能はGPUで329テラフロップスとなる。
  • 電力と冷却アーキテクチャは、GPUが最大性能を出すように設計されている。高信頼の動作を行うために、クレイ社のフラグシップシステムのXCにおけるホストプロセッサとGPU間のハイシグナル・インテグリティの技術が導入されている。また、メニーコア・アーキテクチャにおけるデータレベルでの並列処理を行うためのソフトウェアツールも用意されている。「Storm」という名称は1990年後半のRed Stormプロジェクトに由来しており、これでクレイ社がコモディティ・プロセッサに移行したのだ。
  • 現実での事例では石油ガスアプリケーションで地震学コミュニティ・コードであるSPECFEM3Dがあり、BPやPricetonにおいては単一CPUデ18分掛かっていた処理が16基のGPUを使って1.5分でできるようになった。
  • すべてのアプリケーションで同じようにスケールする訳ではないが、CS-Stormは非常に強力なツールである。
  • 耐障害性は今ではあったら良いものではなく、必要なものである。クラスタは従来のHPCユーザ以外にも広がっており、クラスタの採用率は2008年の65パーセントから2013年には80パーセントにも増加している。
  • ミッションクリティカルなアプロケーションが多くなってきており、高い生産性が要求されるようになってきた。悲しいことではあるが、業界のトレンドは逆方向に動いている。
  • 1番目の要因はクラスタの需要と規模は益々拡大しており、全体的なシステムの信頼性は低下している。
  • 2番目の要因は個々のノードの信頼性の低下である。
  • 現代のサーバは昔と違い、ハイパースケールの顧客に影響され、品質や信頼性の費用を掛けることができない。ハイパースケールの顧客は問題にソフトウェアで対処するので、ノードレベルの障害は気にならないのだ。
  • HPCクラスタのノードはどんどん強力になってきている。特にハイブリッドノードでは最大8基のアクセラレータを搭載しているものもある。そのため、1ノードが障害を起こすとホストプロセッサばかりでなく、すべてのアクセラレータを失うこととなる。
  • クラウドとクラスタの信頼性を比較すると、クラウドのモデルではコスト削減が重要であり、障害は毎日のことだ。なので、サーバが落ちても知性のあるソフトウェアは他のサーバで再起動する。サーバの障害は作業の喪失にはつながらないのだ。しかし、伝統的なHPCでは多くのサーバは単一のジョブを処理している。平均障害間隔時間はおそらく1日もしくは数時間である。そのため、ジョブの信頼性は直接個々のサーバの信頼性と関係することとなる。そのため、1台のサーバの障害はすべてのジョブを失うことになるのだ。
  • 信頼性のあるシステムはマイクロとマクロの両面から設計されるべきである。
  • マイクロ・レベルでは演算ノードから始める。

20150728-F2-Cray-reliable-clusters-slide-2015

  • クレイは強力なマザーボードのパートナーと組むことにした。2012年以来、クレイのクラスタ製品はインテル社とHPC用のボードをコデザインすることで協力している。これは半分の幅で、高信頼性のボードである。
  • UC Berkeleyの研究では、サーバの故障の原因は、47パーセントがハードドライブ、33パーセントがファン、13パーセントがパワーサプライとなっている。クレイはディスクレスで、ファンとパワーサプライを冗長化させることで信頼性を上げ、全体システムの信頼性を向上させている。

The Soft Side of Big Iron

  • クレイは信頼性を上げるためにソフトウェアにも力を入れており、ソフトウェアエンジニアの方がハードウェアエンジニアよりも多く、Cray HPCソフトウェア・スタックとして提供している。

20150728-F2-Cray-software-ecosystem-slide-2015

  • もうひとつの相乗効果はCrayプログラミング環境である。このコンパイラの機能はNVIDIA GPGPUやIntel Xeon Phiを利用するために特に重要である。

20150728-F2-Cray-Programming-Environment-slide-2015