世界のスーパーコンピュータとそれを動かす人々


8月 26, 2015

明日のクラスタに向けて

HPCwire Japan

Tiffany Trader

特にTOP500の時期にはエリートなスーパーコンピューティングのアーキテクチャ的な情勢の変化に
多くのスポットライトが当たるが、クラスタ・コンピューティングはHPC市場の四分の三以上を占めるように成長した。クレイとIDCの共同Webinarが開催され、両者はクラスタ、特にスケールアウトの「クラスタ・スーパーコンピュータ」がスーパーコンピューティング技術から恩恵を受ける方法でどのように進化するかについて議論した。

IDCのハイパフォーマンス・コンピューティングのリサーチ副社長であるSteve Conwayは、クラスタ・サーバ(クラスタ)がスーパーコンピューティング市場を民主化したと指摘した。クラスタは今日のHPCシステムにおける支配的な型であり、業界標準技術に大きく依存することで可能となった価格性能比を持っている。IDCの市場調査によると、すべてのスーパーコンピュータ支出は2009年から2014年で倍になっており、クラスタはこの成長する市場セグメントのますます大きなシェアを獲得している。2014年には、クラスタは世界のHPCサーバ売上の85パーセント以上を持っており、5年前の33.5パーセントから上昇している。

「多くのメディアのヘッドラインで紹介される密結合型スーパーコンピュータは最も挑戦的なHPCの問題のために不可欠ではありますが、ほとんどの大きな問題については大規模なスケールアウト・クラスタが非常に良く処理することができるのです。」とConwayは語った。50万ドル以上で販売されている大型スーパーコンピュータの大多数はクラスタだ。IDCではこれらを「クラスタ・スーパーコンピュータ」と呼んでいる。

50万ドルを超えるハイエンドのセグメントにおいて、2014年における平均価格は200万ドルを少し超えた辺りであるとConwayは指摘しており、これはもちろん、1億ドルを超えるいくつかのスーパーコンピュータも含まれている。「巨大なベクトル型スーパーコンピュータの前時代においては、購入可能な最大のマシンは約3,000万ドルでした。それは本当にはスケーラブルなシステムではなかったからです。」とConwayは語り次のように加えた。「現代のクラスタは上にも下にもスケールすることができるのです。」2014年において、ワークグループ用のクラスタの平均価格は19,000ドルであった。

20150723-F1-IDC-technical-computer-market-average-sales-prices-2015

過去5年間において、IDCの図は平均コア数がほぼ倍になっていることを示している。これは典型的なクラスタにおいて管理する部分が増えることと、部品が故障する確率がより高いことを意味している。

「しかしながらコア数の上昇は、調査研究の中でユーザが一貫して私達に指摘するクラスタ管理の課題の唯一のものです。」とConwayは見ている。「クラスタは元々、相互に働くようには設計されていない個々のコンピュータから作られたという事実からこれらの課題は始まっていると言えます。この弱点を克服しクラスタの強い性能を引き出すためには、優れたネットワークとソフトウェア技術を本当に必要とするのです。」

「他の重要な課題には、特にアクセラレータやコプロセッサの付加のようなヘテロなコンポーネントが含まれておりますが、ソフトウェア側もそうであり、ソフトウェア・スタックのコンポーネントは非常に多数で多様になってきています。基本的なクラスタのアーキテクチャに変わりはなく、それが大きな利点となっていますが、ベンダーは構成選択の全体のスペクトルを提供し、それがビッグデータワークロードの成長する重要性を特に与えるだけでなく、データの移動とストレージを管理課題に加えているのです。」

ストレージベンダーは、バッチとストリーミングデータの両方を同じクラスタ上で扱うという混合I/Oを最大の課題として挙げている。

「皆さんが予測するように、クラスタの課題はクラスタ・スーパーコンピュータにおいて悪化しています。」とConwayは述べている。「実際に大きなクラスタを構築するのは容易いですが、大規模なスケールで動作するようなものを構築するのは簡単ではありません。世界で数社のベンダーのみがこの芸術をマスターしています。クレイ社はその中の1社です。この企業はクラスタ事業を始める10年以上前に、実際に大規模なスーパーコンピュータをいかに動かすようにするか理解していて、彼らが今作っているクラスタ・スーパーコンピュータ製品のために、これらの専門知識と経験を活かしているのです。」

「これらのメガ・クラスタを運用設定で効率的にするには、1個以上の部品が故障するかもしれないという状況における信頼性と耐故障性に取り組む必要があります。そしなければ、長時間実行ジョブを失う可能性があり、それが起きる前に部品の故障を予測することで、システムが回避策を取ることが出来、プロセッサを動かし続けるためにデータを動かし続けなければならないのです。電力と冷却はもうひとつの大きな課題です。」

最近の研究では、買い手が彼らが最も要望する改善点を列挙している。リストのトップはアーキテクチャのより緊密な統合、さらなる耐故障性、より有能な管理ソフトウェア、より優れたインターコネクト、およびI/Oとストレージの改善だ。」

20150723-F1-IDC-Desired-cluster-traits

「よりスケーラブルで、耐故障性に優れた統合されたアーキテクチャ」が最も引用された反応で、アンケートの53パーセントの注目を集めている。

驚くべきことではないが、リストの下部にはより高いシステム利用率がある。平均的なクラスタやスーパーコンピュータは、エンタープライズ・サーバ市場では約30パーセントの利用率と比較すると、おおよそ90パーセント以上の利用率だ。これらの数字はHPCにおいて仮想化とサーバ統合化がほとんど採用されていないことを説明している。

ユーザの痛みのポイントと並んで、IDCアナリストによると、規模と複雑性におけるクラスタの急速な成長のよって、ソフトウェア・スタックがさらに多くの注目を集めている。改善の準備が整っている領域は次の通り。堅牢性;プログラマ、ユーザや管理者を楽にする自律機能と機械学習;コラボレーション・ツール;より大規模なデータ集中に向けたワークロードをリバランスに合わせるためのスラックのリバランス。

20150723-F1-IDC-Attention-Software-Stack

IDCはベンダーにとって魅力的な市場であると見ており、数字がこれを証明している。HPCシステムのソフトウェアは2019年には16億ドルに成長する予定であり、HPC市場の大部分がそうであるために、そのほとんどがクラスタに行くであろう。

市場がより良いデータレベルの並列性を提供するx86プロセッサの代替を探すように、増加するヘテロ性はまたクラスタの複雑性を増加させている。このオープニングではアクセラレータ/コプロセッサの採用がサイトにおけるインストールにおいて9パーセントから77パーセントに2008年から2013年で急速に上昇しているが、IDCや他のアナリストが指摘するように、この成長は幅は広いが深くはないのだ。多くのサイトがこのようなデバイスを少数使って、運用計算よりは試験的もしくは実験目的で利用している。面白いのは、民間企業ではx86に関連してアクセラレータやコプロセッサを買うのが少ないが、運用目的でインストールしているのが高い率であることをIDCは発見している。

ConwayはまたHPCクラスタにおけるもうひとつの高成長市場をコメントしている:杯パフォーマンス・データ・アナリシス(HPDA)だ。まだ非常に大きくはなく、サーバ側で10億ドルを切るくらいであるが、2018年の26億ドルに向かっている。この成長率は全体のHPCサーバ販売の約3倍である。そのいくつかは、データ集約型シミュレーションを行っていて、それに解析をミックスして加えるよう既存のHPCサイトにとって有機的である。しかし、そのいくつかは全く新しく、エンタープライズ技術では取り扱うことができないために、HPCを純粋に解析に採用している民間企業からやってくるものだ。

IDCのこのスライドは、Conwayが「エンタープライズ技術では行くことができない場所」と言うように、市場のより新しい部分が解析にためにHPCに変わってくる主な理由をリストしている。

20150723-F1-IDC-Why-Turn-to-HPC-for-Big-Data

他のようには多くは話されないドライバーは3番目の箇条書きの点だ:変動性だ。データの量が表の行として考えられ、変数が列として考えることができる、とConwayは見ている。

背景にある主な傾向は、パターン発見の時代として過去20年間を特徴付けた静的な検索から離れる動きだ。

驚くべき統計では、HPCサイトの三分の二がデータ集約型シミュレーションもしくは先端解析を含んだハイパフォーマンス・データ解析を行っており、全HPCサイクルの30パーセントをこれらの「ビッグデータ」のタスクに使っているということをIDCが発見したことだ。この調査はまた、HadoopがHPCにおいて商業市場と同じくらい広く利用され、HPCで生産的に利用されるようにフックを追加したことで、独自の方向に向かっていることを示している。未来のクラスタのためのHPDAユーザの欲しい物リストは、より優れたインターコネクト、I/Oおよびストレージが含まれている。

最後に、クラスタセグメント全体がヘテロ性、構成およびデータ配信に関係する問題に直面しており、クラスタ・スーパーコンピュータはさらなる痛みポイントに直面している、とIDCは次のようにリストしている:

  • スケールでのパフォーマンス
  • スケールでの信頼性/耐障害性
  • システムウェルネス監視
  • データ移動
  • TCO / OPEX(特に電源/冷却)

この特集のパート2では、ハイエンド・コンピューティングにおけるクレイの経験がいかにこれらのニーズに対処する戦略として進化してきたかを見ていく。