世界のスーパーコンピュータとそれを動かす人々


2月 5, 2016

Penguin Computing、金商品を採掘

HPCwire Japan

Tiffany Trader

我々は最近カリフォルニア州フレモントがベースのPenguin Computing社と対座し、このLinuxクラスタのスペシャリストのHPCおよびハイパースケール市場へのユニークなアプローチと、どのようにこの個人所有の企業が独自性を保持し、ハードウエアにおいてはDellやHP、パブリッククラウドにおいてはAmazonのような大企業の競合に対して対抗しているのかについて学んだ。

Penguinの世界販売担当の上級副社長であるMatt Jacobsは、オンプレミスのハードウェアだけでなく、パブリックおよびプライベート・クラウド・ソリューションを含むPenguinの製品セットのエンド・ツー・エンドの性質を強調した。SC15におけるミーティングは、同社がオープン・コンピュート・プロジェクト準拠の増大した機能と性能を可能にしたTundraプラットフォームを使ったパブリックHPCクラウド製品Penguin on Demand (POD)をリフレッシュした際に行われた。Jacobsによると、2015年3月以来オンプレミス製品として、Tundraはすでに数百万ドルの売上を記録している。

POD顧客のほとんどがフォーチュン1000社の企業で、各々独自の理由においてクラウドでHPCを利用している。この内数社にとってはPenguinが唯一の計算リソースだ。PODとPenguinのポートフォリオ全体の両方の業種の中では、製造業で非常によく使われており、次に気象モデルとライフサイエンスであるとJacobsは報告している。金融サービスもまた増えており、同様にアカデミックや官公庁セクターもそうだ。

これらの顧客の多くはオンデマンド市場の状態のため、クラウドに乗り換えるのに多くの支援を必要としている。「皆、自分のワークフローについてモバイルやモジュラーとして考えたことがないだけなのです。」とJacobsは表明している。「リソースがすぐ側にあると、それとどのように対話するかについて非常に不注意になるのです。多くのワークフローはその基盤の特異性にハードコーディングされています。」

「オフサイトで実行することを考える際には、どこでコンパイルし、どのようにコンパイルし、どのように可視化し、どのようにデータを取り回すのかなどの、ジョブを投入する方法について考えなければなりません。ですので、追加で検討することがあるのです。」

例えば、1つのジョブを投入すると複数のジョブをスケジューラが調整するようなスケジューラでのアレイを使うよりは異なるジョブとして同時に巨大なジョブ・アレイを投入している気象分野における商業顧客をJacobsは挙げている。この顧客が処理していた方法は大規模スケールのHPCにとっては不適切であり、システムをダウンさせる寸前であった。Penguinはそのワークフローの訂正を支援し、その問題は直されたのだ。もっと極端な場合には、MPIをより利用するように顧客のコードを修正、良い意味ではコンパイルなどをすることが必要となることがある。

上記の例はPenguin on Demandが単なるインフラストラクチャ・アズア・サービス(IaaS)でない点を痛感させている; それは文字通りに、HPC as a Sericeである、とJacobsは語った。「これは管理者や、アカデミアそして商業分野で働いていた多くの博士号所持者によって運用されているのです。彼らは実際のワークロードや、どのようにそのワークロードがシステムを満たし、既存のオンプレミス・システムと我々のシステムとの間の特異性にどのように対応するかを知っているのです。」PODにおいては、このレベルのサポートはバンドルされており、必要だからそこにあるのだ。

PODが他の一般的なパブリック・クラウド・プロバイダーと異なるという他の方法をカバーすると、Jacobsはそれがインフラストラクチャの観点ではHPCシステムであると述べている。それはベアメタルで、低遅延を扱うInfiniBandを持ち、データ転送用に10GBのネットワークがあるのだ。そして、決定的には、コストの面で「流出」とJacobsが参照する多くのものがもっているような、インスタンス・ベースのサービスではないことだと彼は語っている。

「インスタンス・ベースのサービスは、リソースとして何が必要か、そしてどのくらいの大きさが必要かの予見を必要とします。」と彼は説明する。「そのシステムを取って仮想化されたノードセットとして構築し、そしてその仮想化されたノードセットをクラスタに転換しなくてはならず、さらにその過程の全てに渡って課金されるのです。」

「さらにはHPCは反復です。バッチを投入し、その結果を見て、パラメータを調整し、そして新ジョブを投入するのです。システムを上げたままにして課金されるか、もしくはシステムをダウンさせて、またそれを上げる苦痛を味あわなければならないのです。」

「そしてほとんどの場合システム時間は切り上げられるので、全体のクラスタ使用量は時間に切り上げられます。ですので、経過時間は長くなるのです。このように全てにおいて、あなたは巧妙ですが明白でない税金を払っているのです。」そして入場が無料の時でさえも、出口は違うのです、とJacobsは述べた。

JacobsはPenguin On Demandを夏の家とたとえている。「お客様はPOD上に永続的なログインノードを持ち、ログインすれば、あたかもそれを残していたかのようにそこにあるのです。」さらに彼は付け加える。「すべてのストレージはマウントされており、すべてのミドルウェアがあり、すべてのコードもそこにあるのです。ログインして数秒以内に、入ってきて、火をつけて、運用できるのです。これはさらに効率的なシステムです。Penguinは3秒間隔で請求します。スケジューラがジョブを開始したら時計を回し、スケジューラが止まったら時計を止めるのです。」

アリゾナ州立大学は最近、経済格差を埋めるためにPODを導入した。ベアメタルノード、プロセッサの均一性、サポートされた計算アプリケーションとアクセスの容易性はすべてASUの意思決定プロセスにおいて重要な基準であった。「アカデミアにおいては、我々は貧弱な船を走らせます。HPCの専門家へのアクセスは日曜大工のインフラなのです。Amazonを選んだら、誰がアプリケーションをサポートしてくれるのですか?」とASUのリサーチ・コンピューティング運用のディレクターでシニアHPCアーキテクトのJay Etchingsはコメントしている。

そのオンプレミスのポートフォリオとPOD製品に加えて、Penguinはまたプロフェッショナル・サービス・アームを介して利用可能なマネージド・サービスを提供している。このマネージド・サービス製品を通して、Penguinはより幅広いオプション配列で顧客に提供することが可能だ。Jacobsは次のように語っている:「我々は顧客の資金を使って、彼らが望むことであればほとんど何でも行うことができます。我々は、彼らのFirewallの陰で我々が管理するオンプレミス・システムとして彼らに販売することができるのです。彼らは我々のデータセンターに設置したシステムを購入することができます。PODを実行する我々のソフトウェア・スタックをロードし、彼らに代わってサービスとして実行します。なので、それはリースのように見え始めるのです。」

POD上で動作する同じソフトウェア・スタックを使った、既存のx86マシン上でプライベート・クラウドを作成するオプションもある。

顧客の選択は彼らの全体予算、キャッシュフロー、インフラストラクチャの可用性、そしてHPC管理における彼らの快適さレベルと有能なスタッフがいるかどうかに依存するようだ。

導入オプションの混成を持つことは販売プロセスを変えた、とJacobsは述べる。「消費者は市場を見ており、次の5年間においてお金をなるべく使わないでHPCの要件を満たすようにしているのです。彼らはクラウドやオープン・コンピュート・プロジェクト、OpenStack、パブリックおよびプライベート・クラウド、マネージド・サービス製品などなどのようなトレンドや技術を見ています。あなたが消費者なら、正しいツールセットを明確にするために3から5つの異なるタイプの企業と話さなければならず、そしてその全てが財布の中身を戦うのです。」

「ほとんどの顧客はクラウドで全てのHPCのニーズを満足させる必要はありません。ほとんどの場合にはオンプレミス・システムが必要です。彼らが私共から購入する限り、彼らが何を買うか気にしません。我々はそのコースをプロットし、正しい製品セットに向かわせるのです。」

不可知論のこの精神はPenguinのサーバ製品(様々にサポートしている標準Xeon、Xeon Phi、Cavium ThunderX ARM64、NVIDIA Tesla GPUおよびIBM Power8チップ)、およびそのターゲット市場にまで及んでいる。

「我々のTier1の競合が行おうとしていることと、我々の顧客が本当に望んでいることの間のグレーな領域で我々は生きており、行ける場所はあまりないのです。」とJacobsは説明している。

ハイパースケールをエミュレートしたいが、カスタムSKUには深いポケットを持っていないクラスの企業の後に行くことについて彼は話をした。

Jacosは続ける:「広範な競合状況を見れば、IBMがLenovoに売却し、Dellがプライベートになり、HPがFoxConnと寝ているのを見ており、彼らの意図を尋ねたいと思うでしょう。彼ら全てがスケールアウト・ビジネスを望んでいますが、スケールアウトの顧客は実際には直接台湾のOENに行き、自分達独自のものを設計しているのです。」

「肝心なことは、ハイパースケールにおける顧客セットは有限であり、市場はTier1からのみ購入したとしても、ハイパースケールと踊ろうしているTier1の量をほとんどサポートできないのです。」

「我々はこれらスケールアウトのトレンドを見て、それからを活用したいと考えている企業との話の途中ですが、必要とされるスタッフを持ったり、持ちたいとはおそらく思わないでしょう。なので、我々が彼らを助け、それが長期において強固な戦略となっているのです。」

「任意の年において、我々はこの全体的にスケールアウトにおいて非常に健全な事業にしているので、我々のHPCの売上は全体の売上の50パーセントに満たないのです。」

中道を通ることはまた、官公庁の分野における機会を提供している。Penguinは今年、連邦事業部を始め、3千9百万ドルのCTS-1契約を獲ったのだ。今後3年間で、Penguinは国家核安全保障管理局に対し、Tundraアーキテクチャをベースとした約10ペタフロップスのコモディティーのLinuxクラスタを提供する。

CTS-1の勝利の他に、PenguinはSC15の2ヶ月前に、Tundraシステムで他に3つの数百万ドルの契約を結んだ。過去3年間における売上増加により、Silicon Valley Business Journalはシリコンバレーにおける最速成長プライベート企業50社のランキンで、Penguin Computingを35位にランキングしたのだ。100名ちょっとの従業員を抱え、JacobsはPenguinを「ソフトウェア企業並みの年間生産性を持ったハードウェア企業」と特徴づけている。

HPCの民主化と並行して、実際には多くのHPC市場が素人のユーザによって加速されている、とJacobsは指摘している。

「Tier1の民間HPC顧客のいくつかがクラウド技術を活用し始めているますが、」と彼は指摘する。「この10年間我々が販売している顧客は違った方法でHPCを購入し消費し始めています。我々はよく知られているトップ顧客の2社を我々の[サービスベースの]アーキテクチャーに転換しています。そして、すべてのHPCを一部屋に集約し、国際的に接続し、グローバルな方法でデータの移動をサポートできるようにしたいのです。」

いくつかの技術計算ワークフローにおける大規模フィル転送のニーズを不要にするために、PenguinはSkyld Cloud Workstationと呼ばれるNVIDIA GRID技術を使ったリモート・可視化製品を開発している。1年前(2014年11月)に発表されたこのクライアント・ベースでブラウザ・ベースのリモート可視化製品は、プリおよびポスト処理をクラウドに移動することで、大幅な時間節約を達成している。根底にあるメカニズムは基本的に毎秒2メガバイト以下の帯域幅を必要とするストリーミング・コンテント(NetFIxを参考)で使われているものと同じである。比較として、TurboVNCは30-50メガバイトのオーダーを必要とすると、Jacobsは言う。彼は「20年間でのリモート可視化分野における初のイノベーション製品」として参照するこの技術で十分に感動している。

Penguinの哲学はすべての市場の中で最高のものを組み込み、価値を追加する最適な場所をも模索することだ。この意味においては、彼らはOpenStackを採用し、それを管理可能なHPC層に転換することだとJacobsは言う。彼らはOCPを採用し、それをHPCアプリケーションに転換した。もちろん、スケールと組み合わされたこの種の考え方はコモディティー・コンピューティングの基礎となっている。

Jacobsの選択はコモディティーとしての計算だけではないが、それは10年前にコモディティーになっている。「我々はそのように成長してきたのです。」と彼はコメントしている。「我々は大きな価値を持っていないシステムに独自のものを導入するような幻想は無く、成長してきました。共有メモリは縮む島です。できる人は誰でも並列化コードを書きます。これが世界がやっていることなのです。世界は積極的に我々がほぼ20年間やってきたことに向かっていることに、私達は幸せなのです。」