世界のスーパーコンピュータとそれを動かす人々


1月 7, 2015

ワークステーション、サーバ、クラウド:HPC用として比較

HPCwire Japan

Wolfgang Gentzsch

クラウドコンピューティングに関するエンジニアの懸念について25のHPCおよびCAEのLinkedInグループでUberCloudが最近調査を行い、多くのエンジニアがワークステーションのメリットをサーバやクラウドに対して誤った方法で比較しようとしていることが分かった。実際には、多くはクラウドの(見せかけの)障害物で、ワークステーションの肯定的な側面を比較している。例えば:データ転送;自分のワークステーションでタスクを実行する際にはデータ転送は明らかに起こらないし、もちろん、しばしば大量のデータをクラウドから自分のワークステーションに転送することがある。しかし、これは自分のワークステーションで行うには不可能な頻繁で大規模な計算をクラウドで行うためだ。

まず第一に、この質問に答える必要がある:自分のワークステーションは解きたい種類の問題にとって十分に大きく高速であるか?答えがYESならば、素晴らしくHPCサーバの必要性は全くないし、HPCクラウドも必要ない:これで終了だ。

しかし答えがNOで、自分のワークステーションが解きたい種類の問題に対して十分に大きくなく高速でないならば、可能な代替を見つける合理的な方法で、さらに2つの強力な解決策を比較しどちらが自分にとって合理的であるかチェックしよう:インハウスのHPCサーバ対リモートHPCクラウド、すでに複雑でチェレンジングなタスクには役に立たないと証明された自分のワークステーションは対象外だ。サーバ対クラウド!このような比較が一般化、単純化、現実を過大もしくは過小評価と一緒にされることは理解している。しかしとにかく、やってみよう。

20141217-F1 Screen-Shot-2014-12-17-at-3.49.45-PM

*平均;**クラウドプロバイダによる

調達:一定の予算内で高価なハードウェア、ソフトウェアおよびサービスを購入する行為である。このプロセスは準備と需要の調査ならびにエンドでの受け入れと支払いの承認が含まれている。これは多くの場合、購入計画、規格決定、仕様策定、業者の調査と選択、価値分析、資金調達、価格交渉、購入、供給契約管理、在庫管理と保管、待機、受け入れ、インストールとハードウェア試験証明、トレーニング、およびその他関連する行事などを行うこととなる。このプロセスは簡単に数カ月掛かることとなる。一方、クラウドサービスは通常短期間でオンデマンドまたは予約で比較的低コストで利用することができる。

予算:企業は2つの異なる種類の予算に対処する必要がある。:CAPEXとOPEXだ。CAPEX(資本支出または出費とも呼ばれる)は、1会計年度以上に渡って企業の能力や効率を上げるために、計算サーバのような生産的資産を購入またはアップグレードするために使われる値だ。OPEX(運用支出とも呼ばれる)は、日常的に企業が使っているお金だ。CAPEXの関連資産は通常上位の管理者によって承認されなければならないが、OPEXは通常中位の管理者もしくは従業員レベルの責任範囲に落ちる。IDCによれば、例えば7万ドルのサーバの3年間の総所有コスト(TCO)は、特に時間が本質である場合、飲み込むのが簡単である5万ドルの1度限りの支出と比べると、百万ドル(CAPEX)である。

運用、保守:企業の設備は運用して保守するには複雑でコストが掛かる可能性がある。例えば演算サーバを動かすのに必要なのは、特別にトレーニングされた人員;システムおよびアプリケーションソフトウェアの定期的アップグレード;システム、ワークロードおよびリソース管理の処理とチューニング;消費電力、空調および室温の取り扱い;ダウンタイムとユーザの生産性の世話;そしてさらにもっと。クラウドの場合にはこれらのいずれも該当しないのだ。

柔軟性:独自のサーバは多くの義務を伴い、いくつかは上述している。特定のアプリケーション用にシステムが最適化されていない場合には、あなたのシステムがフルに利用されていない限り、クラウドのようなリソースの簡単な選択はない。あなたがとても試してみたいソフトウェアはシステムでは動かないかもしれない。クラウドでは完全に異なる:ハードウェア、ソフトウェア、関連ツール、タイミング、価格付け、利用度などなどの選択において柔軟性があるのだ。

機敏性:ユーザが大規模で柔軟なサービスカタログからセルフサービスすることができる場合に付いてくる。ユーザは必要なものを必要な時に取ることができるのだ。そして大抵、ユーザがリソースを必要とする時は、触発されて本当の仕事をやる準備ができている時だ;長時間の待ちキューはそのインスピレーションを無くし、永遠に失われるのだ。

信頼性:企業内に異なる演算サーバの選択肢が無く1台のシステムだけ持っている場合には、単一障害点となり、システム保守の間完全に利用できなくなる。ひとつの方法はそのような時間の間、クラウドサービスを利用することだ。クラウドの信頼性は複数のクラウドプロバイダーを使うことで簡単に改善できる。

平均使用率:演算サーバの使用率が高ければ高いほど、コア時間当たりのコストが良くなり、経済的になる。しかし、特に中小企業の場合、プロジェクト毎の異なる納期、エンジニアの休暇または出張、そしてウィークエンドにはサーバは大抵完全に「ジョブ無し」状態となるため、使用率は予測不可能だ。実際には、業界で回覧されている平均サーバ使用率の数字はわずか約20%だ(80%は垂れ流し)。クラウドのおいては反対に、コア時間当たりの価格は高使用率を想定して調整されている;異なる多くの顧客を持っているクラウドサービスプロバイダーは、明らかにもっと簡単にシステムをフルに利用させることができる。

セキュリティ:企業の内部および外部から起因するセキュリティ侵害に関するニュースは皆よく覚えている;盗まれた設計図;個人顧客データの入ったCD;従業員が遅くまで残って、IP情報を複製したり販売したり;もしくは単に不注意でコンピュータを点けたままで、家に帰っている間にアクセス可能であったりするのだ。これは大企業でも小企業でもすべてにとっての懸念だ。自分のインフラと資産を守るためのセキュリティ専門家に高額の給与を支払わなくてはならない;それは大抵出来ないので、標準で証明されたセキュリティソフトウェアを使っても、弱いままでいるのだ。クラウドのサイズ設定:今日のどのクラウドプロバイダーもデータと交換を保護するための高いセキュリティレベルを持っている。インターコネクトはセキュアなプロトコルでカバーされており、IPアドレスはフィルターされているし(クライアントの独自ドメイン名のみ許可されている)、そして総合的なデータ分割を確実にするために、ユーザは仮想マシンにのみアクセス可能で、物理マシンには入れない。セキュリティの面から多くのクラウドプロバイダーでは、アプリケーションのインストールはバッジを着けたクラウド専門家のみが行うこととなっている。他のオプション(VPN、暗号化…)はコンテキストやニーズに応じて可能だ。

テクノロジー:今日、システムや技術は益々速く古くなり、そして新しい技術や製品が早いペースで市場に来る。こに対応するために、既存の機器を定期的にアップグレードしなければならず、従ってもっとお金の投資が必要となってくる。そして少なくとも減価償却の間、既存のシステムに固執する必要があるのだ。クラウドでは完全に異なる:競争力のあるクラウドプロバイダーでいるために、インフラを定期的にリフレッシュしている。そのため、クラウドでは、最高速で最善のハードウェアやサービスの中から購入することができるのだ。

データ転送:多くのアプリケーションは何ギガバイトもの結果を出す。明らかに、すべての機能を1台に持ったワークステーションではこれは問題ではない;しかし、ワークステーションは忘れよう、だって考えているタスクはそのワークステーションには収まらないのだ。すでに、インハウスのサーバではデータ転送はサーバとエンドユーザのワークステーションの間のネットワークに依存し、これは企業の管理下だ。さらに本当にチャレンジングなのはクラウドとエンドユーザのワークステーション間での数ギガバイトのデータ転送であり、大抵エンドユーザのラストマイルのネットワークに制限されている。ここで中間結果と最終データセットを区別する必要がある:中間データはしばしばクラウドに高速な接続を持っているDropboxやBox.comに保管され、中間のシミュレーション結果を確認するためには、高解像リアルタイムの遠隔ビジュアライゼーションが完璧な手段だ。最終データセットでは、データの圧縮および暗号化が可能な新転送技術があり、並列しくはストリームでユーザに送られる。そして、このすべてが駄目なら、オーバーナイトでのFedexでの配送というバックアップ手段もある。

資産の完全な制御:クラウドの初期には、クラウド上で資産を制御する方法は全くなかった。しかし、初期のクラウド利用者によるプレッシャーによって、クラウドプロバイダーは顧客に対しさらなる透明性を提供し始めた。そして、UberCloudコンテナーのようなシステムコンテナー技術の出現で、粒度利用データ、ログ、監視、アラーと、レポートなどを収集する追加の機能が利用が要望する制御を復活させている。

ソフトウェアライセンス:独立系ソフトウェアベンダー(ISV)は自然と自分の収益レベルを維持することに非常に関心を持っており、クラウドにおけるソフトウェアライセンスが収益に影響するかどうか長い間明らかではなかった。しかし、エンジニアは日常の設計や開発にワークステーションを使い続けており、溢れた分や大規模または複雑なシミュレーションジョブだけにクラウドを使っているかもしれない。それゆえに、競争原理に従い、多くのISVが今や柔軟なクラウドベースのライセンス・モデルを提供している、例えば月単位、週単位、日単位または時間単位などだ。

アクセス:ハイパフォーマンスコンピューティングへのアクセスを容易にするために、システムやワークロード管理ソフトウェア、ポータルやその他のツールなどの開発のように、システムとユーザ専門家の継続的なトレーニングや他の投資を伴う多くのことを過去に行ってきた。一方でクラウドにおいては、このすべてはクラウドサービスプロバイダーの専門家が行っており、利用者からは見えない。そのため、今日多くのクラウドへのアクセスはシームレスだと考えられており、請求書($/コア/時間)に含まれている。

待ち時間:自分自身の演算サーバで実行したち使ったりする際には、通常低い需要のの時は大き過ぎて、高い需要の時は小さすぎるのだ。ピークの負荷がある時、反語的にはもっともサーバを必要としている時には、ジョブは引き続いて待ちキューに居続ける。クラウドはこれを変えるが、これは単に「無限」のリソースをクラウドが持っているからだ:もし、ひとつのクラウドプロバイダーのリソースが「無限」には不十分な場合には、次のクラウドプロバイダーに移ればよい。クラウドは本質的にとても短いかもしくはまったく待ち時間がないのだ。