集約: HPC、ビッグデータ、そしてエンタープライズ・コンピューティング
Gary M. Johnson

おそらく多くのHPC愛好家が、エンタープライズ・コンピューティングは何か静的で退屈なものとして考えている: 解決した問題; ある物の保守と時々の更新; もしくはおそらくクラウドへの移行 – しかし、斬新なアプローチやエキゾチックなハードウェアのための有益な空間は無い。ビッグデータは、これらの見解を変えることが出来る。では、見てみよう。
エンタープライズ・コンピューティング
エンタープライズ・コンピューティングとは何か? Wiktionaryは、「会社、ビジネス、組織、またはその他の意図的な試み」として企業を定義する。彼らのエンタープライズ・コンピューティングの文章中で、Shan & Earleは「エンタープライズ・コンピューティングは、開発、展開を伴い、そして今日のビジネス状況で生き抜き、成功するために必要な情報システムのメンテナンスである」と述べる。
OK、ここまでは順調だ。エンタープライズ・コンピューティングは、目的を持った試みとそれに没頭しているビジネス情勢の特質的機能であるように思われる。
ビジネスの情勢変化
ビッグデータの出現は、明らかに一般的なビジネス情勢を変えている。この点は、最近のBig Data’13会議で明白かつ有無を言わせないものがあった。無数のスプレッドシートの行と列で、そしてSQLデータベースの中に格納されているビジネス戦略情報で使われている従来の構造化されたデータは、非構造化データのボリュームが大規模かつ急速な成長をすることよって急速に増加している。Googleだけで、1時間あたりPetabyteの速度で非構造化データを取得すると言う。この構造化および非構造化データのすべてをより効果的かつより迅速に用いることによって競争優位性を持つことが出来るとの予測が、現在広く持たれている。これは、ビジネス戦略情報をグラフ分析を含むビッグデータ分析へと動かし、そしてより積極的で、複雑な、リソース集約的なユースケースである。ビジネス戦略情報の新局面は、これら新しいアプリケーション、アルゴリズムとコンピューティング・システムアーキテクチャの需要を作り出す。我々の世界のHPCのように聞こえ始めている?
ビッグデータは、HPC
我々が以前観察したビッグデータはHPCの形態であり、そしてそのように包含されるべきである。これは現在、高エネルギー物理学、天文学、生物学などのいくつかの科学分野で起きている。データ解析のための必要性、特に可視化分析法は人間の健康を含む付加的な科学におけるビッグデータとしてHPCを主導する。新興のモノのインターネットは、HPCへビッグデータとデータ集約型コンピューティングをさらに組み入れる新たな方法で、はるかに大きく、より貴重で、役に立つビッグデータを作ることだろう。
エネルギー長官の諮問委員会への最近のプレゼンテーションは、ビッグコンピュートとビッグデータの両方にハイエンドコンピューティングの将来があることを理解しているエネルギー省のExascaleイニシアチブの支持者であることを明確に示している。だから、科学のための将来のアプリケーション、アルゴリズムおよびコンピューティング・アーキテクチャは、HPCの両方の側面を提供するために開発を行うことを期待するが妥当である。
ビッグデータの開発におけるこの点で、新興のソリューションはデータの速いペースと進化の性質に反応しているように思える。
エンタープライズ・データの特性
一般的な「データ大洪水」の現状の有用な要約は、Fox、HeyとTrefethen によって提供されており、ここに描かれている。
我々は、データの3つの異なる種類の間で区別する:
- 観測データ – 制御不能な事象が発生し、それらに関するデータを記録
例: 天文学、地球観測、地球物理学、医学、商業、ビジネス戦略情報、ソーシャルデータ、モノのインターネット
- 実験データ – それらについてのデータを記録する事を目的として制御された事象を設計
例: 素粒子物理学、光子源、中性子源、バイオインフォマティクス、工学設計
- シミュレーションデータ – モデルを作成、あるものをシミュレートし、結果データを記録
例: 天気と気候変動、核融合エネルギー、高エネルギー物理学、材料、化学、生物学、流体力学、工学設計
ほとんどのデータがまだ収集されていないので、我々は、絶対的な量ではなく、ここでのデータ転送速度に焦点を当てる。3つのデータカテゴリーの中の現在または予測されるデータ転送速度のいくつかの非常に高いレベルの概要は、次の表に含まれている。
データタイプ | データ転送速度 | 時期 |
観測 | ||
天文学: Square Kilometer Array | >100Tb/秒 | 2016〜2022年 |
医学:画像処理 | >1EB/年 | 現在 |
地球観測 | 4PB/年 | 現在 |
>180PB/秒 | 現在 | |
実験 | ||
量子物理学:Large Hadron Collider | 15PB/年 | 現在 |
光量子線源:Advanced Light Sources | 7TB/時 | 2015年 |
バイオインフォマティックス:人ゲノム検索 | 700Pb/年 | 現在 |
シミュレーション | ||
核融合エネルギー | 2PB/タイムステップ | 現在 |
核融合エネルギー | 200PB/タイムステップ | 2020年 |
気候モデリング | 400PB/年 | 現在 |
ひとつ直ぐにデータを比較するのは難しいことに気づく。観測データの転送速度は、おそらく明確だ。例えば、もしSquare Kilometer Array(SKA)がその完全な能力で継続的に動作すると仮定した場合、それは2022年頃には年間で400Exabytesを少し下回るデータが生成される 。これは、世界で最も大きい単一のデータジェネレーターとして現れるだろう – しかし、医療用画像処理、ソーシャルデータ、またはモノのインターネットも2022年までに大きくなる可能性がある 。
さらに、エンタープライズ・コンピューティングで使用されるビジネス戦略情報データが観測データのカテゴリーに該当することに注意する必要がある。これはおそらく、最も処理が困難なデータ型である。観測データは、少数で広大な源泉 (例えばエンタープライズデータ・コレクション)と多数でより小さな(しかし、非常に重要)な源泉(例えば医療用画像処理、ソーシャルデータ、モノのインターネット)の混在したものから発生し、継続的に収集される。そして、このようなデータの増加を集めて、解決する能力としてその成長率が増加する。よって、関連するエンタープライズ・コンピューティングの要求要件は、挑戦的なものとなるであろう。
これらの推定値の更なる確認は、NICT(IC技術の新世代)と呼ばれる中国科学アカデミーによって最近発足した戦略的研究プロジェクトによって提供される。それは、2020年までに世界は、Zettabytesのデータを活用する必要があると仮定している。おそらく、このデータのほとんどは観測的であり、企業によって使用されるだろう。
集約
だから、もしビッグデータがHPCで、エンタープライズ・コンピューティングがビッグデータにますます依存して行くとき、エンタープライズ・コンピューティングとHPCの集約にこれが先導するのだろうか? Big Data’13でのプレゼンテーションおよび非公式の議論から判断すると、もし不可避でないとしたら、そのような集約の可能性は非常に高く、そして、間違いなく既に進行中である。
コンピューティング、インターネット、ソーシャルネットワー キング、活動的な顧客の関与、と新興のモノのインターネットは、一般的なビジネス情勢において重要な変化を起こしているし、全く新しいビジネスのチャンスも作り出している。すべての共通の要素はデータである。それは、大規模なボリュームと高い転送速度でやって来ている。それは、深く分析することと便利で実用的なビジネス戦略情報を提供するための洞察力の可視化が必要である。このような戦略情報の成長とさらなる複雑さが求められるように、彼らが満足するには、おそらく計算集約およびデータ集約手法の組み合わせが必要だろう。
エンタープライズ・コンピューティングとしてのHPCの要求は、確かに新しくて興味深いアプリケーションやアルゴリズムの開発を先導する。我々が国家戦略情報コミュニティでビッグデータ・アプリケーションについて開示された文献から知り得ている事と類似しているように、人はそのような開発を簡単に想像することができる。
エンタープライズ・コンピューティングの進化したこの形態はまた、独自の要件をサポートするために誂えたまたは特殊用途向けのコンピューティングシステムの開発を先導する。確かに、HPCベンダーコミュニティは、既にこのことを認識している。人は、反応の最初のステップを見るためにIBMのWatsonまたはYarcDataのUrikaへだけに目を向ける必要がある。
将来の機会
ビッグデータ技術は、現在、若く、断片化された市場である。ソフトウェア側では、データ分析と視覚化は、数十の現在のプロバイダーと斬新なアプローチを持つ新規参入者の着実な流れを伴って急速に進化している。ハードウェア側では、UrikaやD-Waveの量子コンピュータのような新製品を導入すると同様にHPC ベンダーは、ビッグデータのニーズのために現在の製品の適合化、もしくは拡張を行っている。
この時点で、データは運転席にいて、技術はそれに反応している。やって来るより多くのデータがある。モノのインターネット (我々のインターネットと呼ばれるそれのサブセット)ついて考えよう。「私たち」と言えば、データ(膨大な量とより多くの種類)の生産者と消費者の両方としての「群衆」だと考えられる。また、3次元の印刷のようなその他の新興のデータソースを考えると、それが成熟するにつれて、効果的にデータで表現する素材オブジェクトに変わるだろう。
私たちは、ビッグデータがHPCの創造的な利用と新規事業創成のための主要な場の中でのエンタープライズ・コンピューティングに変遷する時代の間に入っている。集約は既に始まっている。我々は、HPCでそれの全面的なパートナーとエンタープライズ・コンピューティングの将来を形作る支援をしなければならない。