HPCの根幹がビッグデータを養う
Nicole Hemsoth

我々が続けている「広範な企業世界のためのHPCレッスン」シリーズのこのセグメントで、我々はビッグデータと言う主流的見解の中へHPCを強調する鍵となる動きのひとつを見ようとしている。誇張された流行語であるかどうかにかかわらず、現実的には、商用ITの世界の成長セットでのHPCの新たな意識を推進する現象である;新しい企業領域に従来のHPCベンダーを参入させ、商業と研究コンピューティングの両方の最高レベルが厄介なデータに取り組むための新しいツール、フレームワーク、方法論の新たな黄金時代を見つけることを支援する。
最新のIDCの統計によると、HPC販社の67%が、ビッグデータ分析として分類することができるものを実行していると言う。調査会社が「高性能データ分析」(HPDA)」と呼ぶこれらのワークロードは、2012年の7.438億ドルから2017年にはほぼ14億ドルまで増加し、大幅に成長すると予想されている。加えて、HPCシステム上で高性能データ分析のためのストレージの収入は、2017年までにほぼ1億ドル近くになるだろうとIDCは言う。
IDCは、「HPCリソースを必要とする十分なデータ量とアルゴリズムの複雑性」を伴うタスクに関連するデータ集約型シミュレーションと解析としてHPDAを定義する。これは、既存のシミュレーションもしくは新しい分析方法、そして様々なデータ型(構造化、非構造化の両方)、または例えばグラフ分析やHadoopフレームワークを使用する潜在性を含める事ができる。
これらは、それら自体で顕著な数字であるが、しかし少しの間、これらの数値の裏側をよく考えてみよう。HPCは、ビッグデータを抱えた企業(HPC /ビッグデータは明確な分類に分けられるとき、漠然とした分割線が専門用語ごとに存在する)から操縦されるツールや技術を適用するかも知れないが、このシリーズはHPCがビッグデータの集団に教示できるスケーラビリティ、信頼性、効率性についての教訓に焦点を当てている。
HPC全般に渡る専門家の我々自身の非公式な意見調査では、決定的な大多数は、HPCと商用ビッグデータ間の単純な関連性を目にしたが、ハードウェアやソフトウェアのツールやリソースだけでなく、どのように各陣営が全体的なワークフローについて考えるかという観点から重要な違いを指摘した。要するに、我々がシリーズのために話をしたHPCの指導者は、単に未成熟な技術の面ではなく、プロセス、方法論、そして合理的に良好な性能を必要とする大規模で複雑なデータボリュームに対処する方法もフィルターを通して取り除くHPC技術の十分な機会を得た 。
国立スーパーコンピューティングアプリケーションセンター(NCSA)のBlue Watersプロジェクトのプロジェクトディレクター代理、Bill Kramerが述べたように、「今日、私たちは商用のインターコネクトやプロトコルの処理能力をはるかに上回るデータ分析やデータ利用を目にしています。HPCは、長年にわたり大規模なデータを扱っており、そしてHPCのような技術の多くは、適切に適合され、新しく拡大された研究を可能にする潜在性があります。 」
「私たちが今、ビッグデータと呼ぶモノの一部の側面は、確かに新しく革新的ですが、他の多くのところで、現在のビッグデータソリューションは、単に何年(数十年ではない)も伝統的なHPCを回してきた原動力の再発見です。」とUNIVAのCTO、Fritz Ferstlは言う。彼は、主な例としてワークロード管理と分散ファイルシステムを指し、「ビッグデータ空間で採用されている並列プログラミングパラダイムの一部でさえも、20年以上の伝統的なHPCの中で進化し、成熟してきているモノから必要以上に分化したように思えます。 」
我々は、HPCが主流のビッグデータの世界にどんな教訓を提供しているかについて、テネシー大学の著名な教授でオークリッジ国立研究所を指導するJack Dongarraに尋ねたとき、彼は両方の技術領域として微妙なニュアンスの答えを返してきた。彼は、それが広く「ビッグデータ」であると認識されているが、多くの意味を持っていて、この意味の多様性は必ずしも良いことではないことを説明した。問題の一部は、馴染みの選択肢のように「データ集約型」のような、ビッグデータと見なされるものが他の要素と関連しており、そのため、変化はそれらが見ている視点(プロセッサ、メモリ、バンド幅、ストレージ)に依存する。
「この意味においてビッグデータアプリケーションのわかりやすい例としては、スーパーコンピュータの全メモリ以上を必要とするアプリケーション、または計算とデータサイズとの関係が非線形であるため処理が複雑すぎる、またはI/Oバンド幅を超えるの速度を必要とするリアルタイム処理などです。」とDongarra博士は言った。
「一般的に言えば、幾つかの関連する視点から見たときにデータ集約型ではないが実用的で重要な、しかし極めて少数の大規模アプリケーションが存在します。HPC領域におけるアプリケーションを見ていると、データが新しい装置から、大規模シミュレーションから、または分散センサーから、排出され、前例のない速度で目の眩むような量のデータを提供します。アプリケーションの観点から、しかし、ビッグデータの議論は『データ駆動型』アプリケーション(データ分析、トップダウンクリや予モデリングなど)の突出を大幅に増加させ、どこかで操作が定義され、大規模なデータ量やデータストリームによってだけでなく、また関連するデータの複雑さや不均一性にもより推進されます。 」と彼は言う。
Dongarraは、研究者がコンピュータによって生成された半構造化データ(ビッグシミュレーション)や構造化された観測データ(ビッグインストルメント)を処理する際に随分と長い間成功してきたにも拘わらず、「彼らは今、非構造化の大量な挑戦を引き受けることをより熱望していると言っている異種観測データしばしば小さな単位の大規模な積み重ねに来て、非同期に発生している(テキスト、画像、医療記録など)。だから、そのように、ビッグデータは、HPCアプリケーションの景色を再定義しています。」
Adaptive ComputingのCEO、Rob Clydeは、「Fortune 500企業だけでなく、すべての企業が、小売業者のためのソーシャルメディアから石油·ガスにおける多次元地震探査まで、その間のすべてで、大量のデータを収集し、保管しています。」と言うことを我々に思い出させる。しかし、企業はよりよい洞察を抽出し、データ駆動な意思決定を行うためにデータを活用することに奮闘する。プロセスは非常にマニュアル的で、複数のアプリケーションを管理するために必要な複雑な依存関係で時間を費やす。最終的な結果は、他が無意味に横たわっている間、サイロ化された環境を過大使用する。
速度に乗るために、企業は長い間、ビッグデータを扱って来た伝統的なHPC戦略の効果を取り出すことができるとClydeは言う。「要求要件は、従来のHPCユーザーに類似しており、しかし、プレイヤーは異なり、中規模市場に向けたとしても、HPCハードウェアとしてより多産になり、より安価になります。 」
彼の意見は、彼の会社がもたらした最近の調査によって確認された。彼らの調査結果によると、様々な階層での400以上のデータセンターの責任者、管理者とユーザーの集約的な考え方があり、データは主に自社開発で、高度にカスタマイズされたアプリケーションで解析されている。調査ではまた、ビッグデータ分析と思われる83%が組織または部門に重要であるが、90%はより良い分析プロセスからのより大きな満足感を持っていると思われ、84%がビッグデータを分析するために手作業によるプロセスを持っている。
様々な業種を横断した全体像を見ていた独自の内部調査に基づいて、「企業は、従来のITワークロードとビッグデータワークロードの違いを認識していないため、迅速かつコスト効率的にビッグデータの洞察力を獲得する能力を制限しています。簡単に言えば、プロセスシミュレーションやデータ解析のためにワークフロー自動化のないサイロ化された環境では、データから画期的な情報を抽出する彼らの能力が不足に陥ります。私たちの調査結果に沿って、企業のより多くは彼らのビッグデータへの取り組みを支援するために、HPCを採用するだろうと予測しています。 」
AdaptiveでのClydeと彼のチームが、ワークロード自動化とワークフローの大規模な管理に焦点を当てているにもかかわらず、彼らの調査結果は「サイロ化環境」問題は、HPCとエンタープライズの設定の両方で二重に直面するとして、注目に値する。我々がこの特別シリーズのソフトウェアセグメントに移るとき、我々はこのことについて話す一方、それは複雑な課題がデータの多様性と構造を超えて拡張されることは注目に値する。目標の文脈、現在のツールやアプリケーション、効率性とその先へワークフロー全体を配置するためにユーザーにとって重大な必要性が依然として存在する。HPCが、彼らのビッグデータ分析業務を合理化しようとしている企業ユーザーによって見落とされてはならない複雑な環境へのワークフローの採用についての彼らの見解であることを意味し、その規模でこれを行うためのより細かな点を理解することができる。
本質的に、Dongarra、Clydeや他の人がこれとHPCから企業へのシリーズの他のセグメントのために共有したモノの多くは、ワークフローの話題を中心に展開する。Jack Dongarraが述べたように、「今日の社会では、デジタル情報の処理は、生活の一部の習慣のようになっており、デジタルワークフローを作成する総合的なアイディアは、この一般的な意味において、ますます人気のメディアで個人の生産性の公平な議論が浸透しています。」
彼は、ワークフローの概念はまた、データ駆動型科学の時代での研究の全種類におけるサイバーインフラストラクチャについての考え方の多くに強い影響力を持つことだろうと主張する。「PetaやExabyteの速度で実験装置やシミュレーションから流れ出て来るデータを用いて作業することは固有の問題であり、もしくは大規模な多次元のデータセットを統合し、分析することは、物事がそうであるために単に難し過ぎます。ワークフローに挑戦するという点では、ビッグデータを生産し、管理する多くの分野の科学が、共通の制約を共有します。」
HPCおよび大規模企業アナリストのDan Oldsは、Gabriel Consultingと、これらのアイデアの幾つかを反復し、企業は「彼らが利用可能で、潜在的用途のあるそのデータ量にこれまでにない拡大を経験しています。」と指摘する。Oldsは、彼らのビジネスへの洞察を与えるだろうこのデータを通して精査する間、潜在的な競争優位性とともに単に数年前は不可能であり、無料のランチはありません、と言う。データの雪崩の中で金塊を見つけるには、計画、専門知識、および正しい技術への投資が必要である。
Oldsによると、「ビジネス側のアナリストは、本質的に異なる要素間の関係性を探して、テストするために、膨大な量の未加工なデータを整頓する機能を要求しようとしています。例えば、どのように初秋の人々は冬服の購入を考え始めるのでしょうか? これは場所、年齢、家族の人数によって異なるのでしょうか? 適切なタイミングで適切なバイヤーの前で私たちの冬のcoat-aploozaのセールの申し出を獲得するための最良の方法は何でしょうか? これらの質問の枠組みは、彼らの仕事であり、収集、格納、およびデータを処理する能力を提供するデータセンターの仕事です。ビジネスの分析的な要求を満たすことは、この頃の多くのデータセンター責任者にとって眠れぬ夜の多くの原因です。」
「問題は、データの規模とそれを処理するために必要な関連する計算能力から生じます。挑戦が複雑化すると、スピードが必要です – 彼らが価格設定、在庫レベル、とその他の重要な問題について迅速な意思決定を行うことができるように、企業経営者たちは、彼らの質問に対する答えを必要としています。」と彼は続けた。機会を利用するために返事の遅い答えは、無意味である。
企業と研究の両方のHPCデータ分析環境における最重要テーマは、データの海で「大きな魚」を追求することである。クラウドコンピューティング、ハードウェアアクセラレーション、ソフトウェア手法とツール、および他の側面を含むツールとアプローチを可能にするこのシリーズの次のセグメントを我々が見てみるように、HPCコミュニティからの大規模で複雑なデータを管理する方法に関する豊富な情報が、大きな焦点になるだろう。
2月に登場した、この複数回シリーズの紹介記事はここにある。