世界のスーパーコンピュータとそれを動かす人々


5月 19, 2014

リアルタイム解析へのインメモリーキー

HPCwire Japan

Dr. William Bain

リアルタイム解析は、事業システム内で「その場」で急速に変化するデータを調べ、ミリ秒から秒単位でのフィードバックを得る能力を企業に提供する。例えば、金融サービス組織内のヘッジファンドは、様々な市場分野(ハイテク、不動産など)での長期および短期株式の格付けのポートフォリオ(「戦略」)についての市場変動の影響を追跡し、そしてすぐに再調整を必要とする戦略を識別することができる。電子商取引企業は、在庫不足を回避し、注文が正確に記入されていることを保証するために、リアルタイムに受注や在庫を調整することができる。

データ移動を避けるためにデータ並列コンピューティングを使用

特に成長しているワークロードで、リアルタイム性能の鍵は、メモリベースのデータ並列コンピューティングを使用することである。科学的アプリケーションで使用されるスーパーコンピュータのように基本的に同じ並列コンピューティングアーキテクチャで構築されるインメモリデータグリッド(IMDG)は、メモリベースのデータを保持し、分析するためにクラスター化されたサーバセット上で実行される。IMDGは、増え続けるワークロードを処理する必要があるアプリケーションによって必要とされる厳密な特質であるアクセス時間を一定に保つ。より重要なのは、多くのIMDGは、グリッドのサーバー上に保存されたデータを更新し、分析するためにデータ並列アプリケーションを駐留させることができる。これは、リアルタイム分析を実行するためのIMDGの力量の鍵である。

データ並列アプローチの性能面での恩恵は、劇的である。これを説明するために、「バックテスト」と呼ばれる技法を使用する金融サービスモデル化におけるリスク分析処理による幾つかの性能測定を見てみよう。この分析は、株式の収集のために記録された価格履歴を用いる様々な株式取引アルゴリズムを比較する。それぞれの価格履歴は、IMDG内の単一オブジェクトの中に格納され、サーバが分析のための株式を割り当てられた。(IMDGのインメモリストレージもまた、取引システムへのリアルタイムなフィードバックを有効にするために株式相場速報フィードから価格履歴を更新出来ることに注意。)

以下の表は、サーバが株式のランダムセットを分析する従来の「タスク並列」技術とサーバが同じサーバ上に格納されている株式をただ調べるデータ並列技術を比較する。データ並列アプローチ(赤線)が、どのように作業負荷が増加するにつれて、IMDGサーバがクラスターへ追加され線形的な性能スケールを維持するのかについて注目。対照的に、タスク並列アプローチ(青線)は、実質的なネットワークオーバーヘッドを発生するリモートサーバからオブジェクトへアクセスが行われるため、十分な性能スケールへ到達することができない。

20140306-F1-1

データの移動を回避することによって、データ並列アプローチは、より高い性能を提供する。すべてのデータは、分析のためネットワーク越しに別のサーバへ送信される必要のない適切なところで分析される。データ並列分析を実行するIMDGは、可能な限り低い遅延時間で結果を出すために、この線形的なスピードアップをフルに活用することができる。これはIMDG内で急速に変化するデータを保持し、リアルタイムに分析を実行することを可能にし、それらが複雑なアプリケーションを実装するためのスケーラブルな計算を伴うIMDGのメモリ内ストレージと組み合わされる。

金融サービスでの例

特定市場を追跡するのための取引戦略を追跡するヘッジファンドの例を考える。これらの戦略のためのデータは、各々のハイテクや不動産などの市場部門を表し、その市場部門のための株式の位置づけとルールを保持しているオブジェクトの集合としてIMDG内に格納することができる。したがってIMDGは、すべてのグリッドサーバを跨る収集物の内側へオブジェクトを自動的に配布し、データ並列分析がクラスター全体で負荷分散されることを確実にする。

IMDGは、流入市場フィードからの相場変動のスナップショットで各戦略オブジェクトを更新し、株式取引の必要性を確認する戦略の評価を行う両方のデータ並列計算を継続的に実行する。すべての戦略に渡って並列にこの分析を行うことにより、IMDGは従来のディスクベースで必要だった数分に代わり、連続的な分析でミリ秒単位で結果を生成する。データ移動がないことは、データ並列分析を実行するために必要であり、そして最大性能が達成される。

次の図は、IMDGがどのように戦略セットを駐留させ、価格変動のスナップショットを含む活性市場フィードでそれらを更新しながらこの分析を実行するかを示している。その分析では、再均衡を必要とする戦略のためのトレーダー(もしくは自動取引システム)へ警戒ストリームを生成する。図は、データ並列分析がすべてのオブジェクトに対して並列に解析コードを実行し、その後にトレーダーへの伝達のために結果を全体的に結合する平行メソッド呼び出しる(PMI)と呼ばれる技術によって実行されることを示す。

20140306-F1-2

実質的な効果は、ヘッジファンドが今、その戦略を更新し、現在の市場状況に基づいてポートフォリオを再均衡化するためにリアルタイムで警報を得ることができることである。2K戦略を使用し、概念の立証を実装し、約330ミリ秒以内にアラートを配信する4台のサーバから成るクラスター上に40Kの位置の総数を追跡する。これは、Apache Hadoopプラットフォーム上でこの分析を実行するよりも40倍以上速いことが測定され、リアルタイム分析を実行するIMDGの力を示している。

総括

インメモリデータグリッドは、急速に変化するメモリ内データを保持し、非常にスケーラブルなデータ並列計算を行なうための強力で、その上簡単に使えるプラットフォームを提供する。これは、IMDGがシームレスに業務システムに統合され、「生」のデータでリアルタイム分析を実行し、これらのシステムに価値を付加するために多くの新しいチャンスを開く。