ビッグデータ研究はStratosphere(成層圏)に
Tiffany Trader

2月に日本の福岡で開催されたBig Data and Extreme-scale Computing (BDEC) ワークショップから出て来た多くの魅力的な論文の中で、ベルリン工科大学(TU Berlin)で常勤教授とデータベースシステムと情報管理(DIMA: Database Systems and Information Management)グループの議長のVolker Markl博士からの意見論文で、Stratosphereデータ分析プラットフォームの利点について詳細な説明を行った。
Markl博士は、どのようにして過去10年間が我々の生活のほぼ全ての局面に影響を与える重大なデジタル変革の先駆けとなったのかについて書いている。殆どの技術の進歩と同様、その機会は無数の挑戦に伴って起こり、そしてこれらの多くはビッグデータの周辺で展開している。
Marklは、ストレージコストの減少、クラウド・コンピューティングの急増、およびネットワーク機器の大幅な増加で殺到するデジタルデータの一部を追跡している。彼は、暫くの間、「一見すると、これは私たちのますますネットワーク化された社会にとって好都合であるように見えます・・・が、いろいろな意味でそれは重荷です。」と書いている。
「データは情報でも知識でもありません。」と彼は続ける。「代わりに、一度洗練され、分析され、関心のある問題について十分定式化された疑問に対処するために分析されたのであれば、データは非常に価値があります。それが経済的、社会的利益を完全に実現することができるのは、その後だけです。 」
有用なデータであるためには、何か訴求出来るものへ刷り込まれる必要がある。このプロセスは、グラフとネットワーク解析、機械学習、数学、統計、信号処理、テキスト処理などを含む多くのフィールドからの技法で導き出されている。才能のあるデータ科学者は、複雑なスキルを多数持つ「jack-of-all-trades」でなければならない。しかし、このような十分訓練され経験豊富な個人の供給が不足しているとMarklは指摘し、そしてこの才能にアクセスすることは、ビッグデータから生成することができる限られた価値のため高価である。
ビッグデータの時代が我々に知られる前までは、 HPCに精通したプログラマは、主に、MPIの経験を持っていなければならなかった。大部分のスケーラビリティの問題は、高レベルプログラミング言語、コンパイラ、データベースシステムによって処理されていたためだとMarklは主張する。
「対照的に、今日存在する技術は、必要とするデータ量、データレートおよび不均一性、そして関係代数、複雑なユーザ定義関数の採用、反復、および分散状態を超えた解析アルゴリズムの複雑性などのビッグデータ要件に基づくそれらの限界に達しています。」とMarklは書いている。
このための対策は、 Marklによると、ビッグデータ・システムのためにデータベースシステムに内在する宣言型言語の概念を実装することである。これに含まれる関連する課題は:
1. システムのプログラミング能力を必要としないプログラミング言語仕様の設計
2. 彼ら自身で選択したコンピューティング・プラットフォームへこのプログラミング言語で表されるプログラムを対応付ける
3. スケーラブルな方法でこれらを実行
Marklは、自動的に最適化しないシステム(例えば、 MPI 、 MapReduceやHadoop)、命令型言語(例えば、C ) 、オブジェクト指向言語(例えば、 Javaなど) 、およびチューニング不能な外部ドライバプログラムを伴うリレーショナル指向言語(例えば、 SQL、 XQuery、Pig、Hive、およびJAQL )と、スケールしない技術計算システム(例えば、 RとMATLAB )の中で、宣言型言語はアルゴリズム仕様があるビッグデータ分析での現在の「石器時代」から抜け出す方法になるだろうと確信している。
彼は、Stratosphereと呼ばれる次世代のビッグデータ分析基盤とSparkやGraphLabなど他の次世代ビッグデータ分析システムが、より深いデータ分析への道筋を提供すると強調する。
Stratosphereは、JavaとScalaと超並列即時データ分析を有効にするための高性能ランタイムでのプログラミングの抽象化とMapReduce/Hadoopの強みを兼ね備える。そのフレームワークは、反復、増分反復、および運用の大規模なDAGからなるプログラムをネイティブにサポートしている。
Stratosphereは、単一システム内で深い分析と共に情報の抽出と統合オペレーションを処理し、単一の環境内でグラフ処理や機械学習のための多くの特殊なシステムを組み込むことができるとMarklは書いている。Apache 2.0のライセンスの下でオープンソース化されたStratosphereは、計算クラスタで単独でネイティブに、またはYARNを介して任意のHadoopクラスタで動作する。
Marklによると、Stratosphereは現在、関係代数を超えた先進的なデータ解析プログラムのためのクエリオプティマイザが含まれているビッグデータ分析のための唯一のシステムである。目的は、データ科学者がプログラムが拡大して行っても多くの時間を費やすことなく、主要なタスクに集中するを可能にすることである。