HPCとビッグ・データ:「両方の世界に最高」なアプローチ
Nicole Hemsoth

データ集約型計算とHPCには、特にマネージメント、性能の強調、ストレージとデータ移動について違いがあるが、いくつかの類似した両方にかかわる挑戦を共有するかもしれない。インディアナ大学のGeoffrey Fox博士によると、両方を合併すべき部分がある。
Fox博士と彼の同僚は、MPIとHadoopのアプローチを通して、「両方の世界に最高」の混合物を含む、異なる種類のデータ集約型計算パラダイムを比較する基礎となるものを提供しようと取り組んでいる。研究チームによると、「Hadoopを含むApacheビッグ・データ・スタックの成功と進化は、広く配備されたクラスター計算のフレームワークによる伝統的な科学的アプリケーションについて、多くの機会を与えます。」彼らの注意によると、相互運用性のパラダイムと、2つの分野の相違が続きそうであることの、両方を使うことは難しく、特にビッグ・データ・スタックの商用に導かれたオープン・ソース側のサポートは難しい。
Apache umbrella (Hbase, Mahout, YARN, Storm等)、絶えず増大する商業的なデータ処理需要によって大規模なデータ・センターで運用され、その下の120以上の枝のオープン・ソース・プロジェクトへの世界中からのサポートは、たとえHPCが勢いで権利を主張したかったとしても、独立してそうすることがほとんど不可能なことを意味する。
![]() |
多くの小さな点は言うまでもなく、世界のNetflixとAmazonで進行中の研究運動は、大規模なデータ集約型基盤の将来を推進している。しかし、これは性能に集中する場所がないことを意味しない。ソフトウェアだけで、そして、多くのアプリケーションのための付け足しの何かとして今まで強調された ひとつの分野がある。
ゴールは、一緒に情勢を共有する二つのデータ集約型計算パラダイムの両側で「車輪を再発明する」ことにある。Fox博士によると、「HPCの性能と、ビッグ・データ・スタックがコモディティーなユーザビリティーと柔軟性を発揮する、二つを合併することが可能です。」
博士の注意によると、HPCとビッグ・データのハイブリッドから利益を得られる一つの分野は、機械学習である。他には、HPCではないかもしれないが、いくつかの計算機科学と商業的な前後関係で使われる何かである。Fox博士によると、「大部分のこれらのアルゴリズムは、HPCになじみのものです。そこには中心となる線形代数があり、大規模な最適化問題を解決するための学習ネットワーク、HPCのように、性能を最適化するための超大規模並列ジョブがあります。」
解決策は、これらの問題に、HadoopとMPIを「反復MapReduce」に混ぜることである。本質的には、MPIとMapReduceが全く異なる訳ではない。ちょうど異なるトレードオフが、性能、フォールト・トレランス、柔軟性その他についてあり、それらは水平にスケーラブルではなく、データとアプリケーションの一つのプログラム・モデルを中心には回らない。Fox博士によると、モデルの違いを比較して、HadoopをMPI層に組み合わせる、YARN with HPCスケジューラーが、「両方の世界で最高の」アプローチを意味する。
K平均法 (訳注:データを類似するクラスターに分類する、クラスター分析アルゴリズムのひとつ) を使って説明しよう。MPIは確かにHadoopを追い越すが、SparkとHARPを含むHPCとビッグ・データの混合物は、他の側のテクノロジーを使って性能を押し上げられる。
データ集約型計算のコインの片側を既に選んだが、商業的な環境の多くは、Javaによるアプリケーションを使って、MPI層に複雑さを加えている。あるいは、これは、HPCに対してJavaに注目するように要求するのかもしれない。潜在的な車輪の再発明だ。しかし、Fox博士の主張によると、高性能Javaに関する彼の広範囲な業績により、C、C++、C#コードがJavaに移植されると、注目すべき性能の類似がある。そして、それは、商業的ビッグ・データに多く使われている言語がしだいにHPCに近づいてくることを意味するかもしれず、Pythonを含む他の高水準スクリプティング言語についても言えることだ。
ハイブリッド・アプローチの詳細は次にある
http://arxiv.org/pdf/1403.1528.pdf