5月 9, 2014

HPCとビッグ・データ：「両方の世界に最高」なアプローチ

HPCwire Japan

Nicole Hemsoth

データ集約型計算とHPCには、特にマネージメント、性能の強調、ストレージとデータ移動について違いがあるが、いくつかの類似した両方にかかわる挑戦を共有するかもしれない。インディアナ大学のGeoffrey Fox博士によると、両方を合併すべき部分がある。

Fox博士と彼の同僚は、MPIとHadoopのアプローチを通して、「両方の世界に最高」の混合物を含む、異なる種類のデータ集約型計算パラダイムを比較する基礎となるものを提供しようと取り組んでいる。研究チームによると、「Hadoopを含むApacheビッグ・データ・スタックの成功と進化は、広く配備されたクラスター計算のフレームワークによる伝統的な科学的アプリケーションについて、多くの機会を与えます。」彼らの注意によると、相互運用性のパラダイムと、2つの分野の相違が続きそうであることの、両方を使うことは難しく、特にビッグ・データ・スタックの商用に導かれたオープン・ソース側のサポートは難しい。

Apache umbrella (Hbase, Mahout, YARN, Storm等)、絶えず増大する商業的なデータ処理需要によって大規模なデータ・センターで運用され、その下の120以上の枝のオープン・ソース・プロジェクトへの世界中からのサポートは、たとえHPCが勢いで権利を主張したかったとしても、独立してそうすることがほとんど不可能なことを意味する。

多くの小さな点は言うまでもなく、世界のNetflixとAmazonで進行中の研究運動は、大規模なデータ集約型基盤の将来を推進している。しかし、これは性能に集中する場所がないことを意味しない。ソフトウェアだけで、そして、多くのアプリケーションのための付け足しの何かとして今まで強調されたひとつの分野がある。

ゴールは、一緒に情勢を共有する二つのデータ集約型計算パラダイムの両側で「車輪を再発明する」ことにある。Fox博士によると、「HPCの性能と、ビッグ・データ・スタックがコモディティーなユーザビリティーと柔軟性を発揮する、二つを合併することが可能です。」

博士の注意によると、HPCとビッグ・データのハイブリッドから利益を得られる一つの分野は、機械学習である。他には、HPCではないかもしれないが、いくつかの計算機科学と商業的な前後関係で使われる何かである。Fox博士によると、「大部分のこれらのアルゴリズムは、HPCになじみのものです。そこには中心となる線形代数があり、大規模な最適化問題を解決するための学習ネットワーク、HPCのように、性能を最適化するための超大規模並列ジョブがあります。」

解決策は、これらの問題に、HadoopとMPIを「反復MapReduce」に混ぜることである。本質的には、MPIとMapReduceが全く異なる訳ではない。ちょうど異なるトレードオフが、性能、フォールト・トレランス、柔軟性その他についてあり、それらは水平にスケーラブルではなく、データとアプリケーションの一つのプログラム・モデルを中心には回らない。Fox博士によると、モデルの違いを比較して、HadoopをMPI層に組み合わせる、YARN with HPCスケジューラーが、「両方の世界で最高の」アプローチを意味する。

K平均法 (訳注：データを類似するクラスターに分類する、クラスター分析アルゴリズムのひとつ) を使って説明しよう。MPIは確かにHadoopを追い越すが、SparkとHARPを含むHPCとビッグ・データの混合物は、他の側のテクノロジーを使って性能を押し上げられる。

データ集約型計算のコインの片側を既に選んだが、商業的な環境の多くは、Javaによるアプリケーションを使って、MPI層に複雑さを加えている。あるいは、これは、HPCに対してJavaに注目するように要求するのかもしれない。潜在的な車輪の再発明だ。しかし、Fox博士の主張によると、高性能Javaに関する彼の広範囲な業績により、C、C++、C#コードがJavaに移植されると、注目すべき性能の類似がある。そして、それは、商業的ビッグ・データに多く使われている言語がしだいにHPCに近づいてくることを意味するかもしれず、Pythonを含む他の高水準スクリプティング言語についても言えることだ。

ハイブリッド・アプローチの詳細は次にある
http://arxiv.org/pdf/1403.1528.pdf

順位	機関名	システム名	ピーク性能(TFLOPS)
1	理化学研究所	富岳	537,212
2	東京工業大学	TSUBAME 4.0	59,400
3	産業技術総合研究所	ABCI 2.0	54,341
4	東京大学	Wisteria/BDEC-01	25,952
5	東北大学	AOBA-S	19,818
6	宇宙航空研究開発機構	TOKI-SORA	19,464
7	気象庁	PRIMEHPC FX1000	15,571
8	気象庁	PRIMEHPC FX1000	15,571
9	海洋研究開発機構	地球シミュレータ	13,448
10	匿名	Apollo 6500	9,669

すべての国内スパコンリストはこちらから。

西克也
西克也はフェアチャイルド社、クレイ・リサーチ社、ベストシステムズ社など、30年以上に渡ってHPCに関する仕事に従事している。Hpcwire Japanの編集長として記事の作成と翻訳を行っている。

島田佳代子
1999年～2007年まで英国在住。2001年よりスポーツ、旅、ビジネス、映画など幅広いジャンルで執筆活動を開始し、Hpcwire Japanでは主に日本のHPC業界が世界に誇る研究者、開発者の方々のインタビューを担当。

小柳義夫
小柳義夫氏は40年以上に亘ってHPCに携わってきた研究者であり、日本のHPC業界における生き字引として有名。現在　高度情報科学技術研究機構に所属し、産業界のHPC推進にあたっている。

小西史一
小西史一は、理化学研究所、東京工業大学においてHPCおよびバイオインフォマティクスに関する研究と教育に携わってきた研究者。2012年からフォトグラファーとしての活動を開始し、現在はIT技術・セキュリティのコンサルティング業務に携わっている。

eNewsletter

検索

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

HPCとビッグ・データ：「両方の世界に最高」なアプローチ

調達情報

ニュース記事

お知らせ

特別イベント

【R-CCS】イブニングセミナー　HPCシミュレーション、AI、量子ハイブリッドの夕べ　～SCA/HPCAsia 2026の挑戦～

SCA/HPCAsia 2026

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

SS研 HPCフォーラム2025 『HPC、どう使ってる？～より良いHPCにむけて～』

FIT2025 第24回情報科学技術フォーラム

【産応協】対話交流会セミナー『計算機利用技術の最前線～シミュレーションと計測との融合からAI、量子コンピュータまで～』

【CAE懇話会】第103回関西CAE懇話会『計算機利用技術の最前線　～シミュレーションと計測との融合からAI、量子コンピュータまで～』

【R-CCS】イブニングセミナー　HPCシミュレーション、AI、量子ハイブリッドの夕べ　～SCA/HPCAsia 2026の挑戦～

第201回ハイパフォーマンスコンピューティング研究発表会

【RIST】第20回材料系ワークショップ　〜分野横断で取り組むデータ利活用促進に向けた国産ソフトウェアの新アーキテクチャ対応〜

【RIST】第12回「富岳」を中核とするHPCIシステム利用研究課題成果報告会

CBI学会2025年大会

International Symposium on Computing and Networking (CANDAR 2025)

寄稿者

HPCwire Japan

E-Marketings, Inc.

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

HPCとビッグ・データ：「両方の世界に最高」なアプローチ

調達情報

ニュース記事

ホットな話題

お知らせ

特別イベント

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

寄稿者

HPCwire Japan

E-Marketings, Inc.