5月 28, 2014

HPCがHadoopをハッキング

HPCwire Japan

Nicole Hemsoth

この傾向は静かで相対的に少数のスーパーコンピューティングのサイトに渡って分散しているが、HadoopとHPCはより頻繁に手に手を取り合って跳ねている。この2つの技術分野は、お互いのために必要に迫られて作られた訳ではない。Hadoopができることは限られているが、最近の研究の広がりは可能性を押し広げており、特に科学計算アプリケーションのデータ集約型の領域にHadoopを適用する時だ。

Hadoopが主要な研究アプリケーションを強化しているという関連のニュースは滅多にないが、サンディエゴスーパーコンピュータセンター(HPCリソース上にHadoopを使うという包括的な概要を公表した最初のひとつ)を含んだこの途上にあるキーのセンターについて大きな関心を持って我々は見ており、ほぼ全てのメジャーなHPCベンダーが主要な機能強化、特製のディストリビューション、または新製品ラインでHadoopユーザを対象としていることに耳を傾けている。

HPCシステム用のHadoopの背後にある研究の勢いは、特にここ数年で取り上げられている。注目すべき項目は、データ集約型科学用のHadoopの別の探求、HPC環境へのMap/Reduceの適用、異なる並列ファイルシステムに渡る模索、スケジューリングの管理などなどだ。この傾向のいくつかの側面を扱う評価された記事は優に2,000を超えている。マップして、数ワードにリデュースする際の一般的なテーマは、HPCシステムに必要とされるツールが特に目的(特定の問題に、より合理化されたデータ管理・処理の可能性を提供する)が明らかな場合においてHadoopを合わせるように調整できることだ。

データ集約型計算やHadoopのHPCにおける可能性のある役割については、サンディエゴスーパーコンピュータセンター(SDSC)のGlenn K. Lockwood博士は具体的な課題と機会に関する重要な情報源の一人だ。最も顕著なのは、大規模システムのためのHadoopにおけるLockwoodの研究は、特にSDSCのGordon上のオープンソースである「ビッグデータ」プラットフォームの役割における彼の研究と言う点で、注目されている。

GordonはSDSCのフラッシュ・ベースのデータ集約型計算リソースである。「ビッグデータ」科学計算を目的としたものの、APPROが作ったシステムは16,160コアの強力な演算能力が詰め込まれており、最新のTOP500リストでは88位にランクされている。データ集約的な課題に取り組むために作られたGordonの本来の性能の尺度は、その秒当たりのINPUT/OUTPUT回数(IOPs)である。このシステムがまだインストール後の検収サイクルを実行していた際に、35百万IOPsを達成した。これらの全ての要素は、Lockwoodと彼の同僚のための主要な実験台として作られた。

SDSCでのユーザ・サービス・コンサルタントとしての彼の役割の中で、Lockwoodはデータ集約型計算の領域に渡るいくつものプロジェクトを追跡した。GordonでHadoopクラスタを実行するのは別として、彼の最も最近の調査では、HadoopストリーミングとPythonでHadoopアプリケーションを書くこと、スーパーコンピュータ群でR言語を使うこと(そして並列オプションを探すこと)、そしていくつかのデータ集約型計算フレームワーク、アーキテクチャと利用モデルのベンチマークをすることを含んでいる。

「従来のスーパーコンピュータとHadoopクラスタは非常に異なる問題を解決するために設計されており、結果的に別々に構成されていますが、領域の科学者はHadoopがどのように機能するかを学び、どのように彼らが直面するデータ集約型の問題に対処するのに有用であるかについて、益々興味を持ち始めています。」とLockwoodは説明している。「Gordon上でHadoopを利用可能にすることによって、全く新しいクラウドAPIを覚えたり、システム管理者になること無しに、研究者がその特長とメリットを見いだすのを簡単にできるのです。」

その代わり、ユーザは彼らがすでに使い慣れているプリメイドのジョブスクリプトをGordon上のバッチシステムに投入することでHadoopクラスタを起動できる、と彼は説明した。その後、「パーソナルHadoopクラスタ」がジョブの実行ノード上で起動され、ユーザはクラスタの分散ファイルシステムにデータをロードして、map/reduceのタスクを実行する。「文字通り1つのqsubコマンドで、Gordonの300GB SSDまたはLustreファイルシステムで支えられたHDFSを使って、Gordonの40Gbps InfiniBandファブリック上でフル機能のHadoopクラスタを開始します。」とLockwoodは語った。「これは750メガバイト/秒を超える速度でHDFSにデータを取り入れ、15分以内に1.6TBのTeraSortを完了することができるHadoopクラスタを実行するのです。Gordonは従来のおよびHadoopのベースのワークロードの両方でこの高性能を実現していますので、研究者は、プロダクション規模のデータセットで意味の性能の比較を行うことができます。」

Lockwoodは、解析の中でのHadoopの役割を見てみたい領域の科学者の参入障壁をいかに劇的に下げており、トレーニングと探索作業が現在Gordon上でSDSCで見られる多くのHadoopの利用を推進していることを強調した。「全国の大学の学部や研究者はデータ分析のコースを教えるためにGordonを使用しています。我々はまた多くのハンズオン・トレーニングを、ローカルおよびXSEDE、SDSCの夏の講習会およびUCSDの拡張プログラムを介して全国の研究コミュニティに行っています。さらに、Mahout、Pig、HBaseやRHadoopを含むHadoopに組み込まれた多くのアプリケーションの一連およびクラスルームのトレーニングを提供してきました。」

Lockwoodの見解では、最終的には、従来の領域の科学におけるHadoopのアプリケーションは、まだ始まったばかりである。それは、Hadoopに基づいたアプリケーションのエコシステムがMPIベースのエコシステムのように成熟していないからだ。しかし、いくつかの従来の領域ではないところに勢いがあると彼は言う。これらの領域の問題がmap/reduceパラダイムに自然にフィットするので、Gordon上でプロダクション研究用にHadoopを取り入れているバイオインフォマティクスや人類学だ。例えば、大規模なゲノム研究のためのスケーラブルな手段としてのCrossbow、CloudBurst、SeqPigのようなHadoop上に構築されたソフトウェアを探求することを始めたいくつかのプロジェクトを我々は支援しています。評価プロセスは早い段階でまだですが、Gordon上の標準ツールチェインと並んで、これらのHadoopベースのアプリケーションが実行できることは、努力を扱いやすくしています。」

Gordonのような複雑なシステム上にHadoopを展開する課題と機会に興味がある人のために、Lockwoodはここに豊富な概要を提供した。

Lockwoodと彼のSDSCの同僚の研究から外れて、さらに複雑な環境に適応させるためにHadoopをハックするHPCを支援する他のプロジェクトを指摘したいと思う。次のショートリストは我々がピックアップしたトップのプロジェクトである。

A review of the current state of Hadoop/MapReduce in bioinformatics
Enabling HPC applications on data-intensive file systems
Large scale molecular dynamics simulation utilizing Hadoop for important part of workload
Benchmarking Hadoop MapReduce and MPI on a cloud resource.
Genome resequencing using Intel’s distribution of Hadoop
MapReduce across distributed datacenters for data-intensive computing
How MPI might boost Hadoop and MapReduce applications
Thoughts on the data-intensive scalable computing storage substrate
Hadoop in the European Space Agency’s work via Gaia
Hadoop for remote sensing analysis
HPC and Hadoop for researchers on a shoestring budget

順位	機関名	システム名	ピーク性能(TFLOPS)
1	理化学研究所	富岳	537,212
2	東京工業大学	TSUBAME 4.0	59,400
3	産業技術総合研究所	ABCI 2.0	54,341
4	東京大学	Wisteria/BDEC-01	25,952
5	東北大学	AOBA-S	19,818
6	宇宙航空研究開発機構	TOKI-SORA	19,464
7	気象庁	PRIMEHPC FX1000	15,571
8	気象庁	PRIMEHPC FX1000	15,571
9	海洋研究開発機構	地球シミュレータ	13,448
10	匿名	Apollo 6500	9,669

eNewsletter

検索

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

HPCがHadoopをハッキング

調達情報

ニュース記事

お知らせ

特別イベント

SCA/HPCAsia 2026

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

第33回AT研究会オープンアカデミックセッション（ATOS33）特別企画「LLMによる生成AIのHPC適用」

第33回AT研究会オープンアカデミックセッション（ATOS33）特別企画「LLMによる生成AIのHPC適用」

【CAE懇話会】第102回関西CAE懇話会

2025年並列／分散／協調処理に関するサマー・ワークショップ（SWoPP 2025）

xSIG 2025

【産応協】第57回（2025年度第1回）産応協セミナー『AIとHPCの融合がもたらす次世代設計・予測最適化技術 – 自動車・材料設計，気象，トポロジー最適化 -』

SS研 HPCフォーラム2025 『HPC、どう使ってる？～より良いHPCにむけて～』

CBI学会2025年大会

SCA/HPCAsia 2026

寄稿者

HPCwire Japan

E-Marketings, Inc.

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

HPCがHadoopをハッキング

調達情報

ニュース記事

ホットな話題

お知らせ

特別イベント

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

寄稿者

HPCwire Japan

E-Marketings, Inc.