世界のスーパーコンピュータとそれを動かす人々


5月 28, 2014

HPCがHadoopをハッキング

HPCwire Japan

Nicole Hemsoth

この傾向は静かで相対的に少数のスーパーコンピューティングのサイトに渡って分散しているが、HadoopとHPCはより頻繁に手に手を取り合って跳ねている。この2つの技術分野は、お互いのために必要に迫られて作られた訳ではない。Hadoopができることは限られているが、最近の研究の広がりは可能性を押し広げており、特に科学計算アプリケーションのデータ集約型の領域にHadoopを適用する時だ。

Hadoopが主要な研究アプリケーションを強化しているという関連のニュースは滅多にないが、サンディエゴスーパーコンピュータセンター(HPCリソース上にHadoopを使うという包括的な概要を公表した最初のひとつ)を含んだこの途上にあるキーのセンターについて大きな関心を持って我々は見ており、ほぼ全てのメジャーなHPCベンダーが主要な機能強化、特製のディストリビューション、または新製品ラインでHadoopユーザを対象としていることに耳を傾けている。

HPCシステム用のHadoopの背後にある研究の勢いは、特にここ数年で取り上げられている。注目すべき項目は、データ集約型科学用のHadoopの別の探求、HPC環境へのMap/Reduceの適用、異なる並列ファイルシステムに渡る模索、スケジューリングの管理などなどだ。この傾向のいくつかの側面を扱う評価された記事は優に2,000を超えている。マップして、数ワードにリデュースする際の一般的なテーマは、HPCシステムに必要とされるツールが特に目的(特定の問題に、より合理化されたデータ管理・処理の可能性を提供する)が明らかな場合においてHadoopを合わせるように調整できることだ。

データ集約型計算やHadoopのHPCにおける可能性のある役割については、サンディエゴスーパーコンピュータセンター(SDSC)のGlenn K. Lockwood博士は具体的な課題と機会に関する重要な情報源の一人だ。最も顕著なのは、大規模システムのためのHadoopにおけるLockwoodの研究は、特にSDSCのGordon上のオープンソースである「ビッグデータ」プラットフォームの役割における彼の研究と言う点で、注目されている。

GordonはSDSCのフラッシュ・ベースのデータ集約型計算リソースである。「ビッグデータ」科学計算を目的としたものの、APPROが作ったシステムは16,160コアの強力な演算能力が詰め込まれており、最新のTOP500リストでは88位にランクされている。データ集約的な課題に取り組むために作られたGordonの本来の性能の尺度は、その秒当たりのINPUT/OUTPUT回数(IOPs)である。このシステムがまだインストール後の検収サイクルを実行していた際に、35百万IOPsを達成した。これらの全ての要素は、Lockwoodと彼の同僚のための主要な実験台として作られた。

SDSCでのユーザ・サービス・コンサルタントとしての彼の役割の中で、Lockwoodはデータ集約型計算の領域に渡るいくつものプロジェクトを追跡した。GordonでHadoopクラスタを実行するのは別として、彼の最も最近の調査では、HadoopストリーミングとPythonでHadoopアプリケーションを書くこと、スーパーコンピュータ群でR言語を使うこと(そして並列オプションを探すこと)、そしていくつかのデータ集約型計算フレームワーク、アーキテクチャと利用モデルのベンチマークをすることを含んでいる。

「従来のスーパーコンピュータとHadoopクラスタは非常に異なる問題を解決するために設計されており、結果的に別々に構成されていますが、領域の科学者はHadoopがどのように機能するかを学び、どのように彼らが直面するデータ集約型の問題に対処するのに有用であるかについて、益々興味を持ち始めています。」とLockwoodは説明している。 「Gordon上でHadoopを利用可能にすることによって、全く新しいクラウドAPIを覚えたり、システム管理者になること無しに、研究者がその特長とメリットを見いだすのを簡単にできるのです。」

その代わり、ユーザは彼らがすでに使い慣れているプリメイドのジョブスクリプトをGordon上のバッチシステムに投入することでHadoopクラスタを起動できる、と彼は説明した。その後、「パーソナルHadoopクラスタ」がジョブの実行ノード上で起動され、ユーザはクラスタの分散ファイルシステムにデータをロードして、map/reduceのタスクを実行する。「文字通り1つのqsubコマンドで、Gordonの300GB SSDまたはLustreファイルシステムで支えられたHDFSを使って、Gordonの40Gbps InfiniBandファブリック上でフル機能のHadoopクラスタを開始します。」とLockwoodは語った。「これは750メガバイト/秒を超える速度でHDFSにデータを取り入れ、15分以内に1.6TBのTeraSortを完了することができるHadoopクラスタを実行するのです。Gordonは従来のおよびHadoopのベースのワークロードの両方でこの高性能を実現していますので、研究者は、プロダクション規模のデータセットで意味の性能の比較を行うことができます。」

Lockwoodは、解析の中でのHadoopの役割を見てみたい領域の科学者の参入障壁をいかに劇的に下げており、トレーニングと探索作業が現在Gordon上でSDSCで見られる多くのHadoopの利用を推進していることを強調した。「全国の大学の学部や研究者はデータ分析のコースを教えるためにGordonを使用しています。我々はまた多くのハンズオン・トレーニングを、ローカルおよびXSEDE、SDSCの夏の講習会およびUCSDの拡張プログラムを介して全国の研究コミュニティに行っています。さらに、Mahout、Pig、HBaseやRHadoopを含むHadoopに組み込まれた多くのアプリケーションの一連およびクラスルームのトレーニングを提供してきました。」

Lockwoodの見解では、最終的には、従来の領域の科学におけるHadoopのアプリケーションは、まだ始まったばかりである。それは、Hadoopに基づいたアプリケーションのエコシステムがMPIベースのエコシステムのように成熟していないからだ。しかし、いくつかの従来の領域ではないところに勢いがあると彼は言う。これらの領域の問題がmap/reduceパラダイムに自然にフィットするので、Gordon上でプロダクション研究用にHadoopを取り入れているバイオインフォマティクスや人類学だ。例えば、大規模なゲノム研究のためのスケーラブルな手段としてのCrossbow、CloudBurst、SeqPigのようなHadoop上に構築されたソフトウェアを探求することを始めたいくつかのプロジェクトを我々は支援しています。評価プロセスは早い段階でまだですが、Gordon上の標準ツールチェインと並んで、これらのHadoopベースのアプリケーションが実行できることは、努力を扱いやすくしています。」

Gordonのような複雑なシステム上にHadoopを展開する課題と機会に興味がある人のために、Lockwoodはここに豊富な概要を提供した。

Lockwoodと彼のSDSCの同僚の研究から外れて、さらに複雑な環境に適応させるためにHadoopをハックするHPCを支援する他のプロジェクトを指摘したいと思う。次のショートリストは我々がピックアップしたトップのプロジェクトである。