4月 15, 2014

HPC環境へのHadoopの適用

HPCwire Japan

Carlo del Mundo

MapReduceは今日の並列処理のユビキタスの世界において、その比較的使いやすいことでよく知られている。このモデルの美しさは、並列性、耐障害性、同期、およびユーザの入力管理の詳細を離れて、免除または抽象する能力である。通常ユーザは2つの一様な関数を使用してアルゴリズムを書く、単一の演算ノードを念頭に置いたマップとレデュースだ。MapReduceのフレームワークは、これらの機能を取り込み、自動的にコモディティクラスタ上で、それらを並列化する。このプログラミングの面倒の無い方法は、多くのサーバ間でスケーラビリティのある高いプログラマの生産性を提供している。

現在までのところ、最もポピュラーなMapReduceの実装は、Hadoop分散ファイルシステム（HDFS）を活用したApache Hadoopだ。しかし、国立エネルギー研究科学計算センター（NERSC）が採用しているような現在のHPC環境では、共有ディスクファイルシステムを使用している。ニューヨーク州立大学Binghamton校のコンピュータサイエンス学科の准教授であるMadhusudhan Govindarajuは述べている、「既にPOSIXに準拠の高性能のファイルシステムに依存している多くのHPC環境の中では、HDFSは好まれていません。」

それでも共有ディスクファイルシステムを使用しているHPC環境にHDFSを統合することは可能だ。しかし、このようなHPC環境にHDFSをshoehorningすることは、性能に悪影響を与える間接の層を必要とする。ソフトウェアスタックは、Apache Hadoopの制約の下で動作するように変更されている。 Govindarajuは「特定のソフトウェアスタックのためにクラスタを分割することは、資源の非効率的な利用率をもたらし、MapReduceの利用者はHPCインフラをフルに活用することができません。」と強調している

HPC環境をサポートする上での問題に対処するためにGovindarajuと彼のチームは、NERSCが提供するようなポピュラーなHPC環境に最適である新しいMapReduceのフレームワークを開発した。MARIANE(MApReduce Implementation Adapted for HPC Environments)と呼ばれる、そのフレームワークは、Apache Hadoopに関連したパフォーマンスの低下無しの高性能を維持を念頭に置いて共有ディスクファイルシステムで設計されている。

MARIANEは、いかなるMapReduceにおける同じ基本的な教義に従っている。（1）耐障害性、（2）高スループット、および（3）データ管理。耐障害性は、自動的に検出し修理可能なエラーから回復することが、このようなフレームワークのための最も重要な目標であることに焦点を当てている。次に、MapReduceのジョブは最終的に数百テラバイトのデータである非常に大規模なデータセットにおいて高スループットを必要とする。そのようなフレームワークにおけるデータ管理は、小さなチャンクにデータを細分化し、それぞれのハードウェアに適切にスケジュールする。

MARIANEによって、MapReduceのパラダイムの適用は、システムのパフォーマンスを損なうことなく、HPC環境の広い配列に拡張される。 Govindarajuと彼の研究者は、大幅なパフォーマンスの向上と、典型的なHPC環境の下では、Apache Hadoopに比べて、アプリケーションのオーバーヘッドの減少を示している。

我々は最近、いかにHPCがHadoopをハッキングしているかというコンテキストで、サンディエゴスーパーコンピュータセンターで話をした。(この傾向がどのように発展しているかに対するより個人的な態度を捜すもののための固定した読み取りである)

順位	機関名	システム名	ピーク性能(TFLOPS)
1	理化学研究所	富岳	537,212
2	産業技術総合研究所	ABCI 3.0	181,490
3	ソフトバンク株式会社	CHIE-4	151,880
4	ソフトバンク株式会社	CHIE-3	138,320
5	ソフトバンク株式会社	CHIE-2	138,320
6	産業技術総合研究所	ABCI-Q	99,350
7	最先端共同HPC基盤施設	Miyabi-G	72,800
8	FPTジャパンホールディングス	FPT AI Factory	67,440
9	東京科学大学	TSUBAME 4.0	61,600
10	さくらインターネット	SAKURAONE	47,790

すべての国内スパコンリストはこちらから。

西克也
西克也はフェアチャイルド社、クレイ・リサーチ社、ベストシステムズ社など、30年以上に渡ってHPCに関する仕事に従事している。Hpcwire Japanの編集長として記事の作成と翻訳を行っている。

島田佳代子
1999年～2007年まで英国在住。2001年よりスポーツ、旅、ビジネス、映画など幅広いジャンルで執筆活動を開始し、Hpcwire Japanでは主に日本のHPC業界が世界に誇る研究者、開発者の方々のインタビューを担当。

小柳義夫
小柳義夫氏は40年以上に亘ってHPCに携わってきた研究者であり、日本のHPC業界における生き字引として有名。現在　高度情報科学技術研究機構に所属し、産業界のHPC推進にあたっている。

小西史一
小西史一は、理化学研究所、東京工業大学においてHPCおよびバイオインフォマティクスに関する研究と教育に携わってきた研究者。2012年からフォトグラファーとしての活動を開始し、現在はIT技術・セキュリティのコンサルティング業務に携わっている。

eNewsletter

検索

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

HPC環境へのHadoopの適用

調達情報

ニュース記事

お知らせ

特別イベント

International Conference for High Performance Computing, Networking, Storage & Analysis (SC26)

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

【PCCC】PCCワークショップin 神戸 2026 「AIによるHPC／AI-driven HPC」

【RIST】第48回HPCプログラミングWebセミナー: チューニング技法入門

インダストリアルデジタルツインサミット 2026

【CAE懇話会】第45回中部CAE懇話会　CAEを導入して、できる事、できない事

【CAE懇話会】第45回中部CAE懇話会： CAEを導入して、できる事、できない事～CAEを導入、利用するために必要な事～

2026年並列／分散／協調処理に関するサマー・ワークショップ（SWoPP 2026）

リコンフィギャラブルシステム研究会 (RECONF)

【RIST】第13回成果報告会／第9回HPCIコンソーシアムシンポジウム

寄稿者

HPCwire Japan

E-Marketings, Inc.

PLUTNUM

GOLD

SILVER

HPCの歩み50年記事一覧

スパコンリスト日本

記事寄稿について

HPC環境へのHadoopの適用

調達情報

ニュース記事

ホットな話題

お知らせ

特別イベント

技術資料ダウンロードサービス

スパコン調達手続き中

国内スパコン上位10システム(TOP500順)

近日開催国内イベント

寄稿者

HPCwire Japan

E-Marketings, Inc.