世界のスーパーコンピュータとそれを動かす人々


6月 11, 2014

DOEエクサスケールロードマップはビッグデータを強調

HPCwire Japan

Tiffany Trader

あなたが米国のエクサスケールロードマップを追跡しているなら、ひとつには米国エネルギー省(DOE)の科学局の高度科学計算研究部門(ASCR)の部門ディレクター、William (“Bill”) J. Harrodの仕事をフォローし続けることだ。 1月にHarrodは、科学技術のフロンティアを推し進めるためのDOEの使命は、今日のコンピュータよりも同様のサイズと消費電力で、500から1000倍以上の能力のあるマシンであるエクサスケール・コンピューティングを必要とするだろうと主張している。

Harrodの査定に沿って、 DOE職員はエクサスケール•コンピューティングを実現するための10年間のロードマップを確立した。関連する研究をトップ10の技術的な課題に設定し、第一位に今日より40倍優れてたエネルギー効率、第二位により効率的なデータの移動を促進するインターコネクト技術が含まれている。

この報告書の改訂版であるビッグデータと科学的発見では、彼らがユビキタスデータの爆発に関連するとして、ポストペタスケール時代の課題に集中している。Alok Choudharyが観測しているように、「実践的で重要な極少数の大規模アプリケーションは、データ集約的ではありません。」 この新しいパラダイムは、コンピューティング技術とデータ管理における大幅に新しい進歩を求めている。

この更新されたレポートでHarrodは、既存のソリューションから規模を拡大、または修正することによって単純にコンピューティングとデータの課題を処理することはもはや不可能であると主張する。問題は、国および国境を横断するデータや研究を共有する必要性によってさらに複雑化する。 「コラボレーションは本質的に『ビッグデータ』の問題である。」とHarrodは指摘する。

DOE科学局が概要を述べる4つの主要な科学的データの課題の概要は次の通りである:

  • 計算科学のためのワークフローは、エクサスケールシステムのためのコンピュータアーキテクチャの根本的な変化を起こさねばならない
  • 過去を打破する:シミュレーションや実験などの従来の科学的ワークフローは、 後の分析のためにデータをディスクに保存している
  • 悪化するI/Oボトルネックとデータ移動のエネルギーコストの組合せが、ディスクへ全てのデータを保存することを不可能にする
  • スーパーコンピュータ上でシミュレーションの実行中に、その場でデータ解析が発生する

彼らがデータ管理、分析、可視化に関連するようなこれらの課題に対処するために、 DOEのコンピュータ科学者、Lucy Nowellは12ポイントのアプローチに編纂し、下記に再構成した:

  1. データ移動を最小化するデータ構造と横断アルゴリズム
  2. 結果とデータ再利用の検証をサポートするデータ削減/優先順位付けのための方法
  3. 厳しいデータ削減にもかかわらず、予想外を発見するために探索的分析を行う能力の維持
  4. データの起源を捕獲し、使用するための知識表現と機械推論
  5. シミュレーションとデータの管理、その場で実行され実行されている分析と可視化技術の間でのリソースアクセスの調整
  6. 先験的な知識への依存度を最小化したその場データ分析の方法
  7. 高速、大容量複合センサ、複合解像度データのためのデータ分析アルゴリズム
  8. シミュレーションと実験/観測データの比較および/または統合分析方法
  9. データ管理、処理、分析と可視化をサポートするための共有可能なサイト内科学ワークフローの設計
  10. エラーを起こしがちなシステムに相対したデータ整合性の維持
  11. それらを検証するための規模と基準におけるデータセットのための可視的分析方法
  12. 実験、シミュレーション、データポイントの科学的な意味をより豊かに表現するためにファイルの概念を越えて動くデータストレージのために改良された抽象化

20140407-F2-1

提案されているエクサスケール・コンピューティング構想のタイムラインはまた、ノード・プロトタイプ(P0)を2018年初頭に、ペタスケール・プロトタイプを2019年初頭、そしてエクサスケールのプロトタイプを2022年に軌道に載せるように、さらに正確な成果物を含むように拡張されている。