世界のスーパーコンピュータとそれを動かす人々


7月 14, 2015

ビッグデータとエクサスケールの必要な結合

HPCwire Japan

John Russell

エクサスケール・コンピューティングを達成するための努力にビッグデータコンピューティングの洞察を取り入れることに関する怠慢は重大な誤りであると、Daniel ReedとJack DongarraはACMジャーナル通信の7月号に掲載されたExascale Computing and Big Dataの記事の中で主張している。科学とビッグデータのコンピューティングは歴史的に異なる開発経路をとっているが、彼らが取り組む明確な問題は収束と両方が必要としているレッスンである。

「ほんの数年前は、最大規模のデータストレージシステムは、自動テープライブラリに裏打ちされた、たった数テラバイトの2次ディスクストレージだけでした。現在、商用および研究クラウドコンピューティング・システムはそれぞれ数ペタバイトの2次ストレージを持っており、それぞれの研究室は日常的に、彼ら独自の科学機器が生み出すテラバイトのデータを処理しているのです。」と書いている。

AmazonのSimple Storage Service(S3)に格納されているオブジェクトの数は指数関数的に増加していると指摘している。

「このような低レベルのサービスの上では、企業(Netflixのような)は高度なリコメンド・システムを実装して、映画を加入者に提案し、そしてその選択をストリームするのです。科学的な研究者はまた、特定の画像、グラフやテキストデータから洞察を抽出するために、同じクラウドサービスや機械学習技術を増々探索するのです。データ集約型科学およびエクサスケール・コンピューティングに直面する課題の中には自然な技術的、経済的相乗効果があり、その両方における進歩は将来の科学のブレークスルーのために必要なのです。データ集約型科学は、収集、分析、そして科学シミュレーションや実験施設から得られる膨大な量のデータの管理に依存しています。それぞれの場合において、「エクストリームスケール」システムへの国内および海外の投資は、科学と工学においては今や一般的である膨大な量のデータを解析するのに必要なのです。」と書かれている。

この著者はHPCの歴史の概要を示し、エクサスケールへの途上に先にある課題と開発されているソリューションを概説し、従来の技術コンピューティングとエンタープライズの中心にあるさらに最近のビッグデータの努力から引き出される洞察と一緒に編み込んでいるということで、非常に魅力的な記事だ。2つのコンピューティング・エコシステムにおける違いを示す論文の図がここにある。

20150629-S1-Screen-Shot-2015-06-29-at-12.52.20-PM

両著者等ともスーパーコンピューティングの世界では著名である。Daniel Reedはアイオワ大学の計算機工学、電気、計算機工学と医学の教授であり、研究と経済開発担当の副学長である。Jack Dongarraはテネシー大学、オークリッジ国立研究所、およびマンチェスター大学に所属している。彼はまた、もちろんTop500の著者である。

重要な洞察、次のように引用している:

  • ハイパフォーマンス・コンピューティングとビッグデータ解析のツールと文化はお互いを犠牲にして分かれている;統合は主要な研究領域のスペクトルに対処するために不可欠である。
  • スケールの課題は、データを転送する能力を責めるか、そのデータにおける複雑な機能を計算するか、またはその相当な部分を保管するかである;新しいアプローチがこれらの課題を満たすために必要である。
  • 科学の国際的な性質が、たとえ国際的な競合が科学的なプロセスのオープン性を複雑にしても、先進的なコンピュータアーキテクチャのさらなら開発とデータ処理のためのグローバルスタンダードが求められている。

著者等は、エネルギー省高度科学計算室の研究小委員会が認めるエクサスケール・コンピューティングの10大課題リストを見直すことに価値があると繰り返している。

  1. エネルギー効率の高い回路、電力、冷却技術
  2. 高性能インターコネクト技術
  3. 高度なメモリ技術が容量を増やす
  4. 電源および障害を意識しているスケーラブルなシステムソフトウェア
  5. データの量、速度、および多様性を扱うことができるデータ管理ソフトウェア
  6. 大規模な並列処理、データの局所性、および耐障害性を表現するためのプログラミングモデル
  7. 科学の問題の再公式とリューションアルゴリズムのリファクタリング
  8. 故障、再現性、およびアルゴリズム検証の面で正当性の確保
  9. 発見、設計、および意思決定のための数理最適化と不確実性の定量化
  10. 生産性を可能にするためのソフトウェア工学と構造の支持

エクサスケールへのハードルが高ければ、報酬は高いとReedとDonagarraは主張している。「コンピューティング技術のすべての進歩は、モノのインターネットの出現からユビキタス・モバイル機器、そして世界最強のコンピューティング・システムや最大のデータアーカイブまで、コンピューティングの全体のスペクトルを広げ、産業の技術革新と経済成長を引き越しました。これらの進歩はまた、科学のあらゆる領域の基礎で応用研究も刺激しました。」

記事の中にはもっと取り上げるべきものが多い。ReedとDongarraは、HPCに依存し、社会に影響力を持つ様々なアプリケーション(エンタープライズと科学)している。いくつかの技術課題についてはさらに深く突っ込んでいるところもある。この記事はこちら。http://cacm.acm.org/magazines/2015/7/188732-exascale-computing-and-big-data/fulltext