エクサスケール時代のデータ優先度
Tiffany Trader

既に殆どのHPC関係者とその周辺コミュニティは、データ移動がポストペタスケールコンピューティングへの最も基本的な課題のひとつであることを認識している。世界中のエクサスケール直結のプロジェクトは、エネルギーコストを最小限に抑えながら、システム速度を最大化しようとしている。米国では、例えば、エクサスケールの目標は、システム電力を単に倍増しながら、ピーク性能を3桁増加させることである。このバランスのとれた離れ業を達成することは、最も高価な処理に対処することを意味する:データ移動である。そのテーマに関する論文を発表したロスアラモス国立研究所のJames Ahrensはそう述べる。
2つの論文 ー 電力とストレージ制限下でのエクサスケール級シミュレーションに関する増加する科学的データの洞察 ー は、ストレージの制約もまた電力コストの影響を受けていると指摘している。「将来のストレージ技術の予測は、私たちがエクサスケールに向かって動くものとしての能力/バンド幅とFLOPSの両方の間でのギャップが広がることを示唆しています。」とAhrensは観察する。これが事実であれば、その後、エクサスケールスーパーコンピュータのストレージシステムは、同様な投資における今日のシステムに比べてより小さく、より遅くなるだろう。
電力とストレージの制約は、その焦点がポスト処理から即時分析まで変化しているような科学的ワークフローを再評価するコミュニティを先導している。可視化と分析がある伝統的な逐次処理アプローチは、ポスト処理を実行し、そして後で再起動するために保存された完全なチェックポイントは今後も実行されることが無いだろう。シミュレーションが実行中でデータがメモリに常駐している間に、より多くの可視化と分析がその場で行われるべきであるとの新たなコンセンサスがある、とAhrensは書いている。
Ahrensは、より多くの即時分析への移行をサポートするための3つの指針を示唆する。
- シミュレーションデータのサンプリングおよび不確実性の定量化が必要
- 慎重な分析の選択肢が必要である
- データ削減と優先順位付けが求められる
箇条書きの最初の点について、即時分析は本当にサンプリングの形態であり、シミュレーション科学者は、「一時的領域内での完全なサンプリングの対価で空間的、多変量的で、可変型の領域」上の完全なサンプリングの余裕をもはや持っていないことをAhrensは指摘する。そこで、全体的な分析量を維持または増加するように、どのように各領域からサンプルするかが問題となる。
Ahrens曰く「その結果の質は、即時サンプリング/不確実性の定量化手法の組み合わせにより測定することができます。例えば、私たちの研究では、MC ^ 3宇宙粒子シミュレーションにおける階層化ランダムサンプリング手法を用いて統計的にサンプルしています。私たちは、後の対話型の革新的な可視化と特徴分析のための詳細レベル組織の中にこれらのサンプルを格納します。シミュレーション中にサンプリングすることによって、私たちは完全な個体統計を記録し、サンプル誤差を定量化するために、全体的な粒子総数を分析することができます。 」
Ahrensはまた、どのように「すべて保存」の考え方から脱却し、これは多くの中のただひとつの選択であることを理解するかに取り組む。電力とストレージが制約される場合、シミュレーションの開始前に慎重な解析の決定を行うことが重要である。
箇条書きの3番目では、Ahrensは統計的サンプリングを経由以外にデータを削減する他の方法があることを指摘する。「可視化操作と特徴抽出アルゴリズムはまた、サンプリング戦略の一種と考えることができます。」と彼は注釈する。貧相なアルゴリズムは、シミュレーションが進むにつれて最も優先度の高い情報が保存し、優先度の低い出力を上書きする。