DOE HPC:変化が現れている
Tiffany Trader

6月18日から19日、6つのDOE HPCセンターの代表者がDOE国立研究所での大規模なデータ駆動型の科学的発見を支援するための最良の方法を議論するDOEハイパフォーマンスオペレーショナルレビュー(HPCOR)のためにカリフォルニア州オークランドに集まった。出席者は、8つの人気あるトピックに関連する課題、チャンス、ベストプラクティスだけでなく現在および将来の要件について彼らのフィードバックを聞いた。彼らの成果は、56ページの報告書の形で利用できる。
DOEハイパフォーマンスコンピューティングオペレーショナルレビュー(HPCOR)の序盤は、「ハイパフォーマンスコンピューティング(HPC)施設は、科学と工学のチームへシステムやサービスを提供する方法のパラダイムシフト寸前にある。」という主張で始められた。
その理由を一言で言えば:ビッグデータの台頭。
報告書は続く:
「研究プロジェクトは、データ収集および分析ワークフローの一部であるコミュニティ固有のサービスと一緒に前例のない規模と複雑さのレベルで広範なデータを生成しています。計算に関連するデータの価値とコストが成長し、それと一緒に、例えば再現性、起源、選択・分類、独自の参考文献などの懸念に対する認識、そして将来の利用可能性が、科学的なコミュニティでの例外よりもむしろルールになろうとしています。」
「これらの懸念に対処することは、施設の運用と管理のあらゆる側面に影響を与えます。 ハードウェアアーキテクチャの最適なバランスが、変更されることがあります。大いに強調することは、計算効率に関連した最適なデータ移動を行うソフトウェアを設計することでしょう。どんなデータが保たれるのか、それをどのくらいの期間維持し、そしてどのようにアクセスされるのか等の方針を適応する必要があります。広範な科学的コラボレーションによるデータアクセスは、より重要になるでしょう。情報の適切かつ安全な公表を確実にするプロセスとポリシー は、データ保護要件の維持と将来のデータ共有要求を満たす両方の進化が必要でしょう。」
このレビューの主なメッセージは、DOEのHPCセンターが伝統的な運用方法を変更する必要があるということである。より大きなコラボレーション、より緊密な統合、標準的指標とベンチマークだけでなくツールセットとベストプラクティスを求める声があった。教育、データ管理と分析、その他の間の分野で共通のニーズを識別することによって、センターが解決策について協調と協力をおこなうことが出来る、と報告書は提唱した。
6月の会議は、次のトピックに焦点を当てた8つのブレイクアウトセッションで行われた:システム構成、分析可視化/試験管分析、データ管理ポリシー、データ生産設備や機器の支援、基盤、ユーザ教育、ワークフロー、そしてデータ転送。ここで提起された多くの関連ポイントのほんの一部である:
データ分析のためのシステム構成について:
今日、運用上、我々は最大Flops/秒の観点でHPCセンターを考える。データ集約型ワークロードへのシフトにより、計算に対するI/Oとストレージの典型的な内訳は、おそらく異なるだろう。別の施設は異なる計算や分析のニーズを持っているため、すべてのセンターに共通の適切な比率を決定することはおそらく有用ではない。しかし、システムハードウェアが選択される順番が変わる可能性がある:
1. ワークロードに必要なメモリ/コアの決定
2. SSDの量か、永続的なストレージのニーズを決定
3. データ集約型コンピューティングに必要な並列ファイルシステムとネットワーク速度の決定
4. Flop/秒(CPU、アクセラレータ、メニーコアチップ)に予算の残りを配分
データ管理について:
DOE施設は、データ管理基盤を可能とするための政策と指導を特定し、整形するうえで積極的な役割を取っている。最終的には、データは、計算機シミュレーションと対等になる。
インフラストラクチャについて(特にパブリッククラウドを参照):
一部のサイトは、効果的にプライベートクラウドアーキテクチャを展開している。しかし、パブリック•クラウドの提供は、「最大規模」なデータ集約とデータ分析処理に向けて仕立てられていない。これらの利用は、国立研究所複合体における可用性、信頼性、性能およびセキュリティ上の問題を作り出す。
完全なレポートは、ここでダウンロードすることができる。