全体性能解析のビッグデータ
Nicole Hemsoth

ハードウェアの彼方にある大規模コンピューティングの革新的な新しいシフトの可能性が無いため、増加する注目は最適化の様々なモードに注がれている。HPCシステムのコードを微調整すること以上に、これらの努力は既存のアーキテクチャで性能および効率を最大にするための、詳細で全体的な性能データを利用する領域に延びている。
ドレスデン工科大学の情報サービス&ハイパフォーマンスコンピューティングセンターのMichael Kluge博士を含む研究グループによると、データ集約型で超スケール・システム用の全体性能解析は、ハードウェア、ソフトウェアおよびストレージ層に渡るデータを収集し、ひとつの包括的な全体に調和させる必要がある。これを実現するには「ビッグデータ」技術の独自利用が必要だが、最終的な結果は究極的に、学習し、自己チューニング・フィードバックのループに構築することができる最適化に関する詳細な情報をユーザ(特にアプリケーションのエンドユーザや開発者、さらにシステム管理者)に提供することだ。
アプリケーションレベルで「ビッグデータ」問題に取り組む多くのシステムでは、データ集約型の発見のレイヤーを追加することは厄介に聞こえるかもしれない。しかし、システムの要件と能力の全体像に応じて性能を改善する新しい能力は、長時間の実行においては利益をもたらすかもしれない。
これは重要な挑戦であり、コア数と増加するデータ量の面でシステムが成長するにつれて必ず遭遇するものだ。研究者が説明するように、「コンピューティングとデータ単位の膨大な数だけでなく、単一のマシンへの統合の複雑さは知的な挑戦を提供しています。異なる性能仕様によるハードウェアの階層化、洗練されたネットワーク・トポロジー、複雑な運用ソフトウェア、様々なレベルの(並列)実行スレッド、多くの場合未知であるコンポーネントに対する最適化戦略、そしてシステムの効率的利用を阻害する他の多くの関連です。」
性能を解析するツールがすでに存在しているが、これらは、特定のエラーや欠陥を対象としていたり、ユーザが解決を見つけることができるようにしようとしたモデルをベースとしている。ここでの制限は、「既存のシステムは、収集されたデータの詳細レベルで、またはデータを取得する構成要素の数のいずれかで制限されている」ことである。このような性能分析の性能自体が制限因子の一つである。」と著者は主張する。
性能の真の全体像に到達できるようにするには、以下を含む多くのシステム・コンポーネントから性能データを継続的に収集する能力が必要だ。
- アプリケーションレベルでの「古典的な」性能データ
- 全体のコンピューティングチェーン(シングルコア、マルチコア、キャッシュレベル、など)から
- I / O階層(ディスク、サーバ、データおよびメタデータ管理、など)から
- ネットワークコンポーネントから
- ソフトウェアレイヤ(バージョン、パラメータ、コンパイルパラメータ、など)から
開発、システム利用、および膨大なマンパワーにおけるオーバーヘッドにも関わらず、システム全体の性能の総合監視の効果は、マシンが継続的にコアやストレージを追加するのに重要である。著者が説明したように、究極の成果は、結果的にシステムの特性に合わせてその場で自動チューニングできるようにする性能パターンのコレクションである。