世界のスーパーコンピュータとそれを動かす人々


9月 2, 2024

HPC、依然セキュリティを軽視、新ガイドラインとツールが後押し

HPCwire Japan

Agam Shah オリジナル記事「HPC Still Looks Past Security, but New Guidelines and Tools Push it Ahead

米国政府の作業部会は、高性能コンピューターのセキュリティ実装に関する最終ガイドラインを公表した。それをサポートするために、政府の研究所や研究機関では、HPCのハードウェアやワークフローにセキュリティを実装するためのツールやガイドラインを詳細に説明している。

処理を個別のスラブに分割し、セキュリティ管理を集中化するなど、いくつかのプロジェクトが、今年初めにウィチタ州立大学で開催された「High-Performance Computing Workshop」で報告された。

NSFとNIST(米国標準技術研究所)は、科学技術計算の分野における強固なサイバーセキュリティインフラの構築を主導している。この取り組みは、システムの安定性を確保し、科学技術計算のための強固で信頼性の高い環境を構築することを目的としている。このワークショップは、全米科学財団の資金援助を受けている

 
   

セキュリティは、システムを遅くする可能性があるため、スーパーコンピューターでは優先事項ではない。HPCユーザは、処理能力と結果が得られるまでの時間の方を重視している。セキュリティアプリケーションや対策は、システムパフォーマンスを低下させる可能性がある。

スーパーコンピュータを構築するベンダーは、高性能の受入基準を満たすことを最優先事項としているため、システム契約にセキュリティ対策をほとんど盛り込んでこなかったが、その状況は変わりつつある。 2要素認証、ルートアクセスの制限、ログインとシステム利用の監視などの対策を講じてシステムを保護する責任は依然として研究所側にある。

大手の研究所はスーパーコンピュータの周囲に「ウォールドガーデン(壁に囲まれた庭)」、つまり非武装地帯のようなものを設け、アクセスを制限している。

「ベンダーは『ユーザはそれを望んでいない』と言い、ユーザは『私のパフォーマンスの足を引っ張らないでくれ』と言って、ベンダーに反発している。 少し行き詰まってますね」と、スーパーコンピューティング2023カンファレンスでHPCwireに語ったのは、MITリンカーン研究所スーパーコンピューティングセンターのシニアスタッフであるアルバート・ロイサー氏だ。

スーパーコンピュータのセキュリティは、プロセスやファイルをチェックするアンチウイルスソフトを追加するといった単純なものではない。2月には、NISTのHPCセキュリティグループが、4つのセキュリティゾーンにセキュリティレイヤーを適用する新しいセキュリティアーキテクチャを完成させた。

最上位のレイヤーは「アクセスゾーン」であり、ユーザのシステムへのアクセスを認証し、システムへのデータ転送を許可する。このレイヤーは、ネットワークスキャンやユーザセッションの乗っ取りを防止することができる。

2番目のゾーンは「管理ゾーン」であり、実際のコンピューティング作業の管理と構成をカバーする。

「データストレージ」ゾーンには、GPFSやLustreベースのPFSなどのファイルシステムを特定の境界内にマウントするなどのセキュリティ対策が含まれる。ファイルシステムには、計算処理のために定期的にアクセスされるペタバイトまたはエクサバイトのデータが保存される。

「高性能コンピューティング」ゾーンには、HPCを推進するコアのハードウェアとソフトウェアのセキュリティ対策が含まれる。セキュリティ対策には、GPUの無効化やOSカーネルの保護などが含まれる可能性がある。

 
   

セキュリティワークショップで発表された多くのセキュリティプロジェクトは、この4つのカテゴリーのいずれかに分類された。

ロスアラモス国立研究所は、スーパーコンピュータ全体のセキュリティ対策にSplunkをどのように使用しているかを詳細に説明した。

SplunkはLANLのシステム管理者によるさまざまな管理および監視活動に役立っている。これには、ネットワークアクティビティの追跡、システムの脆弱性の特定とパッチ適用、システムの管理、ステータスの追跡、および不正ログインの特定などが含まれる。

具体的には、LANLは脆弱性をスキャンするTenable社のNessusと脆弱性を管理するダッシュボードをSplunkに統合した。HPCオペレーションセンターは、クラスタの活動とステータス、システム利用状況、ハードウェアエラーを監視する。システムがダウンした場合、OSが古くなった場合、ファイアウォールのパターンが不規則な場合、パターン外の活動(ログイン試行回数が過剰な場合など)があった場合にも、システムからアラートが発行される。

サンディア国立研究所の研究者たちが開発した「Cicada」と呼ばれる別のプロジェクトは、高性能コンピューティングにおけるコラボレーションを推進しており、複数の科学データセットを扱うAIの分野にも関連する可能性がある。

Cicadaの中心となるコンセプトはシンプルである。各参加者の入力データを保護しながら、コラボレーションによるコンピューティングを可能にするというものだ。このアプローチは、複数のHPCユーザが関わるAIにも関連する。

主なアプローチは、機密コンピューティングと類似しており、これにより組織は、不正アクセスや改ざんから保護しながら、AIプロジェクトにデータセットを提供することができる。Cicadaは100人以上の規模にスケールアップでき、大規模なAIおよび科学コンピューティングプロジェクトを保護することができる。

このプロジェクトには、参加者の間で安全な行列乗算を可能にするMMULTアルゴリズムが関わっている。MMULTは部分的な入力に対する集約技術を可能にするため、参加者は個々のデータを公開することなく行列乗算を実行できる。

Cicadaライブラリは複数の通信パターンをサポートし、耐障害性と回復メカニズムを組み込んでいる。このライブラリは、さまざまな運用シナリオにおいて優れたパフォーマンスを維持し、セキュリティを向上させることができる。

HPCシステムは、複数のソースから大量のネットワークトラフィックが集中し、ワークロードが遅延したり中断したりするサービス拒否攻撃の標的となる可能性がある。パシフィック・ノースウエスト国立研究所の研究者は、通信ネットワークにおけるサービス拒否攻撃を検出する軽量技術である DoDGE(Differential analysis of Generalized Entropy progressions)を開発した。この技術は、パフォーマンスに影響を与えることなくHPCシステムに適用できる可能性がある。

研究者は、Tsallisエントロピーを使用して、ネットワークトラフィックパターンのランダム性と、それが時間とともにどのように変化するかを測定・分析する。 DoDGEは、ネットワーク帯域幅を維持しながら、DoS攻撃を効率的に検出するためのローカル計算を行う。 この技術の一般的なパターンにより、さまざまな規模やシステムタイプに適応することが可能であり、HPC環境にも適している可能性がある。

研究者たちは、シャノンのエントロピーのような技術よりもツァリスのエントロピーを好んだ。なぜなら、ネットワークトラフィックの複雑なパターンをより正確に捉えることができ、計算オーバーヘッドを大幅に増やすことなく、高度な攻撃をより正確に検出できる可能性があるからだ。

HPCセキュリティの第一人者であるハイパフォーマンスコンピューティング近代化プログラムのリッキー・グレッグ氏は、HPCにセキュリティを実装する方法について説明した。

NISTの作業グループは、国防総省のいくつかのコンピューティングプロジェクトで義務付けられているアプローチと一致している。これには、国防総省のRDT&E(研究、開発、テスト、評価)予算と密接に関連するリスク管理フレームワーク(RMF)が含まれる。

RMFポリシーには、データの保護と、権限のないユーザへのシステムアクセスの制限が含まれる。 プレゼンテーションのスライドによると、これには「文書化、構成設定、脆弱性スキャン、レビュー、段階的な承認」が含まれる。

RDT&Eでは、「ソフトウェアやコードをどのように開発するか? これらのシステムや機器をどのように構築するか? テストをどのように実施するか?」といった質問が提示される。

ワークフローは、ユーザがシステムを継承するか、新規に構築するかによって異なる。

あるプレゼンテーションでは、もともと医療向けに設計されたISO 27001/27002などの他の標準規格を基に構築されたHITRUST CSF(Common Security Framework)が、HPC環境に適応できる可能性について議論された。ISOは、標準規格のページで「情報セキュリティ管理システムの確立、実施、維持、継続的な改善」に関する指針を提供していると述べた。

HPC企業や量子コンピューター企業が商業組織や政府機関と関わるためには、ISO27001/27002の認証取得が前提条件となる。量子コンピューターソフトウェア企業Q-CTRL、MicrosoftのAzure HPC Cache、Google CloudのHPCサービスの一部は、すでにこの規格の認証を取得している。

オハイオ州立大学のダバレスワル・パンダ氏は、ハイパフォーマンスコンピューティングゾーンにおけるMPIセキュリティのオプションをいくつか提示した。OSUは、多数のインターフェースとプロトコルをサポートするHPCシステム内でのメモリ間通信用ソフトウェア「MVAPICH」を提供している。最新のMVAPICH MPIスタックは、GPU、DPU、ソフトウェア、およびAIとHPCのほとんどのワークロードに対応するほとんどのインターコネクトをサポートしている。OSUのサイトから178万回ダウンロードされている。