世界のスーパーコンピュータとそれを動かす人々


7月 11, 2022

HPCシステムのセキュリティは脅威に堪えられるのか?

HPCwire Japan

スポンサー記事

西 克也

HPC業界ではセキュリティに関する話題を耳にすることが少ない。性能やアーキテクチャに関する話題ばかりが取り上げられることがほとんどだ。特に大規模スーパーコンピュータシステムを含むHPCシステムはイントラネットワーク(プライベートネットワーク)内に配置されることがほとんどであるため、 基本的にセキュリティについてはあまり考慮されていないことが多いと考えられる。しかし、世間一般ではコンピュータの脆弱性を突いたセキュリティインシデントが多発しているが、はたしてHPCシステムは本当に大丈夫なのだろうか?何も起こっていないのだろうか?ただ単純に誰も気づかないだけではないのだろうか?

増加するランサムウェアとLinuxへの攻撃

IBMが毎年出している「X-Force脅威インテリジェンス・インデックス2022」では、2021年に発生したセキュリティ・インシデントの状況についてレポートしている。2021年に発生した攻撃タイプで一番多かったのはランサムウェアで全体の21%を占めている。次に多いタイプがサーバへの不正アクセスで全体の14%であった。またLinuxオペレーティングシステムが主流のHPCシステムにとって脅威なのが、Linuxランサムウェアの増加で前年比146%の増加である。特にこれまの金融サービスに代わって製造業への攻撃がトップとなってり、全体インシデントの23.2%を占めるそうだ。

出典:IBM X-Force脅威インテリジェンス・インデックス2022

 

また独立行政法人情報処理推進機構が発行している「情報セキュリティ白書2021」においてもLinuxオペレーティングシステムへの攻撃の増加が報告されている。ここでは他のレポートからの引用として紹介されているが、Linuxを狙ったウィルスのファミリー数はこの数年大幅に増加している。

資料:情報処理推進機構「情報セキュリティ白書2021」

 

白書では国内のセキュリティ・インシデントの報道件数についても報告されており、「不正アクセス」が最多で、続いて「情報流出」である。「情報流出」はHPCシステムにとっては一番重要な脅威だ。

資料:情報処理推進機構「情報セキュリティ白書2021」

 

さて、一般のITシステムの場合にはセキュリティ脆弱性に関するアラートは米国の非営利団体であるMITRE社がCVE(共通脆弱性識別子)としてリスト化している。日本でもIPAと一般社団法人JPCERTコーディネーションセンター(JPCERT/CC)が共同で脆弱性対策情報ポータルサイトJVNのホームページで告知している。また、特にHPCに関する脅威についてリスト化しているサイトがある。HPCsecという企業がHPCシステムの脅威リストとしてまとめているものだ。このリストを見るとLinuxだけではなく、セキュリティリスクは高くはないが、HPCで良く使われている「SLURM」や「Lustre」のリスクも数多く掲載れていることがわかる。このようにHPCシステムは外部からの脅威のみならず、内部的な脅威にもさらされているのだ。

HPCシステムの脆弱性リスト 出典:HPCsec Security Feed

 

HPCシステムの現状

2017年に発行された米国計算機学会(ACM)の機関紙「Communications」において、HPCのセキュリティに関する記事「Security in High-Performance Computing Environments」が掲載されている。この記事の中で筆者のSean Peisert氏はハイパフォーマンス・コンピューティング環境について次のように述べている。

「HPCシステムの主な目的が高性能であり、そのようなシステム自体の数が少なく、システムでの計算時間が非常に貴重であることを考えると、HPC システムをサポートする資金提供機関やユーザなどの主要な利害関係者は、システムにオーバーヘッドを課すようなソリューションに同意したがらないものです。これらの利害関係者は、そのような解決策を、最悪の場合はサイクルの無駄遣い、もしくは科学的成果の受け入れがたい遅延と見なすかもしれません。これは重要なことです。なぜなら、少なくとも歴史的には、使用することが許容されると考えられてきたセキュリティソリューションの種類を枠で囲んでしまうからです。」

要はHPCシステムとは高速計算が目的だから計算速度を遅くするようなセキュリティ対策は馴染まないということだ。この記事では最後に次のようにまとめている。「セキュリティに関する 2 つの重要な課題は、HPCにおける高性能の最優先事項を考慮すると、従来のセキュリティソリューションが有効でないことが多いという考え方です。さらに、広範な科学的コラボレーションとインタラクティブなHPCを可能にするために、いくつかのHPC環境を可能な限りオープンにする必要性も課題として挙げられます。」

増え続ける外部利用者

HPCシステムにおける一番の脅威は不正アクセスではなく、先の統計にも出てきたようにランサムウェアもしくはデータ流出だ。HPCシステムで利用されているデータは特に企業にとっては重要な価値を持った財産だ。これが侵害されるとなると、性能重視などとは言っていられなくなる。特にマルチテナント化された共用の大型計算機システムでは誰が使っているのかお互いに分からない。そこにマルウェアを持ったユーザがいた場合、セキュリティの甘いHPCシステムでは防ぐことが困難だ。

昔のスーパーコンピューターは 外部のネットワークにも接続されておらず、利用できるのは機関内に所属する利用者だけだった。しかし、 現在では HPCシステムが広く利用されるようになったため データセンターに置かれたHPCシステムは広く外部のユーザにも利用されるようになってきた。特に大型計算機センターと呼ばれる大学や研究所に設置されたスーパーコンピュータ・システムは 大学・ 研究所関連の利用者だけでなく 民間を含む外部の利用者のアクセスが増え続けている。

例えば、東京大学情報基盤センターにおける企業利用は2011年度の3件に対し、2021年度は6件と倍増し、また東京工業大学学術国際情報センターでの産業利用は2009年度の5件に対し、2020年度は25件と5倍にも増加している。さらに産業技術総合研究所が提供しているABCIシステムは、産業利用を目的のひとつとしており、多くの民間企業が利用していると考えられる。このように、官公庁大学におけるHPCシステムも外部からの利用者が増大しており、マルチテナント化が進行しているのだ。

実際のHPCシステムのセキュリティ

HPCシステムのセキュリティを見ていくうえで非常に参考になる資料がある。産業技術総合研究所がABCI利用者向けに提供している「ABCIセキュリティ ホワイトペーパー」である。HPC向けのセキュリティ資料としてほぼ国内で唯一(理研の富岳にも同様のものはるが内容は一般的)ではないかと見られる。ABCIは完全にマルチテナント利用を最初から想定しており、この中に何点か興味深い説明が書かれている。

このホワイトペーパーを読んでいくと非常に強烈なフレーズがある。そこには、「ABCI はマルチテナントによるクラウドサービスを提供しているため、他の利用者の影響を受ける可能性があります。ABCI は適切に監視を行い、異常への対応を行う仕組みや体制を整えていますが、マルチテナントに起因するリスクを完全に回避することは困難です。利用者はこのことを理解した上で ABCI を適切に利用する必要があります。」

さらに読み進めると、ABCI内でユーザが取り扱うデータに関し次のような記載がある。「利用者等のデータ等のセキュリティおよびバックアップは、利用者等の責任で実施する必要があります。」 続いて、「利用者は提供される実行環境上に自身がインストール・利用するシステムソフトェア、ライブラリ、アプリケーションプログラムやアプリケーションが扱うデータのセキュリティについて責任を負います。」

もちろん、ABCIでも外部からの脅威に関してはかなりの高いセキュリティを確保しているし、産総研は公的機関でもあり、商用利用ではなく研究開発が目的(商用を目的として研究開発は認められている)であることを考えれば、データのセキュリティは利用者自身で守らせるのも無理はない。しかし、これで本当に価値のあるデータを使って計算させることができるのだろうか?

 
  エクストリーム-D 株式会社代表取締役 柴田直樹氏

また民間のHPCシステムにおける現状について、HPC事情、特に民間の現状に詳しいエクストリーム-D 株式会社代表取締役 柴田直樹氏は次のように説明している。「HPCシステム特に企業内では、シャドウITと呼ばれ、企業のIT部門のガバナンスが聞かない現場部門での管理下に置かれていることも多いです。HPCシステムを所有もしくは利用する部門にはセキュリティ対応の人材がいないので、企業の基幹ITシステムよりはセキュリティに関する対策が弱い現状があります。某民間企業ではプライベートネットワーク内にあったHPCシステムが攻撃を受けた事例もあります」と、国内で実際にHPCシステムで被害が発生したことに触れている。

HPCにおけるデータは、データ自体に企業の存亡や国家機密相当の価値がある可能性が高く、外部からの侵入による漏洩ばかりではなく、内部からの攻撃に対しての防衛策を講じなければならないだろう。現状ではHPCはデータが漏洩しても被害が少ないオープンサイエンス、もしくはそれに近い計算を行うためのツールになってしまう。これではHPCの未来は暗いのだ。

データを保護するための一番の防衛策は、ネットワークからの遮断とマルチテナントにしないことだ。そうすれば決められた一部の利用者だけしか利用できないし、ネットワークを経由しての漏洩もない。しかし、それではシステム構成が細断され、大規模な計算ができなくなってしまう。もちろん、核備蓄管理や資源調査など莫大な資金があればアプリケーション、使用データ、利用者を特化することが可能だろうが、通常の分野では難しい。

ではどうやって守るのか?

ABCIのセキュリティ・ホワイトペーパーにもあったように、システムの運用側は不正アクセスのための入口の防御と、解析用のシステムログなどの収集・蓄積を行っている。これらの対策では、外部からの不正アクセスはIDS(侵入検知システム)などでリアルタイムで検知および防御できるであろう。恐らくこれが現段階での最大の防御策だ。しかしHPCシステム内での犯行は検知できない。検知システムが皆無だからだ。恐らく検知できるのはデータが漏洩した後、もしくはランサムウェアに感染して身代金を要求された後となってしまう。

このようなHPCの現状において、NVIDIA社はAIを活用してリアルタイムにシステムを監視するNVIDIA Morpheusと、InfiniBand ファブリックの高効率な運用管理を可能とする UFM Cyber-AIの活用を提唱している。NVIDIA Morpheus のプレスリリースの中でNVIDIAの創業者/CEOであるジェンスン フアン氏は次のように述べている。「ゼロトラスト セキュリティのモデルでは、データセンターのあらゆるトランザクションをリアルタイムで監視する必要があります。これは、サーバー内の侵入を感知し、脅威を即座に検出する必要があり、最新のデータセンターのデーターレートで動作させるという重大な技術上の課題に対処してなければなりません。NVIDIA Morpheus は、サーバー 内ネットワーキングの Mellanox と NVIDIA AI を組み合わせることで、リアルタイムで全パケット検査を行い、脅威を予測するとともに、発生したときにはそれらを排除します。 」

HPCシステムにおいて一番のネックとなる性能低下についてはNVIDIA Morpheusは、NVIDIA DPUおよびNVIDIA Unified Fabric Manager Cyber-AI (UFM Cyber-AI)と連携することで、リアルタイム監視をDPUにオフロードし、HPCシステム自体の性能を低下させることなく、リアルタイムにシステムの監視が可能となっている。

 

また、NVIDIA MorpheusはNVIDIA DPUとの連携でシステム監視をオフロードするだけでなく、強力なNVIDIA GPUを使用したAIを活用することで、ネットワークトラフィックの監視だけでなく、システムログなどのシステム監視を今までにない規模で行うこともできる。さらにディープラーニングモデルを用いて独自の Morpheus AI スキルを作成することもできる。

 

NVIDIA MorpheusとUFM Cyber-AIによりInfiniBandのトラフィックを監視させ、さらに計算ノードまでも監視対象とすることでHPCシステム全体をリアルタイムで監視することが可能となり、脅威が発生した場合に迅速に検知し対応することができるようになる。

まとめ

HPCにおけるセキュリティ問題は世界的に重要な問題となってきているようだ。11月に開催されるスーパーコンピューティングの最大規模の国際会議でSC22においてHPCのサイバーセキュリティに関するワークショップが初めて開催される。First Annual Workshop on Cyber Security in High Performance Computing (S-HPC’22)のページでは冒頭において次のように解説されている。「高性能コンピューティング(HPC)におけるセキュリティは、従来、『運用』の課題でした(つまり、認証されたユーザにアクセスや使用を制限する)。しかし、HPC が徐々に公共の利益のより多くの領域に浸透するにつれて、HPC の性能のみに焦点を当てた従来の方法では、増え続けるユーザに対して攻撃面を露呈する可能性があります。HPC の伝統的な役割である技術の早期導入と相まって、より確立された技術で運用される他のコンピューティング シナリオでは必ずしも見られない、早期に標的とする価値のある新しい脆弱性セットが出現しています」と説明している。

柴田氏はHPCシステムのセキュリティについて最後に次のようにまとめている。「HPCシステムのセキュリティ対策で予防策(ファイアーウォールの設置やOSのセキュリティ対策)を行っているのは常識ですが、万が一セキュリティアタック等を受けた際にどのようにシステムを守るか、復旧をどのような手順で行うかと言った有事の際の対策も重要になります。 この対策を準備しておくことで万が一セキュリティアタックを受けた際に被害を最小限にとどめておくことが可能になります。また、早急発見というキーワードも重要です。早期発見に関しては自動監視など多くのソリューションがあります。」