SC19:気候・気象用のスーパーコンピュータ
Oliver Peckham

気象気候アプリケーションは、HPCにおける最も重要な用途の一つで、優れたモデルは、数十億ドルの削減はもちろん、生命も救うことができます。しかし、多くの気象・気候モデルはHPC環境での効率的な実行に四苦八苦しており、ユーザは「根本的に不適切な」ノードおよびCPUの設計と1%未満のジョブ効率を報告している。そのため、Hyperion Researchの研究および技術担当副社長であるBob Sorensenは、気象および気候変動の組織に手を差し伸べ、彼らが興味をそそられるこのような質問をした。「あなたが考える夢のHPCは何ですか。」
気象・気候用の夢のHPCシステムを見つける
SorensenがSC19で説明したHyperion Researchは、約1年前にNASAから、気象および気候の研究を対象とした特注のHPCソリューションのオプションを検討するために呼び出された。この問題に取り組むため、Hyperionは2段階の調査を実施。最初に彼らは、ヨーロッパ中期予報センター(ECMWF)、ロスアラモス国立研究所(LANL)、アメリカ海洋大気庁(NOAA)、オークリッジ国立研究所(ORNL)、大気研究大学連合(UCAR)、デラウェア大学などを含む、米国およびヨーロッパの15の異なる気象および気候組織を調査した。
![]() |
|
Hyperion Researchの研究および技術担当副社長、Bob Sorensen。画像提供はHyperion Research。 | |
「この調査は、世界中の気象予報士だけではなく、気象および気候研究を行う際の彼らの要件が何であるかを理解するために、この調査の中で私たちが行ったことを取り入れ、一連の調査を通して見識を集めることでした」とSorensenは説明した。
次に、それらの組織にニーズを尋ねた後、Dell EMC、Cray、HPE、IBMなどの主要なHPCサプライヤにアプローチし、気象および気候アプリケーションに適したシステムの開発に関する課題と機会について調査を行った。Sorensenによると、彼らはHPCベンダーに次のような質問をすることを望んだ。「このようなシステムが利用可能になった場合、そのようなシステムを作成するためのオプションは何になるでしょうか。」「どのように参加しますか。」「どのように応えますか。」
フェーズ1:気象・気候の組織
「私たちが最も耳にした懸念は、獣に餌をやることとよく似ていました」とSorensenは述べた。 「システムのCPU機能には誰もが比較的満足していましたが、帯域幅は非常に問題があると考えられていたのです。メモリとストレージのレイテンシと帯域幅が大きな問題であると何度も耳にしました。それが、既存の気象・気候のジョブが効率的に実行されない理由なのです。」
「データ供給不足のCPUを使用している場合、プロセッサの速度は重要ではありません。」
これらの組織はプロセッサの設計と選択に多様性がないと述べ、機械学習を使用してジョブを最適化することにより、AIを気象と気候のワークロードに統合する意欲を示した。彼らはまた、GPUをワークロードに真面目に導入することに対して抵抗を示し、GPUを統合するために必要な「苦痛」により、現在は実行不可能になっていると述べた。そして最終的に回答者は、インターコネクトの問題が依然としてボトルネックになっている場合、GPUは処理能力と結果のギャップを広げるだけだと主張した。
Sorensenによると、これらの気象と気候の組織は訴えかけるように意見を述べた。彼は、組織はすべての面で統一されておらず、(「私たちは一般的な、全体的な合意を確認することはありませんでした」)組織内であっても、調査質問への回答方法について部屋で議論していたのは、「4、5、6、10人」程度であったと強調しました。
「すべてが同じ地球をモデリングしていると主張することはできますが、それには様々な方法があります。」
回答者はコードのスケーラビリティについても懸念しており、コードの多くを書き換える必要があることを認めましたが、現在、書き換えをサポートするために必要なソフトウェア開発ツールの強力な基盤が不足していると述べた。
フェーズ2:ベンダー
「誰もが「この調査を行うことに本当に興味がある」と言いましたが、どれほどの決意であるかというレベルは大きく異なっていたのです」とSorensenは調査したベンダーについて語った。 1000万ドルまたは1億ドルのレベルの仕入れであっても、「取組みを集中させるためにかかる費用は、その特定のボックスがより広い範囲の領域に適用可能性を持たない限り、単に大きすぎる、と彼らは述べました」とSorensenは説明した。その代わりに、ベンダーは柔軟性についての答えを導いた。「HPCの設計の柔軟性の観点から、そこにあるさまざまな問題をどのように取り込んで、要件を最も完全に満たすマシンに変えることができるでしょうか。」
また、彼らは、幅広く多様な作業負荷のために、気象および気候部門の不明確な要件が混乱を招くことを主張した。「ベンダーは、これらの人々にとって本当に重要なことが何か、まったく理解していませんでした」とSorensenは述べた。さらに、ベンダーは、幅広いニーズに対応しようとすると、システムに対して「料理人が多すぎる」状態になってしまうのではないかと心配していた。Sorensenは、「すべての要件に平等に対応するため、これらの要件にはあまり対応することはありません」と述べた。
「ほぼすべてのベンダーは、」とSorensenは続けた。「何かにお金をかけることができるなら、ソフトウェアの近代化に使うと言いました。」ベンダーは、異種アーキテクチャ、高帯域幅メモリ、バーストバッファ、SSD /スピニングディスクの組み合わせなど、過去数年間の技術の活用に投資することで、1ドルあたりのパフォーマンスが向上する可能性があることを強調した。彼らは、これが「非常に痛みを伴う操作」であることを認めていたが、Sorensenによると、選択肢は「今日は1つの目標と戦うか、明日は2つの目標と戦うか」であるように思われた。
前進する
Sorensenは、「前もってのコードサインへの取り組みが重要です」と述べ、「ベンダーと同じテーブルにつく」必要性を強調した。さらに、彼は、「これらのコードサインの取り組みは、選ばれた少数の組織だけでなく、より広い天気と気候のコミュニティが参加するよう努めるべきです」と提案した。
![]() |
|
NASAのSC19ブースで発表するSorensen | |
Sorensenはまた、効果的なベンチマークの必要性を強調した。「これは、NASAの特定の努力の価値を評価できる重要な要素だと思います。たとえば、「500ペタフロップスのシステムを手に入れました」ではなく、「このアプリケーションを2年前のマシンの37倍高速で実行する新しいシステムを手に入れました。」のように。」
Sorensenは、気象および気候に関する組織の、モデリングやシミュレーション用のAIなど、新しいワークロード構成の採用を提案した。「ビッグデータ分析を使用してソリューションの改善に役立てることにより、モデリングおよびシミュレーション環境をどのように充実させることができるかを考えてみてほしいのです」と彼は述べた。AI以外にも、大きなワークロードの変動を吸収するためのソリューションとして、また、気象と気候の研究者が新しいハードウェアとソフトウェアの提供物を試すためのテストベッドとして、ハイブリッド展開を採用した。
最終的に、Sorensenはセクター間の相互利益に繋がる機会を目にした。「あなたがいるのと同じ位置にある縦軸を見つけてください。ベンダーに行って、「私たちは本当にこれが好きです、これはあなたが供給できるもので… ああ、ところで、製薬会社の人たちや、石油やガス業界の人たち、自動車部門の人たちもこれが気に入るはずです!」と言うと、営業担当者は座ってあなたの話を聞くようになるのです。」
「これはNASAの環境固有のものではないと思います」とSorensenは結論付けた。「そして、私はそれが気象環境特有だとも思いません。おそらく最新のものではなく、たとえば過去5年間にHPCセクターで起こっている変化のいくつかに実際は適応していない、非常に多くのユースケースがあると思っています。」
「NASAが前進し、このプロセスについて考え始めましょう、と言った最初のグループの1つであることは、素晴らしいことだと考えています。」