スーパーコンピュータのベンチマークはなぜ重要なのか
Agam Shah オリジナル記事「Why Supercomputer Benchmarking Is So Important」
SC2024では、ベンチマークシステムの重要性について語るセッションがいくつかあった。最近、Top500の順位付けに利用されているLINPACKの関連性が話題となっている。パネリストらは、スーパーコンピュータのベンチマークは多くの理由から今後も重要であり続けると述べた。しかし、アプリケーション、ハードウェア、コードベースの進歩に遅れを取らないようにする必要がある。
関連性は、オーディエンスやアプリケーションによって異なる。明白ではないが、ベンチマークには地政学的、社会的、環境的、経済的な意味合いもある。
科学分野では、LINPACKはハードウェアから抽出される時間と価値を測定する。
AI分野では、MLPerfなどのベンチマークがハイパースケーラーの現実世界のパフォーマンスの視点を得て、ハードウェアに新しいモデルを最適化するのに役立つ。ベンチマークは、そのモデルがGPUやASIC向けにさらに微調整できることを企業に伝える。
ベンチマークが重要な理由をいくつか挙げる。
Top500はコンピューティングの進歩の歴史的記録である
32年間継続しているTop500は、人類がコンピューティングにおいてどのように前進してきたかの歴史的記録である。
「Linpackについて彼が真っ先に思い浮かべる言葉は、もちろんレガシーという言葉です。歴史的な連続性を保つために、私たちは重要なレガシーを継続しているのです」と、セッション中にマサチューセッツ工科大学リンカーン研究所およびテネシー大学のピョートル・ルシェク氏は述べた。
政治家にとっての一行の驚異
Top500リストは、米国のコンピューティングの進歩を測る物差しである。例えば、Top500は、米国が中国をリードしていることを政治家たちに伝えるための簡単な一行を提供する。
もちろん、Top500はそれよりもはるかに複雑である。しかし、せっかちな政治家たちは手短な要約を欲しがり、Top500はそれらの答えを提供する。
「複合指標は常に問題がはらんでいます。多くの数値はエンジニアにとっては良いものですが、政治家にとっては良いものではありません。政治家は1つの数値だけを欲しがるのです」とルシェック氏は言う。
「私は、連邦議会議員たちが我々の機関のリーダーたちにこういったことを尋ねる科学政策に関する証言を何時間も聞いてきました。彼らはHPLについて何も知りませんが、リストは知っており、『我々は首位なのか、それともまだ首位なのか?』と尋ねます」と、エヌビディアの科学プログラムマネージャーであるジャック・ウェルズ氏は言う。
同氏は以前、ORNLの科学ディレクターを務めていた。
コンピューティングの基準となる指標
ウェルズ氏は、Top500はコンピューティングにおけるダウ平均株価のようなものだと述べた。
「コミュニティが『ダウ平均株価が今日、これこれの動きを見せた』と言うのと同じインパクトがそこにあります。同じことです。しかし、変化していくものであることはわかっています。」とウェルズ氏は述べた。
Top500は、デナード・スケーリングが2017年から2018年にかけて停止したことを示した。コンピューティングの進歩は、AMDのMIシリーズGPUのチップレットがコンピューティングパフォーマンスの展望に影響を与えていることを示している。
価値の創出
スーパーコンピュータモジュールは、準備が整い次第、運用が開始される。ベンチマークは、システムの準備状況を測定する方法を提供する。
「最初の部分が利用可能になると、運用が開始されます。また次の部分が利用可能になると、また運用が開始されます…このようにして、そのマシンからより早く、より早く価値を生み出していくのです」と、ベンチマークに関する技術セッションでMicrosoft Azureのアンドリュー・ジョーンズ氏は述べた。
「大規模言語モデルのトレーニングを行うハイパースケーラーマーケットに目を向けると、競合他社よりも優れたAIモデルをいち早く持つことには、十分なビジネス価値があることは明らかです」とジョーンズ氏は述べた。
顧客は一般的に、AIモデルの精度と応答時間を重視している。MLPerfには、AIのパフォーマンスを測定するために、環境への影響を含む多くのポイントを考慮した多くのベンチマークツールがある。
ワークロードの最適化
ジョーンズ氏は、運用が不十分な大型システムよりも、運用が良好なシステムの方が、はるかに多くの科学的研究が可能であると述べた。
最新世代または新世代のテクノロジーを導入しても、「1ドルあたりの実際の科学、または1メガワットあたりの科学を最適化することを選択したもの」よりも効率的ではないかもしれない、とジョーンズ氏は述べた。
MLPerfの責任者であるデビッド・カンター氏は、ベンチマークは対象となるシステムの構築に役立つと指摘した。同氏は理化学研究所のスーパーコンピュータ「富岳」を例に挙げた。
「私が常に感銘を受けているスーパーコンピュータのサイトの一つが理化学研究所と『富岳』です。彼らは論文で基本的に次のように書いています。ほとんどのワークロードがスパースであるため、最も多くの浮動小数点演算を最適化しているわけではない…我々はピーク時の浮動小数点演算の半分を犠牲にするつもりだ。しかし、実際のワークロードでは、我々は成功するだろう」とカンター氏は述べた。
環境への影響
コンピューティングの電力効率の最適化に関する議論は、持続可能性という名目で行われている。
「私たちが本当に意味しているのは、メガワットに費用をかけたくないということなのです。むしろ、コンピューティングに費用をかけたいのです」とジョーンズ氏は述べた。
物理的インフラの構築(製造プロセス、マイニング、データセンターのコンクリート打設など)は、「スーパーコンピュータの稼働中に実際に消費される電力よりも、はるかに多くの二酸化炭素を排出します」とジョーンズ氏は述べた。
「スーパーコンピュータに関して最も持続可能なことのひとつは、エネルギー効率を少し高めることではなく、それを世界のどこか別の場所に移設することです」とジョーンズ氏は述べた。
人材評価
ハードウェア以外にも、ベンチマークではソフトウェアスタック、チューニングスキル、チームの専門知識も測定される。
カンター氏は、ベンチマークのシステム複雑性を単一の数値では捉えきれないと述べた。
パネリストらは、特定のハードウェアとソフトウェアの組み合わせでは、特定のアプリケーションやコードに統計的なばらつきが生じる可能性があると述べた。
「ユーザはスーパーコンピュータ上でアプリケーションを100回実行し、最も速い結果を出したものを選ぶわけではありません」とジョーンズ氏は述べた。
ベンチマークは間接的にITスタッフの専門性を測る良い方法となり得る。
「ベンチマークコードのパフォーマンス、ベンチマークコードの移植性、チューニングの巧拙を測定しているのです。ベンチマークチームのパフォーマンスとスキルを測定しているのです」とジョーンズ氏は言う。
利害関係者とのコミュニケーション
カンター氏は、誰もがひとつの評価基準を求めているわけではないと述べた。異なるチームは異なる数値を求めている。
ベンチマークは、異なる評価基準をチームに説明し、協力を促すことができる。
ひとつのコードベースにひとつの評価基準があるかもしれないが、サイズや条件に違いがあるかもしれない。ルールも異なる可能性がある。
パネリストらは、どのシステムを購入するか、それともユーザがそのシステムを効果的に活用できるように支援するか、という点で違いがあるかもしれないと述べた。