米国初のエクサスケール・スーパーコンピュータの内部を独占公開
Tiffany Trader オリジナル記事

HPCwire では、テネシー州オークリッジにある DOE のオークリッジ国立研究所(ORNL)の Frontier データセンターに潜入し、Frontier プロジェクトディレクターのジャスティン・ウィット氏のインタビューを行なった。Linpackベンチマークで1エクサフロップスを突破した初のスーパーコンピュータであるFrontierは、5月にTop500で1位を獲得し、エネルギー効率における新境地を切り開いた。HPE/AMDのシステムは、21.1メガワットの電源で1.102 Linpackエクサフロップスの演算能力を発揮し、1ワットあたり52.23ギガフロップスの効率性を実現した。
ウィット氏は、米国初のエクサスケール・スーパーコンピュータを立ち上げたときの様子を、システムの詳細、電力および冷却要件、このシステムで最初に実行されたアプリケーション、そしてこのリーダーコンピューティング施設の今後の展望に踏み込んで語ってくれた。
以下は、その記録です。
ティファニー・トレーダー:ジャスティン、こんにちは。私はジャスティン・ウィットとここにいます。HPE/AMDのシステムで、最近Linpackエクサフロップスのマイルストーンを初めて達成したのです。ジャスティンは、Frontierのプロジェクト・ディレクターを務めています。この快挙をどう受け止めていますか?
ジャスティン・ウィット:とても興奮しています。非常に大きな成果です。チームは本当によく働いてくれました。HPEとAMDの企業パートナーは、これを実現するために多大な努力をしてくれました。そして、私たちはこれ以上ないほど幸せです。まさに最高です。
トレーダー:なるほど、おめでとうございます。では、システムについてお聞かせください。私たちはキャビネットの前に立っていますが、中身について教えてください。
![]() |
|
図が表示されたFrontierブレード(そう、すべて図があるのです) | |
ウィット:もちろん、これらはHPE Cray EXシステムです。74台のキャビネットに、9,408台のノードが搭載されています。各ノードには、1つのCPUと4つのGPUが搭載されています。GPUは[AMD] MI250Xです。CPUはAMDの「Epyc」です。すべて「Slingshot」と呼ばれるCrayの高速インターコネクトで結ばれています。そして、水冷式のシステムです。昨年10月にハードウェアの入手を開始しました。システムを構築してテストし、数カ月前から稼働させています。
トレーダー:Top500のベンチマークに間に合わせるためのプロセスは、まさに一刻を争うものだったと聞いています。その経緯と経験をお聞かせください。
ウィット:まさにギリギリでしたね。この手のシステムの面白いところは、非常に大規模なため、すべてのハードウェアが到着してから初めて構築できることです。ですから、ハードウェアが到着してから、いろいろなものを組み立て始めたのですが、それにはしばらく時間がかかりました。そして、すべてのハードウェアが機能するようになったところで、システムのチューニングを開始しました。ここ数カ月は、そのような状態が続いています。昼間は調整、チューニングを行い、夜にはベンチマークを走らせ、その結果を確認する。そして、5月のリストが近づくにつれ、時間が足りなくなってきました。5月上旬から中旬にかけて、私たちと全国のエンジニアが自宅でパワープロファイルを見ながら、「これはいい動きをしているな」とか「もう一回やり直そう」とか言って、常に夜通し走り続けていたんです。そして、文字通り締め切りの数時間前に、エクサスケールの壁を破る実行をすることができたのです。
トレーダー:ハイパフォーマンスLinpackベンチマークで1.1エクサフロップスを達成しました。ハイパフォーマンスLinpackベンチマークで1.1エクサフロップスを達成しました。さらに、このシステムは「Green500」でも2位を獲得しており、非常に印象的でした。そして、その仲間である小型のテスト開発機「Frontier TDS」(Borgと呼んでいたかな)は、かなり印象的なエネルギー効率評価で1位を獲得しています。
ウィット:そうですね、シングルキャビネットで60ギガフロップス/ワット以上の性能を発揮しています。非常に素晴らしいです。Green500の上位4位までが、同じFrontierアーキテクチャでした。
トレーダー:冷却についてもう少し詳しく教えてください。冷却についてもう少し詳しく教えてください。電力と冷却のために多くの設備アップグレードをされたと思いますが、計算機は完全に液冷なのですか?
ウィット:そうです。このデータセンターには、以前「Titan」というスパコンがありました。そのスパコンを撤去して、このデータセンターを改装したのです。その際、より多くの電力と冷却が必要であることがわかりました。そこで、データセンターに40メガワットの電力を導入しました。そして、40メガワットの冷却設備が利用できるようになりました。Frontierでは、ピーク時に29メガワット程度しか使っていません。そのため、システムに先駆けて冷却装置を設置するために、多くの工事が行われました。
トレーダー:その液冷は、ワークロードに応じて動的に調整されるのですか?
ウィット:ええ、そうです。ノードボードの個々の部品に至るまで、センサーで温度を監視しているので、冷却レベルを上げたり下げたりして、システムを安全な温度に保つことができるのです。
トレーダー:そうですね。 部屋の中での音量はどうでしょう?ここではマイクを使っていますが、データセンターの中ではそれほど大きな音ではありませんね。
ウィット:その通りです。皆さんはTitanの時代に訪れたと思いますが、その時はイヤーマフを付けていて、こんな会話はしていなかったと思います。これはSummitよりもさらに少し静かで、液冷になったから静かになっているんです。ファンがないんです。部屋と熱交換するようなリアドアもありません。
トレーダー:100%液冷で、私たちが聞いている(ファンの)音は、実は同じHPEで空冷のストレージシステムからのものなのですね。
ウィット:そうです、少し大きめなので部屋の反対側にあり、かなり大きな音がします。
トレーダー: そろそろ検収の時期が近づいているようですが、いかがでしょうか?
ウィット:実は、そろそろ検収のプロセスに入るところなんです。基本的に、これまでは本番前のソフトウェアで多くのテストとチューニングを行ってきました。ですから、ネットワーク・ソフトウェアからプログラミング環境まで、すべての本番用ソフトウェアを、実際に研究者がシステムで使用するときの状態にしなければなりません。それが終わって、すべてがチェックアウトされたら、マシンの受け入れプロセスを開始します。
トレーダー:では、今Frontierで動いているものは?
ウィット:今はまだベンチマークテストをしているところです。また、新しいソフトウェアパッケージのチェックも行っています。ソフトウェアのアップグレードに伴い、システムに新たなバグが発生していないことを確認するために、いろいろなものを載せ、ベンチマークを行い、実際のアプリケーションを動かしているところです。
トレーダー: ダッシュボードを表示すると、そこで何が動作しているかが一目瞭然なのですか。
ウィット:その通りです。
トレーダー:クールですね。
ウィット:それから、先ほど計測器やセンサーについて触れましたが、同じダッシュボード上で個々のGPUの温度まで見ることができ、GPUがどれだけ熱くなっているか、システム内の流量はどうなっているかなどを確認することができます。これは本当にすごいことです。
トレーダー: 初期に導入される最初のワークロードは、どのようなものになるのでしょうか。
ウィット:ここOLCF(Oak Ridge Leadership Computing Facility)には、Center for Accelerated Application Readiness(CAAR)と呼ばれるセンターがあります。冗談交じりに「CAAR」と呼んでいるのですが、これはアプリケーションの準備のための機関です。このグループは、OLCFの8つのアプリケーションとExascale Computing Projectの12のアプリケーションをサポートしています。ですから、システム稼動初日には、20以上のアプリケーションがサイエンスに対応できるようになる予定です。
トレーダー:初日からエクサスケール対応というのは、そのキャッチフレーズですね。このような巨大な装置の調達サイクルが長期に渡ることを考えると、Frontierの次のスーパーコンピュータであるOLCF-6の計画にも既に着手しているのですね。OLCF-6と呼ばれるそのシステムは、どのように準備され、どこへ運ばれるのでしょうか。
ウィット:プロジェクトで言えば、「Frontier」が「OLCF-5」で、その次のシステムが「OLCF-6」です。現時点では、まさにその構想段階です。スペース的にも、電源や冷却の観点からも、そのシステムを設置するスペースはあります。
トレーダー: Frontierのマシンが非常に高密度であるため、キャビネットの数が少なくて済んだということもあるのでしょうね。
ウィット:その通りです。
トレーダー:それから、以前Top500で1位を獲得したIBM/Nvidiaのマシン、Summitもまだありますね。Frontierを本格的に稼働させた後、Summitはどのように活用される予定ですか。
ウィット:Summitは今でも素晴らしいシステムです。現時点でも高い利用率を誇っています。現在でも、研究者がコードを実行するために、おそらく95%かそれ以上の負荷がかかっています。ですから、現時点でも素晴らしいシステムです。そうすることで、Frontierが安定して稼働していることを確認し、データやアプリケーションを新システムに移行する時間を確保することができます。しかし、Summitは本当に良いシステムなので、様子を見ながら、少なくとも1年間はFrontierとオーバーラップして運用するつもりです。
トレーダー:そして、とても重要な質問です。先ほども少し触れましたが、もっと個人的な観点から、Frontierとエクサスケールが可能にする科学について、最も期待していることは何でしょうか。
ウィット:さまざまなサイエンスに期待しています。実際、システムのスケールが大きくなれば、これまでアプローチできなかった問題にアプローチできるようになります。私は元々CFDの専門家です。ですから、CFDのコードにはいつも好感を持っています。しかし、最もエキサイティングなのは、人工知能とそのワークロードの研究です。さまざまな病気に対するよりよい治療法の開発や治療効果の向上について研究している研究者がいますが、これらのシステムは膨大な量のデータを消化することができます。実験室の報告書や病理学の報告書を考えてみてください。私にとっては、とてもエキサイティングなことなのです。
トレーダー:CFDといえば、冷却システムの水流のモデル化にもCFDを使っているのでしょうか?
ウィット:ええ、やっていますよ。これは最近の取り組みです。
トレーダー: それはなかなか素晴らしいですね。そうですか。さて、本当にありがとうございました!ツアーに感謝します。
ウィット:いつでも歓迎しますよ。
トレーダー: おめでとうございました。
ウィット:ありがとうございます。