AuroraがAIの優位性を証明し、FrontierからAIトップの座を獲得
Kevin Jackson オリジナル記事「Aurora Proves AI Supremacy, Snags Top AI Spot from Frontier」
アルゴンヌ国立研究所のスーパーコンピュータ「Aurora」が、第63回TOP500のHPLスコアで1.012エクサフロップスを記録し、エクサスケールの壁を正式に打ち破った。これは、前回リストの585.34ペタフロップスを大幅に上回るもので、アルゴンヌ・リーダーシップ・コンピューティング・ファシリティ(ALCF)チームの大きな成果である。
クレジット:Argonne/ALCF | |
Auroraはまだ完成しておらず、今回のベンチマークはシステムの87%しかオンラインにない状態で達成された。このマシンは総コア数9,264,128で、HPE Cray EX – Intel Exascale Computer Bladeをベースとしており、インテルXeon CPU Maxシリーズプロセッサー、インテルデータセンターGPU Maxシリーズアクセラレーター、スリングショット-11インターコネクトを使用している。
Auroraは、HPL-MxP混合精度ベンチマークにおいて、10.6エクサフロップスのAI性能を発揮し、Frontierの10.2エクサフロップスを抑えて2位を獲得した。
AIがHPCとコンピューティングに関するあらゆる議論を支配し続ける中、HPL-MxPのスコアは今後もその重要性を増していくだろう。しかし、このベンチマークを従来のHPLと区別するには、スーパーコンピュータの性能測定方法をある程度理解する必要がある。
ここでは、これら2つのベンチマークを区別し、AuroraのチームがマシンのAI能力をどのように利用する予定なのかについて説明する。
HPLとHPL-MxPはどう違うのか?
その核心において、すべてのコンピューティングは単なる数学である。Redditでかわいい猫の写真を見ることから新薬の発見まで、コンピューターは数学の問題を特定の有用な方法で解くことで動作する。したがって、これらのマシンを測定するには、数学の問題を与えて、その問題を解くのにかかる時間を見るのが理にかなっている。
クレジット:Argonne/ALCF | |
これはHPLベンチマークの基礎であり、High-Performance Linpackの略である。HPLは、LINPACKベンチマークを構成する測定グループの1つである。Jack Dongarraによって導入されたすべてのLINPACKベンチマークは、コンピュータがn×nの密な連立一次方程式を解く速度を測定する。
HPLはランダムな密な連立方程式を解くソフトウェア・パッケージであり、64ビットの数値を使って大きな数学問題を解くようマシンに要求する。これらの64ビットの数値は、問題に対して非常に正確な解答を与える。
逆に、HPL-MxPはHPLと同じ大きな数学問題を解くようマシンに求めるが、1つだけ大きな違いがある。超精密な64ビット数値ですべての計算を行う代わりに、HPL-MxPで測定されたシステムは、まず、より小さな16ビットまたは32ビット数値を使ってほとんどの数学的作業を行う。これらの数値により、マシンは多くの作業をより高速に行うことができるが、精度は低くなる。このプロセスの最後に、HPL-MxPは特別な方法でマシンが出した答えを洗練させ、完全な64ビット精度に戻す。
この方法がAIの能力をテストするのに使われる理由は、AIや機械学習は一般的に高い精度を要求しないからだ。加えて、AI革命を牽引しているGPUは、より小さな、より精度の低い数値で素早く計算することにも長けている。
AIプロジェクトが成長し続け、多くの実世界アプリケーションで完全な64ビット精度が必要でなくなるにつれ、HPL-MxPはモデル性能にとってより重要になるだろう。
AuroraはこのAIパワーで何をするのか?
Auroraは常にAI中心のシステムであることを意図しており、HPL-MxPでの勝利は、このマシンがAIパワーハウスであることを証明している。実際、ALCFは、このスーパーコンピューターの63,744GPUがGPUを搭載した世界最大のシステムであると主張している。
しかし、驚くべきハードウェアが搭載されていても、Auroraは解決すべき問題のない高価な文鎮に過ぎない。ありがたいことに、ALCFはこのシステムのためにいくつかのエキサイティングなプロジェクトを持っている。
「Auroraのハードウェアは、伝統的な科学計算問題とAIを活用した研究の両方に取り組むことに優れています」と、アルゴンヌ研究所のリック・スティーブンス副所長(コンピューティング・環境・生命科学担当)はALCFの記事で述べている。「AIが科学的展望を変え続ける中、Auroraは研究のペースを大幅に加速させる新しいツールとアプローチを開発するプラットフォームを提供してくれます。」
COVID-19パンデミックを受けて、計算創薬はHPCコミュニティ内でさらにホットな話題となっている。AuroraのAI機能は創薬に最適であり、ALCFチームはすでにAuroraの実用化に取り組んでいる。研究者たちは、Auroraを使って化合物の膨大なデータベースをふるいにかけ、最も致命的な病気を治療できる薬を探すためのAIワークフローを作成している。
クレジット:Argonne/ALCF | |
研究チームは、Auroraの128ノードを使用して、1件あたり110億の薬剤分子をスクリーニングすることができた。その後、ノード数を256に倍増し、線形スケーリングを実証して、1時間あたり220億の分子をスクリーニングすることができた。Auroraが完全に完成すれば、1時間あたり1兆個の候補化合物をスクリーニングできるようになるだろう。
計算生物学と同様の流れで、ALCFの科学者たちはAuroraを使ってディープラーニングモデルを開発し、脳のニューロンを何万もの接続とともにマッピングする研究を進めている。
このプロジェクトの初期段階での実行は有望で、研究チームは、初期の計算の1,000倍以上のデータセットを使って脳のセグメントを再構築できると見込んでいる。研究チームが採用している計算手法は、現在の脳組織の立方ミリメートルのマッピングから、将来的にはAuroraや他のスーパーコンピューターでマウスの脳の立方センチメートルの完全なマッピングを可能にするものである。
このようなミクロな問題に取り組むだけでなく、研究者たちはAuroraを使って、人類が知る限り最も大きな宇宙システムのモデル化も行っている。Auroraを使えば、科学者たちは宇宙論モデルにさらなる詳細さと複雑さを加えることができ、宇宙のダイナミクスと構造に関する新たな理解につながるかもしれない。
初期の科学チームは、宇宙の大規模構造のシミュレーションと画像を生成するために、約2,000台のAuroraノードを初期実行に使用した。これらの取り組みにより、シングルGPUの優れた性能が示され、フルマシンの性能の完璧なスケーリングに近いことが実証された。研究者たちによって生み出されるエクサスケールシミュレーションは、宇宙進化に関する我々の知識を確認し、向上させる上で極めて重要なものになると期待されている。
Auroraはすでに驚異的なマシンであり、HPCコミュニティは、このマシンが完全に完成したときにどのような能力を発揮するかを心待ちにしている。しかし、これまで我々が見てきたものでも、AuroraはAIアプリケーションにおいて驚くべき可能性を秘めている。