世界のスーパーコンピュータとそれを動かす人々


3月 28, 2019

2021年、Auroraが最初の米国エクサスケール・コンピュータに

HPCwire Japan

Tiffany Trader

3月18日に米国エネルギー省は、インテル社とクレイ社と共同で、持続性能が1エクサフロップス能力を持つIntel/Crayのスーパーコンピュータ“Aurora”をアルゴンヌ国立研究所に2021年末までに納入し、アメリカの最初のエクサスケール・スーパーコンピュータになることを発表した。この再構成されたCORALの契約は5億ドル以上の価値がある;インテル社はそのまま主契約者で、クレイ社は下請けとなっている。(元のCORAL契約によれば、これは書き直されてはいるが、再入札にはならなかった。)

今回の発表では、Auroraに関する未解決の質問はそのままになっており、特にインテルとDOEが以前に示唆していたAurora21に搭載予定である「新規」技術の詳細はそのままだ。しかしインテルは、その次世代のアーキテクチャである謎に「Xe」という名前を付けており、まだ実用化されてはいないが、2021年に持続性能でエクサスケールを達成するためのDOEの計画を裏付けている。

要約すると、インテル社とDOEがAuroraの設計について提案したものは次のとおりである:

Aurora – クレイの“ Shasta”システム – は、次世代のIntel Xeon Scalableプロセッサ、IntelのXeコンピューティングアーキテクチャ、次世代のIntel Optane Datacenter Persistent Memory、およびインテルのOne APIソフトウェアに基づいている。これらのテクノロジは、CrayのSlingshotインターコネクトとShastaソフトウェアスタックによってすべて接続され、200台以上のShastaキャビネットに組み込まれる。

「Auroraは、IntelソフトウェアコンポーネントとShasta用に設計された新しいCray Systemソフトウェアを組み合わせて使用することで、システムのモジュール性と拡張性を長期的に実現することができます。」とクレイ社は述べている。 「Shasta演算ノードとSlingshotインターコネクトを単一の管理およびソフトウェアアプリケーション開発インフラストラクチャで統合することにより、Auroraシステムのワークロードはより最適に実行され、研究者により高いパフォーマンスを提供し、知見までの時間を短縮できるのです。」

クレイ社のの契約額は1億ドル以上と見られており、これはクレイ社の歴史上最大のものの1つである。 Auroraは過去6ヶ月間でShastaシステムにとって2番目に大きな受注である。 「Perlmutter」として知られているShastaシステムのNERSCとのクレイ社の契約は1億4千6百万ドルである。

先週の金曜日(3月15日)メディア向けに行われたプレブリーフィングで、インテルは新しいXeアーキテクチャに関する技術的な詳細を発表しなかった。例えば、インテルがデンバーのSC18で公開した新ディスクリートGPUを組み込むかどうかなど。

SC18でRaj Hazraが発表したスライド
 

インテル社のRajeeb Hazraは、次のように述べている。「Xeは、新しいワークロードのニーズ、特にHPC、AI、およびデータ分析の融合で見られるワークロードに対応するためにフランチャイズで行われていることを拡大するために、膨大な研究開発とイノベーションが必要なことを意味しているのです。」

DOE、アルゴンヌ研究所、インテル社、クレイ社の各パートナーは、大規模な展望を乗り越えることの意義だけでなく、ハイパフォーマンス・コンピューティング、従来のモデリングとシミュレーションをデータ分析およびAIとの融合を加速させるAuroraの役目を強調している。

「このシステムは、従来のハイパフォーマンス・コンピューティング・アプリケーションの両方にとって優れたプラットフォームになるでしょうが、データ分析、特にDOEで見られるような、データが加速器、検知器、望遠鏡などなどから出てくるようなストリーミングデータ問題にも優れるように設計されています。」と、金曜日のアルゴンヌでの説明会で、コンピューティング、環境、ライフサイエンスの副研究所長であるRick Stevensは述べている。

Stevensはまた、Auroraはディープラーニングのための優れたプラットフォームになるように「排他的に構成される」と語った。

「このプラットフォームは、私たちが知っている最大のAIトレーニングと推論問題に取り組むように設計されています。」と彼は述べている。 「さまざまな国立研究所で開発されているAIアプリケーションは100以上あります。 Exascale Computing Projectの一環として、エクサスケールの機械学習に関する新たな取り組みがあり、その活動がAuroraの要件、特にソフトウェア環境に取り入れられています。ハードウェアはトレーニングに非常に優れており、トレーニングで最新のパフォーマンスを達成するでしょう。」

インテル社のコーポレートバイスプレジデントであり、企業および政府グループのゼネラルマネージャであるHazraは、Auroraの要件について一般的に次の重要性を述べている。「新しいプロセステクノロジ、効率的なシリコンの設計、そして最も重要な…パッケージとシリコンを組み合わせる新しい方法イノベーション」

これは、インテルが最近の顧客とパートナー(およびメディア)の取り組みの中でフォーカスしてきた「6つのイノベーションの柱」のすべての部分となる。

 

アルゴンヌ国立研究所のStevensは、機械学習、ディープラーニング、そしてシミュレーションの融合が科学的発見の進歩に相乗効果を生み出すと信じている。 「さまざまな機械学習やAI手法を直接それらのシミュレーションに取り入れたり、AIを使用して多数のシミュレーションを制御または管理して積極的な学習アプローチを実行したいと考えているグループが多数あります。ですので一般的に、これが科学、技術およびヘルスケアの多くの分野で加速する新たな波を作ると考えています。」と彼は述べている。

Stevensは、計算と新しいデータ分析機能の増加が、国立がん衛生研究所並びに復員軍人援護局とDOEで共同で行なっている取組である、自殺の危険因子と自殺の結果を改善するための戦略を理解するための分析と機械学習と大規模データ分析を推進することを期待している。心臓リスクと外傷性脳損傷の理解を深めることは、さらなる応用分野である。 Stevensによると、Auroraはアメリカの企業に対して、INCITEのようなプログラムを通じてDOE複合施設や米国の大学システムで利用できるようになるという。

エクサスケール・コンピューティング・プロジェクト(ECP)が投資している分野は、例えばより優れた電池材料、より効率的な太陽光発電、および風力または原子炉用の先進材料の設計などの材料科学を含んでいる。他のECPプロジェクトでは地震ハザードリスクの評価や、もう1つでは、付加製造法にシミュレーションとAIを適用しようとしている。風力タービンの効率の改善に焦点を当てたプロジェクトや、気候や天気予報を進めるプロジェクトもある。

安全保障と防衛アプリケーションは、もちろんDOEのリーダーシップ・スーパーコンピューティングにとっては不可欠である。金曜日にDOEの科学担当次官であるPaul Dabbarは核兵器備蓄管理のためのHPCの重要性について言及した。 「核実験禁止条約が締結されて以来、我が省の多くの防衛アプリケーションがハイパフォーマンス・コンピューティングを利用しています。この能力により、これらのニーズに対する理解を継続し、加速することができるのです。」と述べている。

2018年、DOEの国立研究所は、世界で1位と2位のスーパーコンピュータ(それぞれオークリッジとリバモア研のSummitとSierra)を運営し、世界のトップ10スーパーコンピュータのうち5台(Top500とHigh Performance Linpackベンチマークによるランク付け)を所有している。

Stevensは、3年間でSummit(~150ペタフロップス)とAurora(>1000ペタフロップス)の間のギャップを埋めるという課題についてコメントし、次のように述べている。「エクサスケールの研究開発は10年以上続いています。このマシンは、現在のナンバーワンのマシンが設置されてから約3年後に来ることになりますが、その間に、このパフォーマンス目標を達成するために必要なアーキテクチャとソフトウェアの両面で、若干の進歩が見込まれています。」

Auroraの予算は3月11日に出されたトランプの2020年の予算要求に含まれている。「DOE科学局用の5億ドル、および国家核安全保障局用の3億900万ドル…エクサスケール・コンピュータシステムの展開を2021年に可能にするものである。」

パートナーのコメント:

米国エネルギー省のRick Perry長官は、「エクサスケールを達成することは、科学的コミュニティを向上させるためだけでなく、すべてのアメリカ人の生活を向上させるためにも不可欠なのです。」と述べた。 「Auroraと次世代のエクサスケール・スーパーコンピュータは、癌研究、気候モデリング、退役軍人の健康管理などの分野にHPCとAIの技術を適用することになるでしょう。エクサスケールで行われる革新的な進歩は、私たちの社会に非常に大きな影響を与えることになるでしょう。」

IntelのCEOであるBob Swanは、次のように述べている。「今日は、初のエクサスケール・コンピュータを構築するために集まった技術者と科学者のチームにとって重要な日です。」 「AIとハイパフォーマンス・コンピューティングの融合は、世界最大の課題のいくつかに取り組む絶好の機会であり、経済的機会に対する重要なきっかけとなります。」

アルゴンヌ国立研究所長のPaul Kearnsは、次のように述べている。 「このようなエネルギー省、アルゴンヌ国立研究所、および業界パートナーであるインテルおよびクレイとのコラボレーションによってもたらされる、私たちの国にとって非常に大きな科学的利益があります。」「アルゴンヌのAuroraシステムは次世代の人工知能のために構築されており、ハイパフォーマンス・コンピューティングと人工知能を組み合わせることで、エクストリームな天気予報の改善、治療の促進、人間の脳のマッピング、新しい材料の開発、そして宇宙の理解などの科学的発見を加速します。そしてそれはほんの始まりにすぎないのです。」

クレイのプレジデント兼CEOであるPeter Ungaroは、次のように述べている。「クレイは、さまざまな分野にわたる発見と革新のスピードを加速するために、インテルとアルゴンヌと連携していることを誇りに思います。」 「Shastaが、優れたパフォーマンス機能、新しいデータ中心型のワークロード、および異種コンピューティングを特徴とする、今後のエクサスケール時代の基盤となることに私たちは喜んでいます。」

Hyperion Researchのシニアバイスプレジデントを務めるSteve Conwayは、次のように述べている。「アメリカの最初のエクサスケール・スーパーコンピュータ、そして世界のエクサスケール・レースへの最初のエントリとなることは、スーパーコンピュータという言葉の同義語であるクレイに非常にふさわしいことです。」 「このクレイのShastaアーキテクチャの実装はインテルと共同で開発されたもので、大手HPCユーザがエクサスケールの時代に持っている欲しい物のリストと非常によく一致していますが、すぐには実現しないでしょう。」