世界のスーパーコンピュータとそれを動かす人々


6月 15, 2018

オークリッジのSummitがついにやってきた

HPCwire Japan

Tiffany Trader

オークリッジ国立研究所(ORNL)は、IBMおよびNvidiaと共に、DOEのRick Perry長官が主催するイベントにおいて、米国エネルギー省(DOE)のSummitスーパーコンピュータの正式な発表を行った。 CORAL調達プログラムの下で、推定2億ドルのマシンを設計して構築する協力関係を持ったこのパートナー達は、ハイパフォーマンス・コンピューティングのワークロードで200ピーク・ペタフロップの能力を持っており、また、新しいAIワークロードにおいては3.3ピークexaopsを持つ世界で最も強力なスーパーコンピュータとしたのだ。

このインストールでは、4608台の計算ノードがあり、各々は2個の22コアIBM Power9プロセッサと6個のNvidia Tesla V100 GPUを搭載し、デュアルレールのMellanox EDR 100Gb / s InfiniBandで相互接続されている。Summitは、18,688個のAMD-Nvidiaノードを搭載する前身のTitanよりも8倍のパフォーマンスを提供すると言われている。この新しいスーパーコンピュータは、13MWの消費電力を持っているが、大規模なパフォーマンスの飛躍を考えれば、Titanの9MWに比べて大幅な増加とは言えないだろう。

 

Summitの発表を行う

DOEのRick Perry長官

 
   

Perryは米国の世界的な競争力と技術的リーダーシップの印としてSummitの設置を支持している:

「我々は競争の中にいることを知っており、この競争が真に迫ったもので、誰が最初に獲得するかが重要であることを分かっています。」とPerryは語った。 「今日、アメリカはこのゲームにアメリカが戻ってきたことを世界に示しており、大きな手段でこのゲームに戻るのです。我々の国家安全保障、経済、科学的発見、エネルギー研究は強力な影響を受けるでしょう。」

しかし、Perryは米国も課題に直面していると警告している。 「独自の技術開発のために競争している他の国もあります。私たちが献身的ではないと判断した場合、今日の私たちが享受するリーダーシップは、明日のリーダーシップになる可能性があり、我々はそれを望んではいません。」

このソフトローンチ(正式な納入は今年の後半に予定されている)はメディアの注目を集める重要な節目であるが、HPCコミュニティ特有のものが依然として待ち望まれており、ハードベンチマークを期待している。次回のTop500リストを長く待つ必要はなく、2週間で結果が出る。Summitが約120ペタフロップスと予測されているLinpackスコアを達成すれば、米国は中国からTop500の首位を取り戻すことができ、その驚きを待っている。中国は2013年の33.9ペタフロップ(Linpack)のTianhe-2Aのデビュー以来、このリストのトップを守っている。このマシンは、いまでもナンバーワンの地位を守っている93ペタフロップス(Linpack)のSunway TaihuLightを中国が立ち上げた2016年に2位になった。米国の最速マシンはオークリッジのTitanスーパーコンピュータで、2012年11月には1位(17.6 Linpackペタフロップ)でリストに入り、現在は5位にランクされている。

 

Perryは「トランプ大統領はスーパーコンピューティングでアメリカを一番にすることを決意しています。」と述べ、政権におけるスーパーコンピューティング・リーダーシップの重要性を強調した。彼は大統領の3月の予算を引用し、エクサスケール活動のための6億7700万ドルの資金含まれているいることを指摘し、その資金の増加が見込まれていることを示唆した。(最新のエクサスケール予算のカバレッジをご覧ください。)Frontierと呼ばれるSummitの後継のための調達プロセスはすでに進行中だ。この計画はCORAL-2マシンのものであり、2021年の後半に出荷を予定している、国内初のエクサスケール・スーパーコンピュータとなる予定だ。

不完全ではあるが、Top500リストがベースにしているLinpackのメトリックは、ピーク機能よりもランクを決める意味がある方法である。もちろん、実際に重要な唯一のベンチマークは、スーパーコンピュータが実際のアプリケーションでどのように動作するかだ。今回の発表でORNLのThomas Zacharia所長は、Summitで行われた初期の科学アプリケーションの1つが、混合精度のエクサスケールの障壁を破ったと指摘した。

 

各Summitノードは、2個のPower9 CPUあたりに

6台のNVIDIA Volta GPUを使用し、NVIDIAのNVLink

2.0テクノロジで接続している。

(画像クレジット:Jason Richards / ORNL)

 
   

初期のテストにおいて、オークリッジの研究者は、SummitのV100 GPU Tensorコアを使用して1.88 exaopsを達成し、ヒトゲノム配列間の変異を分析する比較ゲノムコードを実行した。実行は、4,000ノード上にある代表データセットを使用して実行され、50%を超える計算効率を達成している。 Summitは、以前のリーダーシップクラスのスーパーコンピューターTitanと比較して、コード全体で25倍のスピードアップを可能にし、Tensorコアだけでは4.5倍のアプリケーションスピードアップを実現している。(詳細についてはORNLの記事を参照。)

オークリッジとそのパートナーによると、Summitは、以前は実行不可能もしくは不可能であった科学的発見を可能にするかつてないコンピューティングパワーとディープラーニング能力を提供し、エネルギー、先進的な材料、人工知能(AI)またその他の領域における研究を発展させるだろう 。その力は、2016年に始まった米国退役軍人省とのパートナーシップを通じて軍の退役軍人の世話を改善することにも役立つ。

これらはSummitで実行される予定の他の科学プロジェクトの一部である。(オークリッジの記述)。

天体物理学

超新星と呼ばれる爆発する星は、どのように宝石中の金や血中の鉄などを含む重元素が宇宙に生じたかに関連する手がかりを研究者に提供する。

高度にスケーラブルなFLASHコードは、原子レベルから星の最後の瞬間の大規模な流体力学まで、マルチ・スケールでこのプロセスをモデル化している。 Summitにおいては、FLASHはこれまでよりもはるかに進んで、超新星シナリオを数千倍長くシミュレートし、過去のプロジェクトの約12倍の要素を追跡する。

「以前のマシンではこれまでやっていた100倍以上の計算が可能です。」とORNLの計算天体物理学者Bronson Messerは述べている。「Summitの規模が大きければ、非常に高解像度のモデルを作ることができます。」

材料

エネルギー貯蔵、変換および生産のための化合物を含む次世代の材料の開発では、物質的な挙動の原子核内部の理解が必要だ。量子モンテカルロアプリケーションであるQMCPACKは、第1原理計算を用いてこれらの相互作用をシミュレートする。

現在まで、QMCPACKの計算コストが高いため、研究者は数十個の原子をシミュレートすることしかできなかった。しかし、Summitは数百の原子で構成された材料を計算することができる。これは、より実用的な超電導体(エネルギー損失なしで電気を伝送できる材料)の探索を支援する。

ORNLのスタッフ科学者、Paul Kentは次のように述べている。「Summitの大規模なオン・ノード・メモリは、物質や物理現象の複雑さの範囲を広げる上で非常に重要です。」 「さらに強力なノードは実際に私たちのシミュレーションの範囲を広げるのを手伝ってくれるでしょう。」

がんの監視

癌と闘うための鍵の1つは、既存の健康データを自動的に抽出、分析、分類し、遺伝子、生物学的マーカー、環境などの病気の要素間の隠れた関係を明らかにするツールを開発することだ。 Summit用の機械学習アルゴリズムは、テキストベースのレポートや医用画像などの非構造化データと組み合わされ、一般的に臨床試験の患者にしか得られないレベルで米国癌人口の包括的状況を医学研究者に提供するのに役立つ。

この癌サーベイランス・プロジェクトは、DOEと国立がん研究所との共同イニシアチブであるCANcer Distributed Learning Environment(CANDLE)の一部である。

「本質的には、大量のデータを使って文書や抽象的な情報を読むためにコンピューターを訓練しています。」とORNLの研究員Gina Tourassiは述べている。 「Summitは、我々が最も効果的なものを特定できるように、より複雑なモデルを効率よく探索することを可能にするのです。」

システム生物学

遺伝学や生物医学のデータセットに機械学習やAIを適用することで、人間の健康や疾病の結果の理解を加速化する可能性がある。

SummitでのAI技術の組み合わせを使用して、研究者はヒトタンパク質および細胞系の機能、協調および進化におけるパターンを同定することができるであろう。これらのパターンは、臨床表現型や、アルツハイマー、心臓病または中毒のような疾患の観察可能な特徴を全体的に引き起こし、創薬プロセスを教えてくれる。

ORNLと米国退役軍人局との戦略的パートナーシッププロジェクトを通じて、研究者は、臨床的およびゲノム的データを機械学習およびSummitの高度なアーキテクチャと組み合わせて、オピオイド中毒などの状態に寄与する遺伝的要因を理解させてくれる。

ORNLの計算生物学者、Dan Jacobsonは、「生物学的システムとしての人間の複雑さは信じられないほどです。」 「Summitは、来る前までは不可能だった全く新しい科学を可能にしています。」