世界のスーパーコンピュータとそれを動かす人々


1月 27, 2016

アルゴンヌ、未来のシステムへの道を拓く

HPCwire Japan

Tiffany Trader

昨年4月、米国エネルギー省がIntelとアルゴンヌ国立研究所に2世代のクレイ・スーパーコンピューtを提供する2億ドルの契約を締結した際に、CORAL獲得プログラムの3番目で最後の部分が配置についた。Knights Landing (KNL)ベースの8.5ペタフロップスの「Theta」システムと、さらに大規模な180ペタフロップスの「Aurora」スーパーコンピュータだ。

このマシンがインストールされる時には、アルゴンヌ・リーダーシップ・コンピューティング施設(ALCF)の職員は、この施設におけるシステムの未来とコンピューティングの進化を見据えるだろう。より詳細な彼らの準備と計画を知るために、HPCwireはプロジェクト・ディレクターで、ALCFの副事業部長のSusan Coghlanと話をした。2012年にMiraのインストールを容易にしたように、Coghlanは2016年下半のThetaと、2018年のAuroraのインストールを監督する予定だ。

20160114-F1-Argonne-system-comparison-2016-768x269

昨年4月の発表以来、これらのマシンのフィードとスピードに変更はないが、8月にALCFが発表した早期科学プログラム(ESP)を強化することを含め、
そのインストール予定はアルゴンヌにおける泥沼の活動を蹴散らしたのだ。ThetaのESPは全体で12プロジェクトあり、Tier 1とTier 2に分かれており、詳細はここで読むことができる。これらは幅広い科学領域と、「初日の科学」を可能にし、より大規模なALCFのコードベースを持ち越すようなレッスンを提供するアルゴリズム/数値的方法を表すように選択されている。

新しいこと

Theta ESPは成功したMira ESPをモデルにしているが、メモリ階層化の登場のようにHPC研究における支配的なトレンドを反映するようなALCF ESP(内部的に知られている現在の取り組みとして)内を含めたいくつかの注目すべき要素がある。このプロジェクトにおける選択基準は、プロジェクトの主任研究者がどのようにこのアーキテクチャ的なシフトに対処するかのフィードバックを必要とした。

「来たるべき新マシンでは、小容量の超高速メモリと、大容量の超低速メモリがあり、それとファイルシステム間にはもっとステップがあるのです。」とCoghlanは開発が必然から生まれたことを指摘している。

「大容量の超高速メモリを持つコストのために、我々はこれらの階層化と持ち、どのようにこれが科学に影響し、どのように科学者がそれらを活用し、与えられた階層化による違いと、メモリ内にジョブを割り付けるための異なるAPIで最高の性能を引き出すことができるかを理解しているのです。」

アプリケーションの移植性は、OLCFにおけるGPUベースのシステムとALCFやNERSCにおけるメニーコアベースのシステム間の互換性をサポートするためにアルゴンヌがバークレーやオークリッジ研究所とパートナーを結ぶこのプログラムおけるもうひとつの大きな焦点だ。各研究所は独自の早期科学プログラム(NERSCではNESAP、OLCFではCARR)を持っており、より広いカバーレッジを得るためにプロジェクトがオーバーラップしないように心がけている。このフォーカスの一部として、早期のコードが自分のホームマシンでのみ動くことがないようにサイト中に渡って計算時間が確保されており、「sister」マシンでも同様である。

Knights Landingに備える

ALCFのサポートスタッフと一緒にいる早期科学プロジェクトの研究者達はCrayとIntelと協力してThetaのKNLベースのアーキテクチャ用に彼らのコードを移植し、最適化し、チューニングしている。彼らはアプリケーションの性能を評価するためにSniperと呼ばれるオープンソースのシミュレータを使ってきた。このシミュレータはKNLの詳細を提供するインテル独自のモジュールが装備されている。サイクル精度のシミュレータではないが、それははるかに高速であると、Coghlanは指摘している。それは計算機科学者と研究者が実際のハードウェア上でアプリケーションがどのように動作するかを解析することを可能にしている。「このプロジェクトの参加者達はどのようにチューンし、何を調整するかなどなどを知るために、このシミュレータ内でコードを解析してきています。」とこのプロジェクト・ディレクターは語っている。「そして、我々が遭遇した最適化の可能性などの問題点における情報をIntelにフィードバックするのです。」

ALCFは現場にはまだKNLハードウェアを持っていないが、チームはCORALアプリケーション・セット(早期科学セットではない)のコア部分をIntelにあるKNLハードウェアで動作させている。アルゴンヌは実際のマシンが納品されるのに先んじて早期のハードウェアを受け取る予定で、このシステム自体は一般発売の前に提供される予定である。

ユーザの経験

IBM BlueGene/Q MiraからCray/Intel x86マシンへの移行は、ユーザにとっては転換であり、いくらかのソフトウェアの相違はあるが、CrayおよびIntelのコンパイラーは高品質で広く利用されているので、スムーズな転換をCoghlanは予測している。多くの他のソフトウェアツール類は両方の環境をサポートしているので同じままとなる。また、このマシンは同じプログラム環境を共有しており、ほとんどの場合MPIとOpenMPだ。

Coghlanが気にしているより重大な変更はネットワーク側にあり、5次元トーラスからDragonflyトポロジ-になるのだ。

「このトーラス・インターコネクト、取り分け5次元の実装は非常に高価です。一方Dragonflyはより安価なソリューションである面、ユーザにそのコストが掛かるのです。」と彼女は説明した。「5次元トーラスで得られるメリットは、特にBlueGene上に実装されている方式においては、もう持てなくなるのです。例えばMiraでは、ジョブを実行する際にはあなたの演算インターコネクトはマシン上の他のどのジョブからもコンフリクトが起きないように保証されています。それは電気的に隔離されているからです。ですが、Dragonflyはその機能を持っていません。我々はここでどうするか、そしてユーザにどのような影響があるかを模索しています。」

Coghlanによれば、アーキテクチャ的な転換の予測されるひとつのメリットは、第二および第三世代のXeon PhiプロセッサであるKNLとKNH(Knights Hill)が、「ユーザが極端な手段を使うこと無しに、より良い性能向上を得るように助ける」ベクトル機能を持つことである。

データサイエンスを収容

アルゴンヌにおけるもうひとつの重要な領域は、リーダーシップクラスの施設規模のリソースを活用することがますます可能なセグメントである、よりデータ集約型の科学を支援する動きである。「過去には、このレベルの計算から利益を得たプロジェクトもありましたが、一般的に多くは、リーダーシップクラスのサイトが提供するものよりも小さなスケールで行われていました。」とCoghlanは語った。「現在、超大規模スケールでリソースを活用することができる多くの科学があり、我々が活動している進行中の数多くのプロジェクトがあるのです。」

これらのプロジェクトのひとつが、Cooleyと呼ばれるアルゴンヌのCrayデータ解析クラスタ上で実施されている。この作業は特にApache Sparkを使ったHPC解析用のビッグデータ処理を含んでいる。彼らはMiraもしくは将来のシステムのスケールは達成しなかったが、よりスケールできるような良い結果を得た、とCoghlanは指摘している。Sparkや他のようなアプリケーションは大規模ではまだうまく動いていないし、関連するソフトウェアこのスケールで動作するように最適化されていないので、彼女は一般的にHPCのために取り組む重要な何かとしてこれを見ているが、科学的に取り組む必要があるのだ。

バッチ処理に対してリアルタイムを有効にすることに際して、Coghlanのチームが非常にこの分野に興味を持っていると述べた。彼女の同僚であるPete BeckmanはTeragrid上で「緊急計算」を可能にするトークン・システムの開発に成功している。それは広くにはポリシーの問題だと彼女は語った。「リアルタイムを行う際には、有効性の前提があります。リアルタイムジョブ用にある量のリソースが保証されるように割込み機能を持つ方法であり、それらが実行されたら、リソース上で動いているすべてを殺して、それで実行できるようになるのです。また、技術側で行う必要のある仕事があります、特にリソースマネージャです。」

機械学習の分野はアルゴンヌが追求しているもうひとつの領域だ。Coghlan は、機械学習をオンザフライに組み込んだ分子動力学を行うためにMiraを使ったJames Kermodeの研究を引用した。彼らがいくつかの固有の要件を持つことができることを考えると、彼らはこの種のワークロードを最善の方法でサポートする方法を見ていると彼女は語った。

もうひとつのプロジェクトがLHCの事象をシミューレートするために、ATLAS実験の物理コーディネーターであるTom LeCompteによって行われている。適応型グリッドワークフローを使い、I/Oとメモリ利用に関する改良を加え、かれらは必要とされる多くのATLASサイクルを行うことができており、彼らがもし国であるならば7番目に大規模なプロバイダーとなるだろう。

「我々が必要性を見ているいくつかの物のタイプがあります。まだないマシン上で取り組む必要のある実験施設への接続、リアルタイム、機械学習、データ集約型技術です。」とCoghlanは述べた。終わりに、アルゴンヌは新しい科学プログラムを開始する準備を進めている、彼らが現在「データ科学プログラム」と呼んでいるものだ。

ALCFのリーダーシップチームは募集を起草する過程にあり、次の1、2ヶ月のうちに発表したいと望んでいる。この計画は毎年デビューする4つのプロジェクトで構成される進行中のプログラムを支援するもので、内2つは、特定のワークフローの性能または技術(Sparkのような)の改良にフォーカスするような技術ベースであり、残り2つは科学にフォーカスしている。より大きなメモリ、より興味のあるメモリ階層化、そしてベクターI/O帯域幅の面でより多くのデータ集約型のリソースを持つThetaとAuroraのために、彼らは今年このプロジェクトを開始する。このプロジェクトはまた、ALCFのスタッフと同様に潜在的にはCray-Intelの人達へのアクセスを有することになるだろう。アルゴンヌは専用の資金を受けていないにも関わらずこの取り組むを行っている。

統一されたプラットフォームに向けて

伝統的で新興のデータ中心のワークロードを跨ぐことができる現代的なプラットフォームの理想は達成可能か?「これは人々が長い間話しをしていることでしたが、できるかどうかは本当に明確ではなかったのです。」とCoghlanは観察している。「私はできると考えています。これはマシンの優先順位と利害関係者の問題なのです。これは、その空間を探索し、それが本当に実現可能かどうか、そしてそれが理にかなっているかどうかを探求する私達にとって良い機会となるでしょう。しかし現在は、もとんどの施設が演算にフォーカスしたマシンとデータ解析にフォーカスしたマシンを持っており、混在させようとはしていません。アルゴンヌでは、KNL部分と、データ集約型科学をサポートするための追加メモリとストレージの要素から始まっており、同じハードウェア上で両方を行うように探求することに意味があるのです。」

「最終的には、両方のタイプの科学、取り分けでデータが重い科学を行いサポートし、またその逆に演算集約型をサポートすることができるような、より柔軟なマシンを所有することを我々は本当に好むでしょう。我々は結合された多くのものを持っています。HACC(Hardware/Hybrid Accelerated Cosmology Code)と呼ばれる宇宙論コードはダークマター、ダークエネルギー、宇宙の起源を見ています。これはSLOAN天空調査データから引き出し、その上でデータ解析を行いますが、彼らはまたシミュレーションを行って観測したデータとシミューレションの結果を比較しており、彼らは結合された方法でそれを行うことができるようにしたいと考えており、同じマシン上でできるようになることで、より簡単になるでしょう。」