世界のスーパーコンピュータとそれを動かす人々


5月 21, 2014

iForgeクラスタは、どのようにビッグインダストリーのために結果を産み出すのか

HPCwire Japan

Nicole Hemsoth

Boein、Proctor & Gamble、John Deere、Caterpillar、Dow、GEなどの大規模な製造企業のことを考える時、システムとソフトウェアの観点から、高性能コンピューティングが競争の強みであることに少し疑念がある。しかし、これらの企業の多くは、魔法のようによりよい結果を実現するために高いコア数で加速させたスーパーコンピュータの中へエンジニアリングコードを組込むような単純な問題ではない。

有限要素解析、計算流体力学、そして大規模な製造企業での自家製コードは、彼ら自身の独自なシステムが必要である – しかし新しいアーキテクチャやアプローチでの実験は組織全体から競合する要求が原因でチェーンを押し下げている日々のワークフロー内で実行する傾向にある。と国立スーパーコンピュータ応用研究所(NCSA)で民間部門プログラムと経済開発イニシアチブを率いるMerle Gilesによると、一般的なエンジニアリングアプリケーションのほとんどは、約1000コアあたりで上手く活気づく傾向がある。彼らは、アクセラレーションを必要とする傾向はないが、分析やその他の重要な要素を処理するために大きなメモリを必要とする。

NCSAのGilesと彼のチームは、Blue Watersへのアクセス権を持っているので、コア数や科学アプリケーションの性能は二の次である。ユーザーのために彼がターゲットとする(商用とミッションクリティカルな内製エンジニアリングコード)このような大規模なリソースは、別のはるかに小さい(しかし、はるかに多くを目的とした)オプションの具体的なアピールをしないかも知れない:大手製造業で「パワーユーザー」の実験的なニーズに対応するために切り詰められたが十分にチューニングされたクラスタを特別に構築する。Gilesのチームは、このようなハードウェアリソースを持っている・・・そして、彼らはまた、同様に責任を持って世界クラスのサポートを行うためにNCSAとイリノイ大学の両方を横断した様々な専門知識を収集することができる。

コンテキスト内のシステムニーズの間のこの違いをあげれば、単一ノード上で64GBのRAMを持つBlue Waters上のメモリ依存型エンジニアリングコードを考えると合理的に上手くできるかも知れないが、はるかに小さいクラスタを扱うこの場合では、Gilesと彼のチームがNCSAのデジタル製造研究室で運用するiForgeシステムとこれらのコードは代わりに256GB上に分解して実行することができる。

iForgeクラスタは、強大なBlue Watersに対して確認のために共通のCFDおよびFEAアプリケーションでベンチマークされている ー 上にリストした大企業の実験的な「パワーユーザー」のために確保された彼らのプライベートクラスタを提供している製造関連企業にとって何が有用なのかの先端を押し続けるためにGilesと彼のチームの使命をさらに強化している。「私たちは、冗長ではないBlue Watersに相補的であるようにしたい。」とGilesは説明した。

もし、iForgeを聞いたことがない場合、それが最後の3年間(そしてより多くのコアとより多くの興味と共にプログラムの中へ直接詰め込むためにGilesの利益を掻き回す)周りにあったにもかかわらず、それは人が大学や国立研究所/スーパーコンピュータセンターの設定から期待する可能性のある、より公的に公表された資金の活動の一部ではない。また、どんなLINPACKやその他の公表されたベンチマーク結果にそれは現れていない。Gilesは、これは何故ならそれが最新のハードウェアの一部を使用して、ミッションクリティカルなコードをテストし、配備するために、これらのユーザーへ向けて最適化されたためだと言う。例えば、iForgeはSandy Bridgeが利用可能となった際のその早期受領システムのひとつであり、リリースされたばかりの新しいIntel Xeon E7 4890の15コアベースのノードを既に今まで使用している。

目標は単純である:デジタル製造のハイエンドなパワーユーザーを振り向かせるために新しいアーキテクチャを得て飛び移らせ、彼らのコードを最適化し、彼ら自身の社内クラスタに負担を掛ける事なくアップグレード/ 削減と対象領域の置換えをよりよく理解することで既存の基盤に対するそれらを評価する。これらのユーザーは、彼らのコードの規模感や操作がどの程度なのかについての貴重な教訓を得ることができ、選択をし、今度は、Gilesと彼のチームはシステムベンダへの貴重なフィードバックを引き渡すことができる。また、彼らは、生産運用のためにこれらのコアを使用することができ、チーム経費を求め、そしてそれがセンターの収益性を保持し、更新とシステム拡張の無限のサイクルをサポートする。そしてシステムといえば・・・

20140226-F1-1我々は、NCSAの民間セクターおよび経済開発プログラムのプログラムマネージャ、Evan BurnessからiForgeの進化についての幾つかのより詳しい詳細を受け取ることができた。Evanは、DDNストレージとQDR Infinibadと共にDellによって一緒に投げ与えられた彼らのIntel(そして暫くはOpteron)環境に関する詳細を含む、最先端ハードウェアの進展を我々に語った。Burnessは説明したように:

「私たちは、『IntelのWestmere』(116 EPノード、3 EXノード)とAMDの『Magny Cours』(2ノード)のアーキテクチャで2011年第3四半期にiForgeを開始しました。そのシステムは、合計1584コアを持っていました。2012年に、私たちはそれが市場(Q3 2012)に発表された時にIntelの『Sandy Bridge』(128 EPノード)アーキテクチャにアップグレードし、同時にAMDのノード数を2から18に増加して、『Interlagos』(ちょうどBlue WatersのCPUのように)にプロセッサをアップグレードしました。アップグレードを通じて、121から146へノード数が増加し、コア数は2624になりました。」サイドポイントとして、彼は32コアを占めるようにノード内の4つのOpteronプロセッサを数えており、むしろ64 AMDは、Interlagos、Abu Dhabiに基づく「16コア」のOpteronチップだけが8つの浮動小数点ユニットを持っていて、彼らの仕事のための本当に重要なものであるので引き合いに出すかも知れない。

これら定量的なアップグレードは、プロジェクトのためのマスタープランの一部であり、テストし、探求する製造業ユーザーのために新しいアーキテクチャを提供し続けることが目標であるので、そうあり続けるであろう。

Burnessは、彼らが2013年半ば(この時、Intelの早期アクセスプログラムを通して)に再度アップグレードすることを目指していると言うが、2014年1月までベンダーの遅延が発生する。その時、彼らは、Intelの「Ivy Bridge」(144 EPノード)ラインおよびAMDの「Abu Dhabi」ラインにアップグレードする。Ivy Bridgeノードは、確かに10コア変異体(Xeon E5 2680 V2)の特徴を持ち、64GB RAM(CFD用)のワークロードに特徴付けられた96ノードと256GB RAM(有限要素解析用)のワークロードに特徴付けられた48ノードがある。

「私たちはまた、Intelから直接1台のIvy Bridge-Exシステムを追加し、人はどのように産業界がこのシステムに現実世界の開発と生産問題をもたらすのか、この新しい技術を与えられる特に良いプラットフォームとしてiForgeを見ています。」とBurnessは説明した。これらは、12月と1月にIntelから発表された。iForgeは現在、60コアで120スレッド合計の4基の15コアのXeon E7 4890 CPUを備えて、それは私たちがその上でなにか詳細情報を得ることができる希少なものの一つである。Burnessとチームはまた、追加の1.5TBメモリと複数のInfiniband接続でサーバーを増強している。

加えて、彼らは「全てに可能な限り低いレイテンシー(FDRよりも低い)を維持しながら」、Ivy Bridge•ノード上のPCIe GEN 3.0にする限りQDR InfiniBandファブリックの使用可能なバンド幅を25.6Gb/秒から32.0Gb/秒へ増加させるネットワークをアップグレードしたと彼は言った。このすべてと相まって、彼らはまた、バッチ処理HPCをサポートするために彼らのエンジニアリングワークフローのずっと内側のそうする必要があるユーザーのためのデスクトップコンピューティング “体験” を提供するためにWindowsとGUI化されたRed Hat Linuxの8つのインスタンスを追加しているとBurnessは言う。「ここでは、自分のコンピュータでCADとCAMのワークロードを実行し、その後でHPCクラスタにファイルを送信する必要があると考えています。シミュレートされたモデルがより複雑でデータサイズが大きくなるように実行することが本質的に厳しくなります。ワークフロー全体のためのひとつの統合環境を持つことは、私たちの業界パートナーにとって大きな生産性を高めるものとなります。 」

Burnessは、「3年間の運用の全てを通して、iForgeはDDN SFA-10000ストレージシステム上で実行されているIBMのGPFSファイルシステムによってサポートされています。私たちは本当に、、RAMへのキャッシング/バッファリングの量を最大にするために、サーバあたり192GBのRAMでストレージサーバを纏めており、それでI/O集中型アプリケーションの性能を向上させることができました。」と言う。彼は、「設計の焦点の大きな部分は、同じくらい速いか、またはすべてより速いかですが、しかし非常に優秀で数少ない会社は彼ら自身(General Electric、BPなどは例外だろう)のために構築し、サポートすることができるでしょう。 」と指摘する。

Gilesは、彼らが最初に初期のSandy Bridgeを受け取った時、大規模製造業のひとつでユースケースを参考とすることにより、実世界の言葉の中へこのすべてを入れた。彼らのパートナーの多くがエンジニアリングアプリケーションのためのその約束(AVX機能を含む)にもかかわらず、どのようにSandy Bridgeへステップアップするのか確証が無かったと彼はその時言った。システム上での実験と完全なプロダクション運用を行わせることを可能にすることによって、彼らが完全にそのワークフローを変更し、アーキテクチャの有用性を検証し、256コアの領域で通常の128コアのワークフローを実行することが可能になったとGilesは言う。これは、彼らの自宅のマシン上で行うことができたであろうものではなく、毎日の仕事の処理のための幅広い、より多くのポリシーベースのアプローチをサポートするために「人工的に意味を単純化した」ものである。

iForge上のこの仕事は、大学外に基づく独立した非営利団体であるUIラボによってにすべてが監督され、そこでより良い学術リソースとNCSAと同様に見つかったものを活用することができる。デジタル製造のための7000万ドルの「助成金」(GilesがNDEMCに似たマッチングファンド協定をより詳細に定義)の今週の発表はこれと関係する。この国防総省主導のプロジェクトは、多くの製造業とその他の機関から約2億5000万ドル程度の注文に関する追加のマッチングファンドを動かすだろう。

Burnessは結論として、「彼らは、速度と性能のための飽くなき欲求を持っているため、3〜5年の間に同じ構成で運用されるシステムの政府資金によるモデルは、産業界からの私たちのパワーユーザーにとって十分ではありません。加えて、私たちは他の多くのHPCシステムよりもはるかに高い稼働時間のレベルを確保するために設計プロセスの中で多くのことを行っています。それの大きな部分は、私たちがGPFSファイルシステムを使用することです。それはライセンスが必要であり、Lustreよりも高速ではありませんが、その方法はより信頼性が高く、管理が容易です。それは私たちがiForgeで99%の稼働時間を達成を可能とする最大の理由であり、業界要求の信頼性レベルです。」