クレイがTACCに戻って来る
Tiffany Trader

先日、テキサス先端計算センター(TACC)は、Lonestarスーパーコンピュータの遺産を継承し、一番最初のLonestarシステム(1997年~2002年頃)を支えていたスーパーコンピュータメーカーのクレイとの関係の復活を明らかにした。
当初のLonestarは88台のプロセッサを持った50ギガフロップスのCray T3Eであった。Lonestar 5では、TACCは30,000個以上のXeon演算コアを持ったCray XC40をインストールし、演算性能は1.25ペタフロップスを提供する。仕様では、デュアルソケットの12コアIntel Xeon E5-2600 v3プロセッサのノードが1,252台、1TBの大規模共有メモリを搭載したノードが2台、500GBの大規模共有メモリを搭載したノードが8台、そして1.2PBのDDNストレージシステムがCray Ariesインターコネクト上で動作している。このシステムは様々なアプリケーションのニーズでテキサスの研究者達に提供されてきたDell PowerEdgeベースのLonestar4をリプレースするものだ。
この新しいクレイはまたTACCにおいて展開される2番目のペタフロップス・システムであることにも注目すべきだ。IBMのRoadrunnerが重要な1,000倍のスレッシュホールドを超えてから7年が経過したが、ペタスケール・スーパーコンピュータはいまだユビキタスからは程遠い。最新のTOP500のリストでもこのクラスにはたった68マシンしかない。
TACCのハイパフォーマンス・コンピューティングのディレクターであるBill Barthは、技術、インターコネクト、ストレージが完全パッケージとなってくる時に、クレイ社はベストな取引を提供すると語っている。他のアカデミックや政府系研究所のサイトのように、TACCは数千ユーザに使われる数千のユニークなアプリケーションのニーズを満たす課題に直面している。
「現在のLonestar 4やStampedeを見れば分かるように、シングルコアのジョブから全体システムの大部分を使うようなウルトラ・スケールのジョブまでの巨大なアプリケーション・ワークロードの混在があります。エクストリーム・スケールのワークロードのために最善のバランスを持ったシステムを設計するためにベンダーと協業することは挑戦なのです。」と彼は語った。
Barthはまた、ストレートなx86設計で進める決断をした事に触れ、HPCにおけるアクセラレータを見るには興味深い時ではあるが、TACCはすでにStampedeや他のシステムでアクセラレータや他のアーキテクチャ型の大規模な展開を行っていることを指摘している。
現在のLonestar 4はLonestarの系列的には少しユニークであり、その四分の一がNSFにより支払われているため、ある時間の部分はXSEDEプログラムに提供されている、とBarthはHPCwireに教えてくれた。新しいLonestarは100パーセントをテキサスが資金提供しており、テキサスにフォーカスされる。Crayスーパーコンピュータは主にテキサス大学オースティン校を支援するが、ユーザベースはUTシステムや研究所、さらにはテキサスA&M大学やテキサス工科大学のパートナーにも拡大される予定だ。「私達はテキサスの研究計算のかなりの部分の状態をカバーするのです。」とBarthは観察している。
このHPCディレクターは、TACCはすべての種類のユーザをサポートする一方で、バイオやバイオ医療のコミュニティーに奉仕するための努力が進行中であると付け加えた。医療保険の相互運用性と説明責任に関する法律(HIPAA)や連邦情報セキュリティマネジメント法(FISMA)と関連する保護されたデータ形式をサポートする機能を使うことで、このシステムは電子カルテとHPCによる臨床業務の両方に使うことができるのだ。これに伴い、Lonestar 5は2016年にテキサス大学オースティン校にできる新しいメディカル・スクールのための重要なリソースとなるだろう。
Lonestar 5はNSFのシステムではないが、フラグシップシステムのStampede、データ集中システムのWrangler、および個別に資金提供されているがNSFの研究者達のサイクルに貢献しているMaverickを含め、TACCはいくつものNSFの取り組みのサポートに関与している。TACCはまた、ChameleonとJetstream の2つのクラウド関連の取り組みにも関与しており、それぞれシカゴ大学とインディアナ大学とパートナーシップを組んでいる。
TACCの関係者によると、Lonestar 5は8月後半もしくは9月前半にインストールされる予定で、10月までに完全運用になる予定だそうだ。Lonestar 4は2011年2月に運用開始され、ほとんどの大規模スーパーコンピュータの寿命と言われる5年が経過しつつある。ユーザの移行が完了したら直ぐに、TACCは大容量のRAMを搭載し、特定のアプリケーションで良く利用される14台の1テラバイト大容量共有メモリノードのような頻繁に利用されているいくつかの部分を残して、Lonestar 4を退役させる予定である。
Lonestar 5はRanger(Stampedeの先代)がオフラインになるまで設置されていた位置にインストールされる。現在、TACCのスタッフは、例えば単相電源に代わって三相電源が必要なCrayシステムに必要な電力と配管の作業を行っている、とBarthは語った。
アプリケーションの移植プロセスは非常に簡単であると予測されているとBarthは語った。供給業者を変更したけれども、スタッフとユーザは多くの部分、インテルコンパイラ、Haswellチップ、そしてStampedeで既に使われているスケジューラであるslurmについて精通している。「素晴らしいことになると思います。」と彼は表明した。「既存のLonestarユーザや他のシステムから移行していくる人達が非常に迅速に実行できるると予測しております。」
では、テキサス州は連邦政府からの支援無しにこの規模のシステムに必要な資金をどのように獲得したのだろうか? Barthは要因として、テキサス大学、テキサス大学システム、および州中の他の研究機関からの支援を引用して付け加えた:「私達には、我々の研究機関と州中の姉妹機関に代わって、高品質の生産的な科学システムを展開してきた優れた実績を持っており、その実績で皆が次のシステムをコミットするためのコミュニティの信頼を得たのだと思います。」
テキサス大学オースティン校がCrayシステムを持ってから8年が経過しており、Barthによると、次のシステムを持つことに興奮しているとのことだ。「私達はアーキテクチャの多様性を好んでおり、異なるベンダーと働くモデルを支援しています。」と彼は明らかにした。
TACCが2001年に最初に設立された時に50ギガフロップスのCray T3Eを受け継いだ。その当時、TACCはまた16プロセッサのCray SV1ベクトル型共有メモリシステムをテキサス大学オースティン校の宇宙研究センターの代わりに所有していた。
2004年頃、Crayはオープンな科学コミュニティに利用される最初のテラスケールのx86クラスタと考えられた2番目のLonestarマシンのインテグレータを務めた。Lonestar 2はDell PowerEdge 1750サーバをベースとしており、ピーク性能は3.7テラフロップス(アップグレード後では6.3テラフロップス)であった。デルはピーク性能が302テラフロップスであるLonestar 4まで主要サプライヤーとして継続した。