世界のスーパーコンピュータとそれを動かす人々


11月 12, 2015

ORNL、PeriscopeでTitanを紹介

HPCwire Japan

Tiffany Trader

Periscopeブームに参加する理由が必要なら、合衆国で最高速のスーパーコンピュータを見てみるのはどうだろうか? 先日、オークリッジ国立研究所(ORNL)のDOE科学部のユーザ施設であるオークリッジ・リーダーシップ・コンピューティング施設(OLCF)において、スタッフがPeriscope視聴者のために、世界第2位の大規模スーパーコンピュータであるCray社製のTitanのツアーを行った。

(訳注:*Periscope:動画視聴用のアプリ)

このツアーを実施したのは、ORNLの科学計算・理論物理学グループのシニア科学者であるBronson MesserとOLCFの次長であるJustin Whittだ。

Messerが説明するように、OLCFのスタッフは、地球上では実験できない、そしてTitanのようなスーパーコンピュータ無しでやり遂げることができなかった数値実験やシミュレーションを行っている。それらは大規模な気候シミュレーション、燃焼シミュレーション、そして恒星の天体物理学シミュレーションである。「これらすべては計算能力の莫大な使用を必要としており、良いことに我々はTitanを身近に持っているのです。」と、自身が国立計算科学センターでの計算天体物理学者であるMeserは語った。

「ピーク演算で27ペタフロップス[17.59ペタフロップス LINPACK]あり、Titanは以前我々が所有していたマシンの1桁上の性能です。」と彼は続けた。「マシンルームは2つに分かれており、片方にスーパーコンピュータと、もう片方はほとんどディスクドライブで、これは気候学、天体物理学、燃焼シミュレーションばかりでなく、核シミュレーションの類に重要です。これは究極的にはスーパーコンピュータで計算を行いたいので、データをこのディスクドライブに保存することができ、このディスクドライブから出てくるデータ見て、可視化して、解析して、そして実際にあなたが行った計算のすべてから科学を得ることができるのです。」

スーパーコンピューティングにおける誰もが知っているように、このすべてを行うには、多くのサポート基盤と共にマシンルームの約半エーカーを占有するようなTitanを収容できるデータセンターを必要とする。

次長のJustin Whittは20,000平方フィーとのツアーを続け、4つのバスケットボールのコートの広さと比較し、違うのはこの部屋が大量なデータを転送することができるように外部と100ギガビットの接続を持っていることだ。また20MWの電力もこの部屋に来ており、Titanは約6MWを使っている。

制限されたアクセスポイントを通ってこのエリアに入る前に、Whittに同行したカメラクルーは、うなるプロセッサと一部のエリアでは90デシベル以上に達する主にファンの騒音に対処するために聴覚保護を身につけた。

WhittはPeriscope視聴者をこの部屋のツアーに引連れて、最初にタイルフロアについて説明し、環境温度を60台の上方に保つ従来のHVAC強制冷却の吸い込み口を提供しているとのことだ。

データセンターは大きく2つのエリアに分かれており、片方にデータストレージともう片方にコンピュータが設置してあるが、最初から一方はTitanの前方列を見ることができ、いつかの列のひとつがこの巨大マシンを構成している。合計で、Titanは200キャビネットで構成され、18,688台の計算ノード(ブレード当たり4ノード、キャビネット当たり24ブレード)を持っている。各ノードはCPUを1台、GPUを1台搭載している。この部屋の端の周囲には、Titanを運用するのに必要な支援電気および機械インフラがあるとWhittは指摘した。

20151105-F1-ORNL-Titan-Periscope-20151105-cropped
PeriscopeでのOLCF次長、Justin Whitt

Titanは先代のマシンよりも一桁さらに強力であり、ほぼ同じエネルギーと設置面積内にありながらその演算性能を実現している、とWhittは繰り返した。マシンのヘテロな性質と従来のCPUのみのアプローチから汎用グラフィック・プロセッサ(GPGPU)を使うことへの移行によって、エネルギー効率でほぼ5倍の改善があるものと彼は考えている。

「ゲーム用に使わられ最適化されたチップと同じ種類のものです。」と彼は指摘している。「これによって、ある種の計算においては数千のタスクを一度に実行することができるように、いくつかのトラフィックを直接CPUとGPUで行うことが可能となります。これによって、我々は多くのパワーと速度および効率をGPUで実現しているのです。これらは非常に電力効率が良いのです。」

列の端で一旦止まって、WhittはTitanの冷却を制御するキャビネットが水冷を空冷の両方であり、Cray社が開発した大規模な先端冷却しシステムの一部であることを示した。

冷却システムは2つの冷却系統を使っており、ひとつは冷媒(R-134a)で満たされており、もうひとつは冷水が入っている。マシンの上部のフードはR-134a 冷却剤を循環するステンレス鋼管を見せている。底には強制ファンがあり、空気を毎分約3,000立方フィートで押し出している。これは空気を持ち上げ、熱はマシンから熱交換器の冷却剤に移るのだ。熱交換器は実際、冷却剤を沸騰させるのに十分であり、液体から気体に変えていく。その後、冷却剤はポンプで後部に循環され、そして冷水システムが気体から液体に戻すのだ。Whittは、温度のデルタtもしくは変位は、上部から底部で華氏35度、冷水においてはデルタtは華氏約13度であると聴衆に知らせた。

Whittはキャビネットを開けて冷却のソースと戻りである両側の太いパイプを示した。またすべてのノードを接続する高速ネットワークもある。

その後、彼はAtlasを含むいくつかのストレージ・ユニットを見るために、抑制型通路冷却のメリットを取った冷却通路を進んで行った。これらはデータセンター内で冷却と組み合わせられたカプセル化された場所で、最も効率が必要なところとである、とWhittは語った。スライドドアを通って、いかに床のスノコが開かれており、そのために空気を強制的に通すことができると指摘した。

30PBのディスクストレージを持つAtlasに加えて、データセンターはまた、重要なデータを保管するために約30PBのテープストレージを持っている。

「計算はとても高価です」とWhittは語る。「これは有限のリソースで、展開して運用するのは高価なのです。翼回りの空気の流れをシミュレートしているとか、分子相互作用を見ているとかでシミュレートする際に多くのデータセットが生成され、それでモデルを作るための結果を得ますが、そのモデルは潜在的に関連する非常に高いコストを持っているのです。我々はシミュレートする際に、そのモデルが非常に高いコストを持っていることを明確にしたいと思っていますし、あるコミュニティにとっては重要である計算結果を再計算しなくていいようにしたいのです。そのために30PBのアーカイブ・テープ・ストレージを持っているのです。」

そこから、WhittはPeriscopeの視聴者をストレージ通路の後ろ側の相対的に非常時静かな外廊下に連れて行った。再びMesserが合流し、マシンの1/5から半分を使っても完了までに数週間、数ヶ月、もしくは数年かかるような最大規模のマルチフィジックス・シミュレーションのいくつかを説明した。しかし平均的には1週間規模のシミュレーションが普通である。

この仮想ツアーはもっと一般的な聴衆を狙っているので、Messerはまた”flop”と”petaflop”の意味に関する基礎も説明している。

本当に早い人は1秒以内に小数点を持つ2つの数字の足し算もしくは掛け算を行うことができ、事実上毎秒1浮動小数点演算を行っており、平均的なラップトップもしくはデスクトップ・コンピュータは2-3ギガフロップスの能力を持っている、と彼は述べている。27ペタフロップスのピーク性能を持つTitanは理論的に毎秒2.7京回の演算能力を持っている。これは人間のスケールに当てはめるのは非常に難しいが、もしおおよそ110億人の人が生きていて、生きている間中毎秒1浮動小数点演算を行ったとすると、27ペタフロップスを達成するには600年以上生きなければならない、とMesserは説明した。実際にこの潜在的計算のすべてでも1日のTitanには敵わない、と彼は見ている。

「世界で2番目に大規模なスーパーコンピュータで仕事をすることを考えたらエキサイティングです。」とMesserは付け加えた。「計算天体物理学者にとって、私がいるべき所はここ以外におそらくないでしょう。」

垂直方向にテーマ付けされたビデオアプリケーションPeriscopeに録画されているビデオは通常24時間で消去されるが、もし見逃したならあなたはラッキーだ、ビデオはORNLのYouTubeチャネルで見ることができる。