世界のスーパーコンピュータとそれを動かす人々


4月 2, 2018

HPCの歩み50年(第157回)-2008年(j)-

小柳 義夫 (高度情報科学技術研究機構)

Top500では2位のJaguar (ORNL)もRmaxで1 PFlopsを越えた。日本の最高位はT2K東大の28位であった。Fernbach AwardはBill Groppに、Cray AwardはSteve Wallachに授与された。今年は日本からGordon Bell賞のfinalistsに残った人はいなかった。

SC08(続き)

12) Top500
恒例により、18日の5:15からTop500のBoFがあった。

(a) Top500の発表と表彰 (Horst Simon)
まずHorst Simon (NERSC, LBNL) が32回目のトップ10の発表を行い、3位までに表彰状を手渡した。20位までは以下の通り。前回の順位に括弧がついているのは、アップグレードまたはチューニングによって性能向上があったことを示す。

順位 前回 設置場所 機種名 cores Rmax Rpeak
1 (1) LANL Roadrunner-QW22/LS21, Cell 8i 3.2GHz 129600 1105 1456.7
2 ORNL Jaguar – Cray XT5 QC 2.3 GHz 150152 1059 1381.4
3 NASA/Ames Pleiades – SGI Altix ICE 8200EX, Xeon QC 3.0/2.66 GHz 51200 487.005 608.829
4 2 LLNL BlueGene/L 212992 478.2 596.378
5 3 NICS,Tennessee Kraken XT5 – QC 2.3 GHz 66000 463.3 607.2
6 4 ANL Intrepid – Blue Gene/P 163840 450.3 557.056
7 (5) TACC, Texas Ranger – SunBlade x6420, Opteron QC 62976 433.2 579.379
8 (16) NERSC Franklin – Cray XT4 QuadCore 2.3 GHz 38642 266.3 355.506
9 6 ORNL Jaguar – Cray XT4 QuadCore 2.1 GHz 30976 205 260.2
10 (13) SNL Red Storm, XT3/4,2.4/2.2 GHz dual/quad-core 38208 204.2 284
11 上海スーパーコンピュータセンタTOR Magic Cube – Dawning 5000A, QC Opteron 1.9 Ghz 30720 180.6 233.472
12 7 FZJ JUGENE – Blue Gene/P 65536 180.0 222.822
13 8 NMCAC, N.M. Encanto – Altix ICE 8200 QC 3.0 GHz 14336 133.2 172.032
14 9 TATA SONS, India EKA – Cluster Platform 3000, HP 14384 132.8 172.608
15 GENCI-CINES Jade – SGI Altix ICE 8200EX, Xeon quad-core 3.0 GHz 12288 128.4 146.736
16 NICS,Tennessee Athena – Cray XT4 QuadCore 2.3 GHz 17956 125.128 165.195
17 10 IDRIS, France Blue Gene/P 40960 112.5 139.264
18 11 Total Exploration Altix ICE 8200EX, Xeon QC 3.0 GHz 10240 106.1 122.88
19 12 政府機関 Sweden Cluster Platform 3000, HP 13728 102.8 146.43
20 中国科学院CNIC DeepComp 7000, HS21/x3950 Cluster 12216 102.8 145.965

 

2位のJaguarも1 PFlopsを超えた。前にも書いたように、1999年2月15日~19日にSanta BarbaraでPETAFLOPS IIが開催され筆者も出席したが、当時Petaflops実現には3つの可能性があると言われていた。(a) 通常のプロセッサの延長線上、(b) PIM(プロセッサとメモリを同一チップ上に)、(c) HTMT(超伝導で200 GHzのクロックを実現)。今回のTop500で1 PFlopsを越えたJaguarは(a)と見ることができる。当時一番人気の高かった(c)は結局実現しなかった。

5位のKrakenは当初のリストにはなかった。中国の上海超級計算中心(Shanghai Supercomputer Center)の曙光(Dawning)が10位に進出したことはビッグニュースであった。現在公表のリストでは11位となっている(10位と11位ではありがたみが違うのでは)。ORNLの新しいJaguarは、2008年6月のRoadrunnerの性能を越えていたが、敵もさるもの、台数を増加して逃げ切った。9位の古いJaguarと結合して上位をねらう可能性もあったかと思うが、「Linpackより実アプリの性能を重視」ということで実現せず。Rangerは、コア数もチップも変わらないのに、RmaxだけでなくRpeakも上がっている。日本のコンピュータは20位までからは姿を消した。

(b) “High Lights of Top 500” (E. Strohmaier)
続いてStrohmaierが”Highlights”について述べた。いつもの通り、大陸別、国別、ベンダ別、チップ別などの分析ののち、消費電力の分析に時間を割いた。まず、電力効率MF/W をTop500の順位に従ってプロットした図を示した。400 MF/Wを越えているものがトップのRoadrunnerを含め4件ある。絶対消費電力ではJaguarが7MWで次が地球シミュレータの3.2MW。これは6年前の技術であるからやむをえないであろう。

プロセッサで電力効率を見ると3つのグループに分かれる。一つは、XCell 8i、次がPowerPC450 (BlueGene/P), Harpertown, Opeteron Quadcoreなど。第三のグループはPowerPC440 (BlueGene/L), Clovertown, Power6, Opteron Dualcoreなどである。

ちなみに、Top500のうち日本にあるコンピュータはたった17件である。かつては100を超えていたことを考えると寂しい限りである。

順位 前回 設置場所 機種 コア数 Rmax Rpeak
28 17 東京大学 T2K Open Supercomputer (Todai Combined Cluster) 12288 82.984 113.05
30 (25) 東京工業大学 TSUBAME Grid Cluster with CompView TSUBASA 30976 77.48 161.816
33 21 筑波大学 T2K Open Supercomputer – Appro Xtreme-X3 Server 10000 76.46 92.0
52 35 京都大学 T2K Open Supercomputer/Kyodai 6656 50.51 61.235
74 50 JAMSTEC Earth-Simulator 5120 35.86 40.96
135 77 国立天文台 Cray XT4 QuadCore 2.2 GHz 3248 22.93 28.582
208tie 102tie 産総研CBRC Blue Protein – Blue Gene 8192 18.665 22.9376
208tie 102tie 高エ研 KEK/BG Sakura – Blue Gene 8192 18.665 22.9376
208tie 102tie 高エ研 KEK/BG MOMO – Blue Gene 8192 18.665 22.9376
222 JAXA Fujitsu FX1, Quadcore SPARC64 VII 2.52 GHz 2048 18.54 20.643
344 155 東京大学 SR11000-J2 128 15.811 18.8416
378 172 九州大学 PRIMERGY RX200S3, Xeon Dual Core 3.0 GHz 1536 15.09 18.432
382 174 電気通信会社 Cluster Platform 3000 BL460c, Xeon 54xx 3.0GHz 2232 1549.9804 26.784
383 177 自動車会社 Cluster Platform 3000 BL460c, Xeon 52xx 3 GHz 2216 14.9423 26.592
395 184 JAMSTEC Altix 4700 1.6 GHz 2560 14.593 16.384
458 236 金融会社 Cluster Platform 3000 BL460c, Xeon 52xx 3 GHz 1992 13.6351 23.904
477 ソニー情報技術研究所 Nous – Cluster Platform 3000 BL460c, Xeon 54xx 3 GHz 1408 13.17 16.89

 

当初のリストでは、62位に自動車会社があり、IBMのBladeCenter HS21 Cluster(Rmax=43.787 TFlops)が載っていたが、。12月始めに削除された。

(c)Linpack Benchmark and Some Issues(Jack Dongarra)
次にJack Dongarraが表記のタイトルで問題提起を行った。

Linpack benchmarkはO(n2)のデータでO(n3)の演算を行う。サイズを変えながら性能を測定すると、サイズとともに上昇し飽和する。従って、できるたけ大きなサイズで測定する方が、よい値が得られる。
LANLのRoadrunnerはn=2.3×106で実行し2時間かかった。ORNLのJaguarはより大きい300 TBのメモリがあるので、n=4.7×106で実行し18時間を要した。もし5 PFlopsのマシンがあり、n=33.5×106で実行すれば2.5日も掛かってしまう。これは問題だ。
Linpackのプラスの面はシステムのバランスを強調していることである。そのためにLinpackの一部だけを走らせて測定することが考えられる。しかし、どの部分を何時間走らせたらよいか。解の精度をどうチェックしたらよいか。JaguarでのLinpackの計算速度の18時間にわたる時間変化のグラフを示した。前提としてLU分解が進むと速度は下がる。あと、ブロックの切れ目で少し下がる。どのウィンドウを取ったらいいのか。それともモンテカルロのようにサンプリングをするのか。全体のランを反映するウィンドウはあるのか。
われわれはHPLに変更を加える予定である。これはHamburgのISC のあとで公開できるであろう。[もしLinpackの測定ルールが変更されればその影響は大きい。]

13) Green500
BoFがあったのだと思うが出席はしていない。第3回目のリストを示す。

順位 MFlops/W 設置場所 システム Power (kW) Top500
1 536.24 University of Warsaw BladeCenter QS22 Cluster, PowerXCell 8i 4.0 Ghz 34.63 221
2tie 530.33 Repsol YPF BladeCenter QS22 Cluster, PowerXCell 8i 3.2 Ghz,530.33 26.38 429tie
2tie 530.33 Repsol YPF BladeCenter QS22 Cluster, PowerXCell 8i 3.2 Ghz,530.33 26.38 429tie
2tie 530.33 Repsol YPF BladeCenter QS22 Cluster, PowerXCell 8i 3.2 Ghz,530.33 26.38 429tie
5tie 458.33 LANL Cerrillos – BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz 138 42tie
5tie 458.33 IBM Poughkeepsie Benchmarking Center BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz 138 42tie
7 444.94 LANL Roadrunner – BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz 2483.47 1
8 371.67 ASTRON/University Groningen Blue Gene/P Solution 94.5 76
9tie 371.67 IBM – Rochester Blue Gene/P Solution 126 57tie
9tie 371.67 RZG/Max-Planck-Gesellschaft MPI/IPP Blue Gene/P Solution 126 57tie
9tie 371.67 Centre for High Performance Computing, South Africa Blue Gene/P Solution 63 127tie
9tie 371.67 Moscow State University Blue Gene/P Solution 63 127tie
9tie 371.67 ORNL Blue Gene/P Solution 63 127tie
9tie 371.67 Stony Brook/BNL Blue Gene/P Solution 63 127tie

 

Cell B.E.とBlue Gene/Pのオンパレードである。トップはワルシャワ大学のCellクラスターNautilusであった。このマシンは、を可視化、医用画像、宇宙物理、バイオインフォマティクス、流体シミュレーション、気象予測の研究分野に利用されるとのことである。8位と9位tieの違いは理解不能であるが、8位のマシンは、Top500ではRmax=35.123 TFlops、Power=94.00 kWなので、373.649 MFlops/Wかもしれない。いずれにせよ、この差が意味をもつとは思えないが。

14) The HPC Challenge
18日(火)の昼に、HPC ChallengeのBoFがあった。2008年のAwardsは以下の通り。Submitterは省略。

2008 HPC Challenge Class 1 Awards

G-HPL Achieved System Affilication
1st place 902 TFlops Cray XT5 ORNL
1st runner up 259 TFlops IBM BG/L LLNL
2nd runner up 191 TFlops IBM BG/P ANL

 

G-RandomAccess Achieved System Affilication
1st place 103 GUPS IBM BG/P ANL
1st runner up 35 GUPS IBM BG/L LLNL
2nd runner up 34 GUPS Cray XT3 SNL

 

G-FFT Achieved System Affilication
1st place 5080 GFlops IBM BG/P ANL
1st runner up 2870 GFlops Cray XT3 SNL
2nd runner up 2773 GFlops Cray XT5 ORNL

 

EP-STREAM-Triad Achieved System Affilication
1st place 330 TB/s Cray XT5 ORNL
1st runner up 160 TB/s IBM BG/L LLNL
2nd runner up 130 TB/s IBM BG/P ANL

 

2008 HPC Challenge Class 2 Awards

Award Recipient Affiliation Language
Best Performance $1000 Călin Caşcaval IBM UPC and X10
Most Productive Implementation $333 Brad Chamberlain Cray Chapel
Most Productive Implementation $333 Călin Caşcaval IBM UPC and X10
Most Productive Implementation $333 Jos Martin MathWorks Parallel MATLAB

 

15) Kenneth H. Buetow, National Cancer Institute “Developing an Interoperable IT Framework to Enable Personalized Medicine”
19日8:30の招待講演は、医学であった。

21世紀に医学でやりたいことはいくつかある。一つは、複雑な連続系としての分子医学(Molecular Medicine)である。これまでは各分野が島のように分かれていて、情報が孤立している。情報を流通させるシステムを作ったのは17世紀のロンドン王立協会で、論文を出版するという文化を確立した。NCIは情報を活用するためにCaBIG (Cancer Biomedical Information Grid) を作り、190の組織をつないだ。これにより、モジュールを結合して、国際標準の技術を使うことができる。これにより、(1) clinical research (2) ? (3) molecular biology (4) pathologyが可能になった。境界とインタフェースを糊でつなぎ、相互運用を可能にする。これはコミュニティ駆動の組織である。
標準はweb serviceに基づくグリッドサービスである。サービスレイヤーはweb service infrastructureである。セキュリティはGird Security Infrastructure (GAARDS)である。
56のガンセンターを結ぶcaGRIDはcaBIGと結合してる。世界的にもUK, 中国、インド、ラテンアメリカなどに広げる予定。これはグリッドのグリッドとなる。次の波は、ユーザに達することである。
今後は、個人のゲノム・プロファイルからガン予防戦略を立て、医療記録を結合する。これはBIG Health Ecosystemである。

HPC というよりグリッドの講演であった。

16) David Patterson, University of California Berkeley & Lawrence Berkeley National aboratory “Parallel Computing Landscape: A View from Berkeley”
もう一つの招待講演は、コンピュータアーキテクチャの大家のPattersonであった。

並列革命の準備はできたか。クロックは進歩しないので、各社ともマルチコアに進んでいる。これは失敗するかもしれない。会社のfailure rateは100%だ[何を言いたいのか?]。ソフトウェアが対応しなければならない。
まず、クライアント・サーバ・システムを再発明しなければならない。成功できるかもしれない。なぜなら、(1)今のところkiller microがなく(2) multicore synergyはSaaSと出会う(3)オープンソースが??
single-chip multiprocessingは技術革新である。FPGA prototypingは開発サイクルを短縮する。
バークレイの並列研究室では何を考えているのか。並列性に対するフレッシュなアプローチが必要である。組み込みシステムと同時に。
テーマ1:どのアプリを対象とするのか。MS Wordのために100 coresは必要ない。考えられるのは、音楽や映像の検索、冠動脈の病気の診断、音声認識、健康管理、顔の認識(目の前の人の顔を認識して、これは誰で、前にはいつどこで会った、などの情報を耳元でささやいてくれる機械”name whisperer”がほしい)、並列ブラウザなど。
テーマ2:デザインパターンの利用。古いコードをどうするか。
テーマ3:並列ソフトウェアの開発。効率と生産性の高い開発手法、正しさを保証する手法。21世紀のコード生成は自動チューニング、マシンチューニングである。ATLASやFFTWのような。
テーマ4:OSとアーキテクチャの関係をどうするか。ハードとしては”Small is beautiful” なので、ハードをソフトごとに分割して、例えばOSだけが走るコアを用意するとか。
テーマ5:消費電力と性能とのボトルネックの診断。

17) Jack Dongarra (AIST booth presentation, 10:40) “Five Important Features to consider when computing at scale”
19日10:40に産総研のブースでDongarra教授が講演した。前日は筆者もここで講演したが、さすが有名人だと集客力も違う。彼によると、5つの重要問題とは

(1) manycore and hybrid core (dynamical data driven executionとblock data layoutが重要)。
manycore chipとともに、GPUやCellのようなhybid coreが出てきている。また、multi-chip with shared memoryのボードも出てきてる。これをどう使いこなすか。
70年代のLinpackはベクトルを考えてL1 BLASを用いた。
80年代のLAPACKはL3 BLASを使った。これはキャッシュに対応したブロック化にもとづくもので、共有メモリを前提にしていた。
90年代のScaLAPACKは、PBLASを用い、分散メモリを前提にした。
2000年代のPLASMAは、manycore に対応している。DAG schedulerを用いている。小粒度の並列処理と参照の局所性を用い、非同期的な処理を行っている。Adaptive lookahed LUは古いアイデアであるが、復活している。Cell上のこれスキー分解も同様。
(2) mixed precision[前のCellは倍精度が非常に遅かったので、Jackは大部分を単精度で計算し、これを倍精度演算で誤差補正する手法を開発。昔、メインフレームでも倍精度が遅かったので、いろいろ工夫したが、『歴史は繰り返す』。]
(3) self-adaptation/auto-tuning
(4) Fault tolerance
(5) communication avoiding algorithm

18) Sidney Fernbach Memorial Award
Sidney Fernbach Awardは1992年にIEEE Computer Society 理事会によって制定され、1993年のSCから授与されている。大規模な問題を解くためにhigh performance computerを開発し利用することについてのパイオニアであったSidney Fernbach (LLNL) を記念して、革新的なアプローチによるHPC応用分野への寄与に対して送られる。今年の受賞者はIJHPCAのEditorial Boardの一員でもある、William Gropp of University of Illinois Urbana-Champaignに対し、「MPIの創出における顕著な貢献」に対して送られた。

19) Seymour Cray Computer Science and Engineering Award
Seymour Cray Award は、1996年10月に自動車事故で亡くなったSeymour Cray を記念して、1997年に設けられ、SGI社(当時Cray Research Inc. を併合中)はそのため20万ドルを拠金した。この賞は、コンピュータ・システムについて革新的なアプローチによって寄与したものに与えられる。第1回は1998年。今年は、ConvexおよびConvey Computer社の創立者であるSteven Wallach氏に、「革新的なベクトルおよび並列コンピュータ、特にConvexミニスーパーコンピュータの設計を通してのHPCへの貢献、顕著な産業界での功績、および公共的な奉仕に対して」授与された。

20) Jeffrey Wadsworth, Battelle Memorial Institute “High-Performance Computing and the Energy Challenge: Issues and Opportunities”
20日(木)の午前8:30からも2つの招待講演が行われた。最初はBattelle研究所のWadsworth氏のHPCとエネルギー問題の講演。ORNLのThomas Zachariaが座長なので、豹(jaguar)柄のネクタイを締めてきた、と前置きしてバッテル研究所の紹介をした。

Battell (1883~1923) が創立した、non-profit, charitable trustである。今日では8つの研究所、21000人の陣人、$15BのR&D資金を投じている。あまりご存じないかもしれないがバーコードは当研究所が作った。
3つの問題が重要だと考えている。すなわち。

•エネルギー、環境、気候
•健康とライフサイエンス
•セキュリティ

である。
世界のエネルギー消費の予想は、2030年には695BTU(?)になる。これに対して魔法の杖(silver bullet)があるわけではない。”No free luuch.” 複数の方法を組み合わせなければならない。例えば、原子力、biofuel、電気自動車、LEED building、二酸化炭素貯留(carbon sequestration)、太陽エネルギーなど。それぞれに利害得失があり、科学技術が必要。
過去には、エネルギーと資源の不足が技術革新を引き起こした。人間の活動が気候にどういう影響を及ぼすかは計算がキーである。HPCでエネルギーの挑戦に対応できる。
例えば、biofuelはcomputational chemistryの問題である。食料と取り合いにならないように、セルロースを燃料化する必要があり、bioinformaticsが必要。電気自動車は、電気貯蔵が問題。核分裂は1974年に廃棄物の問題で中止したがHPCが解決するのでは。核融合はITERに$20B投資するが、その設計はHPCが必要。石炭の液化、炭素の貯留、内燃機関の燃費の向上などすべて計算科学技術が予言できる。Predictive Modelingが縦横である。
DOEの研究所はenergy challengeに対応している。
Exascaleでは、Nano/Info/Bio が3本の柱である。

21) Mary Wheeler, University of Texas at Austin(9:15) “Computational Frameworks for Subsurface Energy and Environmental Modeling and Simulation”
2つめの講演はエネルギーの話。地元テキサスの代表なので、石油探索・採掘、二酸化炭素の地下貯留などにおけるHPCの役割について議論した。彼女の議論はplenaryの招待講演にしては細部にわたりすぎた。

22) 表彰式
20日(木)1:30からのセッションにおいて、FernbachとCray以外の授賞式が行われた。種々の賞については、SC08の発表資料に記されている。

(a) Gordon Bell Prize:
この賞はhigh-performance computers の実用的利用に対して授与される。今年は、6つの論文がfinalistsとして発表された。かつては、革新的利用、ピーク速度、費用性能比の3つのカテゴリーで授与されてきたが、今年はピーク速度に賞が、もう一つの論文に革新的アルゴリズム賞が与えられた。案の定Jaguarであった。

•for Peak Performance :Gonzalo Alvarez et. al (ORNL, Cray), “New Algorithm to Enable 400+ TFlop/s Sustained Performance in Simulations of Disorder Effects in High-Tc.”
もう一つは、以下の論文であった。
•in a special recognition for algorithmic innovation:Lin-Wang Wang et al.(LBNL), “Linear Scaling Divide-and-Conquer Electronic Structure Calculations for Thousand Atom Nanostructures.”

なお、今年は日本からfinalistsに残った論文はなかった。

(b) Technical Program Awards
Best Paper: “High-Radix Crossbar Switches Enabled by Proximity Communication.”( Hans Eberle, et al.)
Best Student Paper: “Benchmarking GPUs to Tune Dense Linear Algebra.”( Vasily Volkov and James W. Demmel, UCB)
このほか、Best Poster、the ACM Best Undergraduate Student Poster、the ACM Best Graduate Student Poster、the ACM/IEEE Computer Society HPC Ph.D. Fellowship Awardsが発表されている。上記発表資料を参照のこと。

(c) HPC Analytics Challenge Award
HPC Analytics はSC|05で初めて登場したイニシアチブであり、HPCで用いられるデータ解析や可視化の革新的な方法論を、複雑な実世界の問題を実際に解くことによって実証する。4グループが参加し、”Interactive HPC-driven visual analysis for multiplegenome datasets” C. Oehman et al. (PNNL) が受賞した。

なお、日本原子力研究開発機構システム計算科学センターの鈴木らは、”Cerebral Methodology Based Comuting for Estimating Validity of Simulation Results”でfinalistに残った。

(d) HPC Storage Challenge
前は、StorCloud Awardと呼ばれていた。今回は、3チームがfinalistsに残り、”GrayWulf: Scalable Clustered Architecture for Data Intensive Computing”でA. Szaley et al. (Johns Hopkins, Microsoft, U. of Illinois at Chicago, U. of Hawaii, Dell Inc.)が受賞した。

(e) Bandwidth Challenge
バンド幅チャレンジはSC2000に始まった。初期のような熱気はない。今回は6チームがfinalistsに残り、”Towards Global Scale Cloud Computing: Using Sector and Sphere on the Open Cloud Testbed”でR.L. Grossman et al. (U. of Illinois at Chicago)が受賞した。

(f) Cluster Challenge
これは今年は2回目で、学生のチームが先生1人の指導の下に、会場でクラスタを組み立て、性能を測定するものである。今回は、7チームが参加し、ドレスデン工科大学とインディアナ大学の合同チーム”Team Cluster Meister” が優勝した。

23) 金曜日パネル
21日(金)は最終日で、展示も終わっているし、Workshopなどの他は午前で終了する。午前中には2つずつ並列で4つのパネルが設けられた。

8:30AM – 10:00AM “SC Past and Future”
8:30AM – 10:00AM “My Cloud, Your Cloud”
10:30AM – 12:00PM “The Hungry Music Monster”
10:30AM – 12:00PM “Exa and Yotta Scale Data”

4th International Workshop on High Performance Computing for Nanoscience and Technology (HPCNano08)” だけは夕方までやっていた。

次は、会議以外の世界の学界の動き、世界各地の企業の動きなど。

(画像:SC08ロゴ 出典:SC08サイト )

left-arrow   50history-bottom   right-arrow