HPCの歩み50年(第219回)-2012年(m)-
Gordon Bell賞の最終候補の2つは、いずれもダークマターの入った宇宙の多体重力系のシミュレーションであったが、なんと日本のグループがBlueGene/Qの成果を打ち破って受賞した。Top500の20年の特別展示があった。
SC12(続)
11) Gordon Bell Awards
今年のファイナリストは以下の5件。
Billion-Particle SIMD-Friendly Two-Point Correlation on Large-Scale HPC Cluster Systems
|
Jatin Chhugani, Changkyu Kim, Hemant Shukla, Jongsoo Park, Pradeep Dubey, John Shalf, Horst D. Simon |
Toward Real-Time Modeling of Human Heart Ventricles at Cellular Resolution: Multi-Hour Simulation of Drug-Induced Arrhythmias |
Arthur A. Mirin, David F. Richards, James M. Glosli, Erik W. Draeger, Bor Chan, Jean-luc Fattebert, William D. Krauss , Tomas Oppelstrup, John Jeremy Rice, John A. Gunnels, Viatcheslav Gurev, Changhoan Kim, John Magerlein , Matthias Reumann, Hui-Fang Wen |
Extreme-scale UQ for Bayesian Inverse Problems Governed by PDEs |
Tan Bui-Thanh, Carsten Burstedde, Omar Ghattas, James Martin, Georg Stadler, Lucas Wilcox |
The Universe at Extreme Scale: Multi-Petaflop Sky Simulation on the BG/Q |
Salman Habib, Vitali Morozov, Hal Finkel, Adrian Pope, Katrin Heitmann, Kalyan Kumaran, Tom Peterka, Joseph Insley, David Daniel, Patricia Fasel, Nicholas Frontiere, Zarija Lukic |
4.45 Pflops Astrophysical N-Body Simulation on K computer: The Gravitational Trillion-Body Problem |
Tomoaki Ishiyama, Keigo Nitadori, Junichiro Makino |
最後の2件は、いずれもダークマターの入った宇宙の多体重力系のシミュレーションで、片やBlueGene/Q、片や「京」コンピュータで、ピーク性能で1.8倍、Linpackで1.55倍の性能差がある。多体シミュレーションでのFlops値も、BlueGene/Qの方が高かった。しかし、実際にシミュレーションできた物理の内容は「京」の方が多く、こちらが「スケーラビリティと実効性能」としてGordon Bell賞を受賞した。Flops値に惑わされなかった選考委員会の慧眼に感服する。選考委員は以下の通り。
David H. Bailey |
Lawrence Berkeley National Laboratory |
Taisuke Boku |
University of Tsukuba |
Almadena Chtchelkanova |
National Science Foundation |
Thom H. Dunning |
National Center for Supercomputing Applications |
Michael Norman |
University of California, San Diego |
Cherri M. Pancake |
Oregon State University |
Thomas C. Schulthess |
ETH Zurich |
12) その他の賞
以下、受賞者のページからそのまま写す。
(1) George Michael Memorial HPC Ph.D. Fellowship
Fellowship Winners: Amanda Peters Randles (Harvard University) and Ryan Gabrys (University of California Los Angeles)
Honorable Mention: Gagan Gupta (University of Wisconsin-Madison) and Yanhua Sun (University of Illinois at Urbana-Champaign)
(2) Best Paper
“A Framework for Low-Communication 1-D FFT” by Ping Tak Peter Tang (Intel), Jongsoo Park (Intel), Daehyun Kim (Intel), Vladimir Petrov (Intel)
(3) Best Student Paper (for original work primarily by students)
Characterizing and Mitigating Work Time Inflation in Task Parallel Programs” by Stephen L. Olivier (University of North Carolina at Chapel Hill), Bronis R. de Supinski (Lawrence Livermore National Laboratory), Martin Schulz (Lawrence Livermore National Laboratory), and Jan F. Prins (University of North Carolina at Chapel Hill)
(4) Best Poster
“Visualization for High-Resolution Ocean General Circulation Model via Multi-Dimensional Transfer Function and Multivariate Analysis” by Daisuke Matsuoka (Japan Agency for Marine-Earth Science and Technology), Fumiaki Araki (Japan Agency for Marine-Eary Science and Technology), Shinichiro Kida (Japan Agency for Marine-Eary Science and Technology), Hideharu Sasaki (Japan Agency for Marine-Eary Science and Technology), and Bunmei Taguchi (Japan Agency for Marine-Eary Science and Technology)
これは日本からの受賞である。
(5) ACM Graduate Student Research Competition
Gold: “Optimus: A Parallel Optimization Framework with Topology Aware PSO and Applications” by Sarat Sreepathi (North Carolina State University)
Silver: “Performing Cloud Computation on a Parallel File System” by Ellis Wilson (Pennsylvania State University)
Bronze: “Norm-Coarsened Ordering for Parallel Incomplete Cholesky Preconditioning” by Joshua Booth (Pennsylvania State University)
(6) ACM Undergraduate Student Research Competition
Gold: “Pay as You Go in the Cloud: One Watt at a Time” by Kayo Teramoto (Yale University)
Silver: “On the Cost of a General GPU Framework – The Strange Case of CUDA 4.0 vs. CUDA 5.0” by Matthew Wezowicz (University of Delaware)
(7) Student Cluster Competition
Standard Track Overall Winner – University of Texas at Austin with vendor partner Dell
Student Cluster Competition, Standard Track Highest LINPACK Performance – National University of Defense Technology, China with vendor partner Inspur
Student Cluster Competition, Pilot Track Overall Winner – University of Utah
13) Top500(世界)
記念すべき40回目のTop500が11月12日(月)に発表された。上位20位までは以下の通り。性能の単位はTFlops。前回の順位にカッコがついているのは、システム増強またはチューニングにより性能向上があったことを示す。
順位 |
前回 |
設置場所 |
機種名 |
cores |
Rmax |
Rpeak |
1 |
- |
ORNL |
Titan – Cray XK7, Opteron 6274 16C 2.200GHz, NVIDIA K20x |
560640 |
17590.0 |
27.1125 |
2 |
1 |
LLNL |
Sequoia – BlueGene/Q |
1572864 |
16324.8 |
20132.7 |
3 |
2 |
理研AICS |
「京」コンピュータ |
705024 |
10510.0 |
11280.4 |
4 |
3 |
ANL |
Mira – BlueGene/Q |
786432 |
8162.4 |
10066.3 |
5 |
(8) |
FZ Julich |
JUQUEEN – BlueGene/Q |
393216 |
4141.2 |
5033.2 |
6 |
4 |
Leibniz RZ |
SuperMUC – iDataPlex IBM/Lenovo |
147456 |
2897.0 |
3185.1 |
7 |
- |
TACC (Texas) |
Stampede – PowerEdge C8220, Xeon E5-2680 8C 2.7 GHz, Intel Xeon Phi |
204900 |
2660.3 |
3959.0 |
8 |
5 |
国家超級計算天津中心 |
Tianhe-1A – NUDT TH MPP, X5670 2.93Ghz 6C, NVIDIA GPU, FT-1000 8C |
186368 |
2566.0 |
4701.0 |
9 |
7 |
CINECA |
Fermi – BlueGene/Q |
163840 |
1725.5 |
2097.2 |
10 |
- |
IBM |
DARPA Trial Subset – Power 775, POWER7 8C 3.836GHz |
63360 |
1515.0 |
1944.4 |
11 |
9 |
GENCI |
Curie thin nodes – Bullx B510 |
77184 |
1359.0 |
1667.2 |
12 |
10 |
国家超級計算深圳中心 |
Nebulae – Dawning TC3600 Blade System, Xeon X5650 6C 2.66GHz, Infiniband QDR, NVIDIA 2050 |
120640 |
1271.0 |
2984.3 |
13 |
- |
NCAR |
Yellowstone – iDataPlex DX360M4, Xeon E5-2670 8C 2.600GHz |
72288 |
1257.6 |
1503.6 |
14 |
11 |
NASA/Ames |
Pleiades-SGI Altix ICE X/8200EX/ 8400EX |
125980 |
1243.0 |
1731.8 |
15 |
12 |
量子科学技術研究開発機構 |
Helios – Bullx B510, Xeon E5-2680 |
70560 |
1237.0 |
1524.1 |
16 |
13 |
Daresbury Lab(英国) |
Blue Joule – BlueGene/Q |
114688 |
1207.8 |
1468.0 |
17 |
14 |
東京工業大学 |
TSUBAME 2.0 – HP ProLiant SL390s G7 Xeon 6C X5670, NVIDIA GPU, Linux/Windows |
73278 |
1192.0 |
2287.6 |
18 |
15 |
SNL |
Cielo – Cray XE6 8core 2.4 GHz |
142272 |
1110.0 |
1365.8 |
19 |
16 |
NERSC |
Hopper – Cray XE6 12-core 2.1 GHz |
153408 |
1054.0 |
1288.6 |
20 |
17 |
CEA(仏) |
Tera-100 – Bull bullx super-node S6010/S6030 |
138368 |
1050.0 |
1254.5 |
ORNLは2012年11月12日(月)の8時32分に、Rmax=17l59 PFlopsでTop500リストのトップを取ったことを公表した。よっぽどうれしかったようである。BlueGene/QのSequoiaの1位は6月の1回だけに終わった。Sequoiaが「7.7%だけ上回ったなんて、ちょっとセコイヤ」と言ったとか言わなかったとか(?)。従って、「京」は3位に下がった。テキサス大学TACCのStampedeは、Dell PowerEdge C8220であるが、これは出来立てホヤホヤのXeon Phiを使ったマシンであり、注目される。IBMからCrayに代わったIllinois大学NCSAのBlueWatersは、「京」と互角の性能があると思われるが、Linpackベンチマークの数値を公開しないと決断しTop500には出てこない。表では23件のシステムがPFlopsを越えている。これから6年半後の2019年6月には、すべてのTop500がPFlopsを超えることになる。
500件のうち、62件はCo-ProcessorかAcceleratorを使用している。1位のTitanと8位の天河1AはNVIDIA GPUを使い、Stampedeと他の6件はXeon Phiを使っている。
CPUのメーカーとしては、76%がIntelを使い、12%がAMDを使っている。IBM Powerを使っているのは10.6%である。
設置場所としてはアメリカが250件で半分であるが、前回より2件減少している。ヨーロッパも106件から105件に減少した。アジアは122件から124件に増加。中国は68件から72件に増えている。国別の設置台数では、アメリカ、中国、日本、英国、フランス、ドイツの順である。Linpack性能の合計では、日本は2位で、中国を越えている。
Top500に入るにはLinpackで76.5 TFlopsが必要で、前回は60.8 TFlopsであった。Top100への条件は172.7 TFlopsから241.3 TFlopsに上がった。
この記事の表ではスペースの関係で相互結合網についてはほとんど省略しているが、重要でないわけではない。InfiniBadを使っているのは226件で、前回の209件より増加した。最も多く使われている相互接続網である。Gigabit Ethernetは188件で前回の207件から減少。
14) 「Top500の20年」展示
Top500は1993年6月に始まったので、今回は20周年、40回目の発表になる。これを記念して展示コーナーの一角にTop500の歴史展示が設置された。上の写真は、1996年11月にトップとなったCP-PACSのパネルの前の筆者である(朴泰祐氏撮影)。
また、下の写真は日本SGIを退社された正田秀明氏のTop100の分析パネルの前で、正田氏、家内、筆者。
さて次回はSC12の第3回で、Graph 500など。
(アイキャッチ画像:SC12フォトアルバムより 出典:SC12 )