世界のスーパーコンピュータとそれを動かす人々


6月 10, 2019

HPCの歩み50年(第201回)-2011年(m)-

小柳 義夫 (高度情報科学技術研究機構)

ISC2011では建設途中の「京」コンピュータが堂々Topとなったことが発表された。Green 500は小規模のマシンが有利であるが、Tsubame 2や「京」コンピュータがTop500の上位にありながら、Green 500の上位にもあることは注目される。

国際会議(続き)

14) Hot Chips 23
第23回目となるHot Chips 2011は、2011年8月17日~19日、Stanford大学のMemorial Auditoriumで開催された。プログラムの大略は以下の通り。

8月17日

Tutorials

Tutorial 1: Package-Scale Power Management, UC Berkeley

AMD, Intel, UC Berkeley

Tutorial 2: Open Compute Project, Facebook

Amir Michael, Harry Li, Pierluigi Sart

 

8月18日

Session 1: Many Core

Cavium 32 core OCTEON II CN68xx,

Richard Kessler, Cavium

IBM Blue Gene/Q Compute chip

Ruud A. Haring, IBM

The Highly-Efficient Architecture of Godson-T Many-Core Processor

Dongrui Fan et al.

Session 2: Security

Intel’s Digital Random Number Generator (DRNG)

George Cox, Charles Dike and David J Johnston, Intel

TILE-Gx ManyCore Processor: Acceleration Interfaces and Architecture

Carl Ramey, Tilera

Building a 40 Gbps Next Gen. Virtualized Security Proc.,

Jeff Pangborn, Cavium

Keynote 1: ARM Processor Evolution: Bringing High Performance to Mobile Devices

Simon Segars, VP, ARM

Session 3: Memory & FPGA

Bandwidth Engine Serial Memory Chip Breaks 2 Billion Accesses/sec

Michael Miller, Mosys

Hybrid Memory Cube (HMC)

J. Thomas Pawlowski, Micron

Xilinx Zynq Embedded Processing Platform,

Sandeep Dutta, Vidya Rajagopolan, Brad Taylor, Ralph Wittig, Xilinx

Session 4: DSP

XMOS Architecture: XS1 chips

David May, XMOS

Worlds’ Fastest DSP Core: Breaking 100 GMAC/s Barrier

Chris Rowen, Tensilica

Session 5: Miscellaneous

Rethinking Algorithms for Future Architectures: Communication-Avoiding Algorithms,

James Demmel, UC Berkeley

Electrons, Photons, Phonons, Wave, Bits, and Industrial Design: Microsoft Kinect Sensor,

Dawson Yee, Scott McEldowney, Microsoft

Panel Discussion: The Ecosystem Wars: It’s Not Just About Architecture

 

8月19日

Session 6: Networking

Low Power High Density 10GBASE-T Ethernet Transceiver

Ramin Shirani, Ramin Farjadrad, Aquantia

One Billion Packet per Second Frame Processing Pipeline

Mike Davies,Fulcrum

Sereno: A 2nd-Generation Virtualized Network Interface Controller,

Mike Galles and Shrijeet Mukherjee, Cisco

Session 7: Server

SeaMicro SM10000-64 Server: Building Datacenter Servers Using Cell Phone Chips,

Ashutosh Dhodapkar, Gary Lauterbach, Sean Lie, SeaMicro

Poulson: An 8 Core 32 nm Next Generation Intel* Itanium* Processor

Stephen Undy, Intel

T4: A Highly Threaded Server-on-a-Chip with Native Support for Heterogeneous Computing

Robert Golla, Paul Jordan, Oracle

Keynote 2:Challenges of Building Personal Robots

Steve Cousins, Willow Garage

Session 8: Video

1TOPS/W Software Programmable Media Processor

David Moloney, Movidius

Intel* Quick Sync Video Technology in the 2nd Generation Intel Core Processor Family,

Hong Jiang, Intel

Session 9: Desktop CPUs

2nd Generation Intel* Core* Processor Family: Intel Core i7, i5 and i3

Oded Lempel, Intel

Power Management Architecture of the 2nd Generation Intel* Core* microarchitecture, formerly codenamed Sandy Bridge

Efraim Rotem, Alon Naveh, Doron Rajwan and Avinash Ananthakrishnan,Eli Weissmann, Intel

AMD’s Llano Fusion APU

Denis Foley, Maurice Steinman, Alex Branover, Antonio Asaro, Ljubisa Bajic, Swamy Punyamurtula and Greg Smaus, AMD

High Performance Power-Efficient x86-64 Server & Desktop Processors: using Bulldozer core,

Sean White, AMD

 

Session 1 Many Coreで、Cavium、BlueGene/QおよびGodson-Tが並んで発表していることが注目される。

Caviumの32コアのOcteon 68xxは、単純化した32個のMIPS64コアを搭載し、各コアはdual-issueでin-order実行である。L1は連想度の高いキャッシュで、write-throughである。32コアは4個のクラスタに分かれ、それぞれはクロスバスイッチでL2コントローラと結合されている。このコントローラがコヒーレンシを保証する。これとは別にa compression/decompression engine, a RAID 5/6 processorなどのアクセラレータが搭載されている。

これに続きIBM社がBlue Gene/Qチップについて講演した。CaviumのOcteonと同様に、比較的単純な18個のコアの集合ではあるが、単純とは言っても大きな浮動小数演算器のついたPowerコアである。設計の重点は、命令レベル並列度ではなく、コアの相互接続と同期である。各コアは、4段パイプラインのFPUとL1キャッシュを持ち、16個は計算のため、1個はOSの制御のため、1個は故障の予備である。各コアは4本のスレッドが走る。Octeonとは異なり、大きくコヒーレントなL2キャッシュを持つ。チップの中央クロスバスイッチは、CPU、L2、DDR3コントローラ、PCIeおよびチップ間のネットワークのためのルータを結合している。しかも、L2は32 MBのeDRAMである。

3番目に中国科学院のGodson-Tの発表があった。これまでのGodsonファミリと異なり、64個の単純なコアから成り、スレッド並列を活用している。しかも、マルチプロセッシングの経験の浅いユーザの利用を想定している(そんなことができるのか?)。しかも、OcteonやBlue Gene/Qとは異なり、中央に複雑なクロスバスイッチを置くのではなく、2次元のメッシュで結合されている。しかも、従来型のバス・スヌーピングやディレクトリ制御で、チップ全体にわたるコヒーレンシを実現している。

この3つは、単純なコアを多数搭載する点では似ているが、制御の仕方はまったく異なっている。これは、想定するアプリケーションやユーザの技量によるものと思われる。

15) ICPP 2011
第40回目となるICPP 2011 (International Conference on Parallel Processing)は、2011年9月13日~16日に台北で開催された。主催はIACC (The International Association for Computer and Communication)、共催は國立清華大學と國立交通大學である。電子版会議録はIEEE XploreIEEE/CSに置かれている。

16) Cluster 2011
第13回目となるCluster 2011 (2011 IEEE International Conference on Cluster Computing)は、2011年9月26日~30日に、テキサス州AustinのHilton Hotelで開催された。会議録はIEEEから出版されている。

17) HPC-China 2011
HPC-China 2011は、2011年10月26日~30日、中国山東省済南で開催され、筆者も出席して招待講演”HPC and Computational Sciences in Japan — toward Exaflops”を行った。別項で記す。

18) SC2011
2011年11月12日~18日にSeattleで開催されたSC2011(SC11)については、別項で記す。

19) Teraflop Workshop
第14回目のTeraflop Workshopが2011年12月5日~6日にStuttgartのHLRSで開催された。主催は、HLRSとNECである。プログラムは以下の通り。

2011年12月5日(月)

08:30 – 17:00

Registration

 

09:00 – 09:15

Greeting & Opening Remarks by HLRS

Stefan Wesner (HLRS – Stuttgart University)

09:15 – 09:45

A Multi-Vectorcore Architecture with 3D Die-Stacking Technology

Hiroaki Kobayashi (Cyberscience Center – Tohoku University)

09:45 – 10:15

Tools for high-performance computing

José Gracia (HLRS – Stuttgart University)

10:15 – 10:45

 

Experiences with the PGAS Language GPI

Mirko Rahn (Fraunhofer ITWM – Kaiserslautern)

10:45 – 11:15

Coffee Break

 

11:15 – 11:45

The StarSs task model – a success story?!

Christoph Niethammer (HLRS – Stuttgart University)

11:45 – 12:15

Scaling monitoring with publish/subscribe

Erich Focht (NEC – NEC Stuttgart)

12:15 – 13:30

Lunch

 

13:30 – 14:00

I/O forwarding for quiet clusters

Mocnik Jaka (XLAB – Ljubljana, Slovenia)

14:00 – 14:30

Addressing the impact of manycore scale on execution management

Daniel Rubio (HLRS – Stuttgart University)

14:30 – 15:00

Performance evaluation of a next-generation CFD on various supercomputing systems

Kazuhiko Komatsu (Cyberscience Center – Tohoku University)

15:00 – 15:30

Coffee Break

 

15:30 – 16:00

A new research project for enabling evolution of legacy code into massively-parallel heterogeneous computing applications

Hiroyuki Takizawa (Cyberscience Center – Tohoku University)

 

16:00 – 16:30

Next Generation Vector Supercomputer

Jun Inasaka (NEC – NEC Japan)

16:30 – 17:00

 

Ab-initio calculations of the vibrational properties of nanoclusters

Dr. Gabriel Bester (MPI Solid State Research – MPI Stuttgart)

17:00 – 17:30

Mathematical optimization of hydro turbine components

Albert Ruprecht (IHS – Stuttgart University)

19:00 – 22:00

 

Dinner at Restaurant Goldener Adler

Böheimstraße 38, 70178 Stuttgart

 

 

2011年12月6日(火)

09:00 – 09:30

Multiphysics Simulations on High Performance Computers

Andreas Lintermann (AIA – RWTH Aachen)

09:30 – 10:00

Low mach aeroacoustic simulations for porous media flow excited sound

Manuel Hasert (GRS – RWTH Aachen)

10:00 – 10:30

Coffee Break

 

10:30 – 11:00

A discontinuous Galerkin based solver for direct numerical simulations of compressible turbulent flow

Stefan Fechter (IAG – Stuttgart University)

11:00 – 11:30

Mortar FEM for Computational Contact Dynamics and Multiphysics Simulations

Alexander Popp (Institute for Computational Mechanics – Technical University München)

11:30 – 12:00

TASCOM3D – A Scientific Code for Compressible Reacting Flows

Markus Lempke (Institute of Combustion Technology – DLR Stuttgart)

12:00 – 13:00

Lunch

 

13:00 – 13:30

HPC Organisation

Michael Resch (HLRS – Stuttgart University)

13:30 – 13:45

Closing Remarks

Michael Resch (HLRS – Stuttgart University)

13:45

End of 14th Teraflop Workshop

 

 

20) ICPADS 2011
17回目となるICPADS 2011 (2011 IEEE 17th International Conference on Parallel and Distributed Systems)は、2011年12月7日~9日に台湾の台南で開催された。3件の基調講演が行われた。

David H.C.Du, University of Minnesota, Minneapolis

A New Era for the Convergence of Network Centric and Data Centric Computing

Tzi-cker Chiueh, Industrial Technology Research Institute, Taiwan/Stony Brook University

Peregrine: An All-Layer-2 Network in the ITRI Container Computer

Wen-Hann Wang, Intel Labs

Powering Cloud Computing of the Future

 

会議録はIEEEから発行されている。

ISC2011

26回目となる、ISC’11 (International Supercomputing Conference 2011)は、2011年6月19日~23日に、ドイツのHamburg国際会議場で開催された。「京」のところで書いたように、筆者は久しぶりに参加した。自分のレポートは書いていない。

1) 会議の概要
この会議は回を追うごとに参加者が増え、今回は55か国から合計2194名(内、展示だけの参加が55.3%、technical program参加が44.7%)であった。出展は153件。以下の基調講演が行われた。

Henry Markram, Director Brain Mind Institute, École Polytechnique Fédérale de Lausanne

Simulating the Brain - The Next Decisive Years

Philippe Vannier, Chairman and CEO, Bull

The Road to Exascale Computing - A European Challenge?

Thomas Sterling, Louisiana State University

HPC Achievement & Impact 2011 – a personal perspective

Dean Klein, Micron Technology

Future Trends in Memory Systems: Showstopper or Performance Potential for HPC?

 

2) HPC in Asia Workshop

 
   

開会式の前日6月19日は、TutorialsとWorkshopsが多数開かれているが、今年は、HPC in Asia Workshopが開催された。Steering Committeeは、朴泰祐(筑波大)、Yunquan Zhang (CAS)、中島浩(京都大)、Marek T. Michaiewicz (A*STAR)、Jysoo Lee (KISTI)他であった。テーマとしては、

a) Stutus Reports from Japan, China, Korea, Taiwan and Singapore
b) Ultra Large Scale Systems
c) HPC Applications in Asia
d) Panel: System ans Applications towards Exaflops
e) Guided Tour through DKRZ

であった。次のような発表があった。

Opening Remarks

Taisuke Boku, Yunquan Zhang

State-of-the-Art Analysis and Perspectives of China HPC Development: A View from HPC Top100

Yunquan Zhang(張雲泉)

Perspective of HPC development for Computational Science in Japan

Mitsuhisa Sato(筑波大)

HPC Activities in Korea

Jysoo Lee (KISTI)

The Development of HPC in Taiwan

Weicheng Hauang (NCHC)

HPC in the Little Red Dot

Terence Hung (A*STAR)

The K computer

Tadashi Watanabe (Riken)

TH-1A Supercomputer

Lu Yutong (NUDT)

Large Scale Numerical Simulations for Inertial Confinement Fusion on TiahHe-1A

Zeyao Mo (IAPCM)

Collaborations between computer and computational scientists make high performance computing on the K-computer a “reality”

Fumio Hirata (ISM)

e-Science and HPC Applications in Taiwan

Simon Lin (Academia Sinica Grid computing)

Recent Advances of HPC Applications in CAS

Zhong Jin (CNIC, CAS)

Silicon Simulation on silicon Machine

Hou Chaofeng et al. (IPE, CAS)

Japan’s Grand Challenge Activities in Life Science

Ryutaro Himeno (Riken)

Multiple live Video Streams for Live Underwear Water Observation in Coral Reef

Fang-Pang Lin (NCHC)

 

韓国のJysoo Leeは、韓国のHPC分野の予算制度について話し、中国のYutong Luは天河1Aの話をした。渡辺貞も登壇し、「京」コンピュータの話をしたが、発表前なので「性能については明日の朝のお楽しみ」とぼかしていた。Jysoo Leeは韓国のプロジェクト予算の制度を説明し、

○National Research Program(国家戦略プログラム)
○Challenging Reserach Program(挑戦的プログラム)
○Creative Research Program(創造的プログラム)

の3種に分けているということであった。学ぶところがあるかもしれない。

中国科学院のYunquan Zhangは、2004年から始めた中国HPC Top100の紹介を行った(これについては「中国の動き」のところに書く)。

どういうわけか、YouTubeにこのWSの企画紹介スライドらしき映像(16分)がある。大した内容はない。

この日の夕方、バスによりDKRZ(ドイツ気象計算センター)を訪問した。

3) Top500(世界)
2011年6月のTop500(第37回)の上位20位までを示す。

順位

前回

設置場所

機種名

cores

Rmax

Rpeak

1

理研AICS

「京」コンピュータ

548352

8162.0

8773.6

2

1

国家超級計算天津中心

Tianhe-1A – NUDT TH MPP, X5670 2.93Ghz 6C, NVIDIA GPU, FT-1000 8C

186368

2566.0

4701.0

3

2

ORNL

Jaguar – Cray XT5-HE 6-core 2.6 GHz

224162

1759.0

2331.0

4

3

国家超級計算深圳中心

Nebulae – Dawning TC3600 Blade System, Xeon X5650 6C 2.66GHz, Infiniband QDR, NVIDIA 2050

120640

1271.0

2984.3

5

4

東京工業大学

TSUBAME 2.0 – HP ProLiant SL390s G7 Xeon 6C X5670, NVIDIA GPU, Linux/Windows

73278

1192.0

2287.6

6

(10)

SNL

Cielo – Cray XE6 8core 2.4 GHz

142272

1110.0

1365.8

7

(11)

NASA/Ames

Pleiades – SGI Altix ICE

111104

1088.0

1315.3

8

5

NERSC

Hopper – Cray XE6 12-core 2.1 GHz

153408

1054.0

1288.6

9

6

CEA(仏)

Tera-100 – Bull bullx super-node S6010/S6030

138368

1050.0

1254.5

10

7

LANL

Roadrunner-QW22/LS21, Cell 8i 3.2 GHz

122400

1042.0

1375.78

11

(8)

NICS, Tennessee

Kraken Cray XT5-HE – 6-core 2.6 GHz

11200

919.1

1173.0

12

9

FZJ

JUGENE – Blue Gene/P

294912

825.5

1002.7

13

Moscow State U.

Lomonosof – T-Platform

33072

674.1

1373.1

14

12

LLNL

Blue Gene/L

212992

478.2

596.378

15

13

ANL

Intrepid – Blue Gene/P

163840

458.611

557.056

16

14

SNL

Red Sky – Sun Blade x6275

42440

433.5

497.396

17

15

TACC, Texas

Ranger – SunBlade x6420, Opteron QC

62976

433.2

579.379

18

16

LLNL

Dawn – Blue Gene/P

147456

415.7

501.35

19

18

Air Force Research Lab.(米)

Raptor – Cray XE6 8-core 2.4 GHz

42712

336.3

410.0

20tie

19tie

韓国気象庁

Haedam – Cray XE6 12-core 2.1 GHz

45120

316.4

379.008

20tie

19tie

韓国気象庁

Haeon – Cray XE6 12-core 2.1 GHz

45120

316.4

379.008

 

我々にとって重要なのは、理研AICSの京コンピュータが8.162PFでTop500の首位を取ったことである。東工大のTsubame2.0も健闘している。ロシアのT-Platform社がモスクワ州立大学にLomonosovを設置し、674.11 TflopsでTop500の13位を獲得したことも注目される。ロシアのマシンがトップ20に入ったのは初めてである。アジアでは、台湾のNCHPCのALPSが177.1 TflopsでTop500の42位をった。CieloとPleiadesは、性能を増強して10位以内に食い込んだ。10位までは1 PFlopsを越えている。

今回のreplacement rate(新たに参入したマシン数)は238で、最近の3回が200を切っているのと対照的である。国地域別の総計Linpack性能では、日本が急に増加し、EUとほぼ並んだ。USのほぼ半分である。これに対し、中国の成長は著しく、ほどなく日本やEUを追い抜くであろう。

国別では、台数ベースで、アメリカが53%、中国13%、ドイツ6%となっている。

ベンダ別では、台数ベースではIBMが43%、HCが31%であるが、Top50に限るとCrayが34%、IBMが18%である。

4) Top500(日本)
性能の単位はTFlops。

順位

前回

設置場所

機種

コア数

Rmax

Rpeak

1

理研AICS

「京」コンピュータ

548352

8162.0

8773.6

5

4

東京工業大学

TSUBAME 2.0 – HP ProLiant SL390s G7 Xeon 6C X5670, Nvidia GPU, Linux/Windows

73278

1192.0

2287.63

38

33

日本原子力研究開発機構

BX900 Xeon X5570 2.93 GHz, Infiniband QDR

17072

191.4

200.08

48

42

東大物性研

SGI Altix ICE 8400EX Xeon X5570 4-core 2.93 GHz, Infiniband

15360

161.8

180.019

68

55

JAMSTEC

Earth Simulator 2 – SX-9/E/1280M160

1280

122.4

131.072

73

60

JAXA

FX-1

12032

110.6

121.282

84

71

東京大学

T2K Open Supercomputer (Todai Combined Cluster)

15104

101.7

139.0

89

75

理研

PRIMERGY RX200S5

9048

97.94

106.042

118

97

筑波大学

T2K Open Supercomputer – Appro Xtreme-X3 Server

10369

77.28

95.385

126

103

国立環境研

GOSAT Research Computation Facility – Asterism ID318, Intel Xeon E5530, NVIDIA C2050

5760

74.8

177.1

127

某通信会社

HD DL 160 Cluster G6, Xeon X5650

13620

74.7423

144.917

131

京大基礎物理学研究所

Hitachi SR16000 XM1/108 Power7 3.3 GHz, Infiniband

3456

73.35

91.2384

162

某金融機関

xSeries x3650M3, IBM

11640

65.6

97.8

168

サービスプロバイダ

xSeries x3650M2, IBM

14432

64.596

130.869

197

132

核融合科学研

Plasma Simulator – SR16000

4096

56.6

77.0

204

135

サービスプロバイダ

xSeries x3650M2 Cluster, Xeon QC E55xx 2.26 Ghz, GigE

11640

55.9447

105.552

225tie

サービスプロバイダ

xSeries x3650M3, IBM

9732

54.8402

98.4878

225tie

サービスプロバイダ

xSeries x3650M3, IBM

9732

54.8402

98.4878

225tie

サービスプロバイダ

xSeries x3650M3, IBM

9732

54.8402

98.4878

230

139

東大医科研

SHIROKANE – SunBlade x6250

5760

54.21

69.12

291

155

気象研究所

Hitachi SR16000 L2/121

3871

51.21

72.7936

308

160

京都大学

T2K Open Supercomputer/Kyodai

6656

50.51

61.235

311

九州大学

PRIMERGY RX200 S6

4704

50.19

55.13

430

長崎大学

DEGIMA – Intel i5, ATI Radeon

7920

43.8

111.2

431tie

221tie

電力中央研究所

SGI Altix ICE 8200EX, Xeon X5560 quad core 2.8 GHz

4096

42.69

45.8752

431tie

22tie

物材機構

SGI Altix ICE 8200EX, Xeon X5560 quad core 2.8 GHz

4096

42.69

45.8752

 

5) Green500
2011年6月のGreen500のトップ10件は以下の通り。現在、Green500のサイトには残っていない。

順位

Top500

MFlops/W

設置場所

マシン

1

109

2097.192

IBM T.J. Watson

Blue Gene/Q Prototype

2

165

1684.201

IBM T.J. Watson

Blue Gene/Q Prototype

3

430

1375.876

長崎大学

DEGIMA Cluster

4

5

858.3534

東京工業大学

Tsubame 2.0

5

54

891.875

CINECA

iDataPlex

6

1

824.5644

理研AICS

「京」コンピュータ

7tie

406tie

773.375

FZJ

QPACE SFB TR, PowerXCell 8i

7tie

406tie

773,375

Regensburg大学

QPACE SFB TR, PowerXCell 8i

7tie

406tie

773.375

Wuppertal大学

QPACE SFB TR, PowerXCell 8i

10

22

718,1286

Frankfurt大学

Supermicro Cluster

 

日本の「京」やTsubame 2.0が、Top500の上位にありながら、Green 500でも上位にあることは注目される。

6) Graph 500
2010年11月に始まったGraph 500は、今回29件がエントリした。上位の10件は以下の通り。

Rank

前回

Machine

Vendor

Type

Installation Site

Number of nodes

Number of cores

Scale

GTEPS

1

Lomonosov

MPP

 

Moscow State University

4096

8192

37

43.3792

2

Hopper

Cray

XE6

LBL

1800

43200

37

25.0182

3

2

Franklin

Cray

XT4

LBL

4000

16000

36

19.8642

4

1

Intrepid

IBM

BlueGene/P

ANL

32768

131072

38

18.4684

5

Jugene

IBM

BlueGene/P

Forschungszentrum Jülich

32768

131072

38

18.361

6

 

SGI

AltixICE8400EX

SGI

256

1024

31

14.066

7

NNSA/SC BlueGene/Q Prototype II

IBM

BlueGene/Q(Prototype)

IBM Research, T.J. Watson

512

 

31

11.2743

8

 

SGI

AltixUV1000

SGI

   

32

10.0932

9

8

RedSky

Sun

 

SNL

512

4096

33

9.44893

10

Lonestar

Dell

PowerEdgeM610

TACC

512

6144

34

8.05306

 

前回と比べて圧倒的にレベルが上がった。前回3-4位を占めていたCray XMTはトップ10位からは姿を消した(下位には4件エントリしている)。

次回は10月のHPC China 2011について。中国製のCPUだけを使ったペタスケールマシンが登場した。

 

left-arrow   50history-bottom   right-arrow