世界のスーパーコンピュータとそれを動かす人々


3月 27, 2023

新HPCの歩み(第133回)- 1995年(g)-

小柳 義夫 (高度情報科学技術研究機構)

Gordon Bell賞では、航技研、山形大、広島大連合が、NWTでQCD計算を行い、Performanceカテゴリーの賞を獲得、牧野淳一郎・泰地真弘人は、GRAPE-4でspecial-purpose machineカテゴリーの賞を獲得した。またこのSCで行われたI-Way Projectというメタコンピューティング実験は、後のGrid Computingの嚆矢と言われている。

SC 95(続き)

 
   

14) Center Directors’ Round Table
12月6日10:30には”The Future of the Centers”というround tableがあった。座長はMargaret Simonsである。今回は、連邦予算の減少の中で、スーパーコンピュータセンターはいかにあるべきかを、一列に座席を置いて、パネル風に進めた。テーブルの並べ方を見て、Margaret曰く「これではstraight tableだ」。

まず、SDSC の Sid Karin (今回のSC95の組織委員長)が、サービスと研究の関係について述べた。サービスもまた研究につながるということを言いたいらしい。研究としては、一方には技術開発 (supercomputing, visualization, networking, information technology) があり、他方には応用分野 (chemistry, biology, environment, mechanics) などがある。しかし、100人のスタッフでは全部はカバーしきれない。スタッフが何か自分で面白いことをしていなければ駄目だ。

Pittsburgh Supercomputer Centerの Roskies 氏(次回の組織委員長)はこう述べた。センターの必要性は疑いない、なぜならワークステーションの100倍以上が必要な問題はいくらでもある、high-end system は必要である。でも user は同じでない。基調講演で述べられたように、declining resources しかし computing はますます科学において重要な役割を担っている。計算科学がセンターの存在を正当化する。Grand Challenge は成功であった。なぜなら、大きな学際的研究が行われたから。NSFセンターはこのような協力の中心である。センターの文化は、競争しつつ協力することである。ピッツバーグセンターの展望として、他ではできないような大規模な計算、それを可能にする最先端の能力を保つことを挙げた。

LANL の Andy Whiteは、「あしたは真珠湾記念日(アメリカ時間では12月7日)」とジャブをかませてから Success and realization として、ab initioや気候予測など予言力のあるシミュレーションが可能になったことを挙げた。そのためには、ネットワーク、ソフトウェア、インターフェースが重要である。

パネリストのポジショントークのあと、座長がフロアにいるセンター長たちに議論に加わるよう呼び掛けた。Malvin Kalos (Cornell Theory Center)は、優秀な人材を確保し、センターの利用環境をよくすることを指摘した。HPCが生き残るためにはハイエンドが重要だが、市場としては小さいことが問題である。計算科学の重要性は高まりつつあり、超並列計算を必要としている。

Sid Karinは、アカデミアと産業界と政府の協力関係が明確でないことを指摘した。IntelはSNLと協力してテラフロップスマシンを作るそうだが、商品にはならないだろう。社会全体から見て協力関係はうまく行っていない。

だれかが、「スーパーコンピュータセンターのダウンサイズは必要か?」と問題提起したら、全員が直ちに「No!」と叫んだ。

このラウンドテーブルは、国立センター関係者が議論するので、センターは大切という結論しか出なくて当然であろう。それでも、日本での議論は、なかなかアメリカのレベルにまで達していない。他方、このテーマはあくまでアメリカ合衆国の国内事情であるが、主催者側には、もうすこし国際化したいという意向があるように見られる。センターの将来の問題などは、予算システムなどは違うが、他国と共通の問題も存在する。「来年は、日本の状況についてパネルや円卓会議でレポートしろ」などということになる可能性もあるのではないか、と筆者は感じた。

15) 原著論文
原著論文では、日本からの発表はGordon-Bell関係の2件だけであった。分野別の採択状況は以下の通り(Proceeding CD-ROMより)。

分野

投稿数

採択数

採択率%

Networking and Distributed Computing

34

9

26

Algorithms

28

7

25

Data Mining

12

3

25

Performance

29

7

24

Software Tools and Compilers

71

18

25

Architecture 

18

3

17

Applications

40

18

45

Education

8

3

38

Security

1

1

100

合計

241

69

29

 

平均採択率は29%である。目に付いたものを二三。

○ソフトウェアによる分散共有メモリの性能評価
Message Passing vs. Distributed Shared Memory on Networks of Workstations by H. Lu et al. (Rice U)

 裸のPVMでmessage passingで書いたプログラムと、TreadMarks というソフトを使ってshared memory programmingをしたものとを比較し、その速度比を分析。プラットフォームは、8 node cluster of HP9000-735/125 with 96 MB memory, connected with FDDI ring。Shared memory でも結構速いというのが味噌。彼女の分析で不満に思ったのは、PVM と TreadMarks の比較ばかりで、加速率との関係が議論されてなかったことである。MPIならどうなのか。

○通信最適化の評価
Communication Optimization for Parallel Computing Using Data Access Information by M.C. Rinard (UCSB)

 Jadeというタスクレベル並列性を記述するプログラム言語を用い、共有メモリマシン(DASH) と、分散メモリマシン(i860)上での通信最適化の効果について分析。かなり多数の問題について実測をしている。データの複製と、タスクとデータを近づけ局所性を増すことが最も効いたが、concurrently fetching remote data や overlapping computation with communication は全く効果がなかった、という結論。最後の点はどうもおかしい。

○通信のグレインサイズの最適化
Controlling Application Grain Size on a Network of Workstations by B. S Sigell and P. A. Steenkiste (Carnegie Mellon)

 通信のグレインサイズを可変にするシステムをつくり、これを実験した。最適のサイズがある。当り前。動的にサイズを変えるなどという芸当もやっている。シミュレーションと実測を比較している。

○IBMのHPFコンパイラ
An HPF Compiler for the IBM SP2 by M. Gupta et al (IBM)

 この講演は聞いていない。IBMのHPFコンパイラの詳しいレポート。Message vectorization, collective communication, wave-frontingなどかなりの最適化をがんばっているもよう。日本の各社もHPFコンパイラでがんばっているのだから、どんどん論文が出るといいと思った。  

また、建部修見氏の報告からニ三紹介する。

○Spectral Bisection法による領域分割の並列化
PMRSB: Parallel Multilevel Recursive Spectral Bisection by Stephen T. Barnard, Cray Research, Inc.

 Multilevel Recursive Spectral Bisection を Cray T3D で並列に実行するPMRSB のライブラリである。 Spectral Bisection はグラフのラプラシアン行列の自明でない最小の固有値に対応する固有ベクトル(the Fiedler vector)を Lanczos 法などで求め、 その Fiedler vector の中央値より大きい要素、 小さい要素で 2 つに分ける方法である。 RSB はこの SB を recursive に適応することにより分割を行うものである。 また RSB の Fiedler vector を求める計算は非常に重いため、 この計算に multilevel の加速を用いる方法が MRSB である。 この方法では coarsening の方法として最大独立点集合を使い、local refinement (smoothing)として inverse iteration を使っている。
 この並列化を行うにあたり、 再帰的に SB を行うところで divide-and-conquer を用い、 multilevel のところでデータ並列を用いている。並列化したことに利点としては、 グラフ構造が動的に変わるような問題に対しても適応できることと、 一台の workstation では解けないような大きな問題でも対処できることとしている。 なおこの並列化は message passing の distributed memory machine では非常に非効率的であると述べている。
 またこの最大独立点集合を求めるのに PRAM の(CRCW の) algorithm を用い、 著者は T3D では shared memory をうまく用いて PRAM algorithm をうまく実装することができると主張していた。 (この部分ではきっといろんな反論が来ることを警戒してか幾分慎重に説明しているように感じた。)

○グラフ分割の並列化
A Multilevel Algorithm for Partitioning Graphs by Bruce Hendrickson, Robert Leland, Sandia National Laboratories

 グラフの分割問題の multilevel algorithm についての論文で、 基本的には グラフの coarsening の方法、 もっとも粗いグラフで分割問題、 local refinement の方法からなっている。 coarsening はグラフの最大マッチングを求め、 それらを contract する。 特徴としては vertex, edge の weight を足していくこと。 もっとも粗いグラフでは spectral method を用い分割を行ない, local refinement は Kernighan and Lin の graph bisection アルゴリズムを元に行なっている。 この方法だと edge の数に proportional な時間で解ける。 なお KL algorithm は P-complete なので並列化はできないとのことである。

○グラフ分割の並列化
Analysis of Multilevel Graph Partitioning by George Karypis, Vipin Kumar, Univ. of Minnesota, Minneapolis

 Multilevel グラフ分割のアルゴリズムにおける解析を行ない, ある reasonable な条件の元で local refinement なしに coarser graph での良い分割が finer graph での良い分割に比べ数倍しか悪くならないことを示している。

○Adaptive Mesh RefinementのためのC++によるAPI
A Parallel Software Infrastructure for Structured Adaptive Mesh Methods by Scott R. Kohn, Scott B. Baden, Univ. of California, San Diego

 Adaptive mesh を使う algorithm のための API(Application Programmer Interface)を開発した。 この API は C++ の class で構成され、 grid の集合である IrregularGrid、 そのまた集合である CompositeGrid というクラスを使う。 またこの論文では HPF での実装と比べ、 HPF ではもっとも細かいグリッドを使って uniform に実装してるため、 時間、 メモリのいずれをとっても不利になっている。 この API では load balance に関して 1グリッドは 1プロセッサということになっているため、 load balancing が問題であるが、 この問題は難しい。

○疎行列コレスキー法の前進・後退代入の並列化
Parallel Algorithms for Forward and Back Substitution in Direct Solution of Sparse Linear Systems

 Sparse Cholesky 分解後の前進消去、 後退代入は scalable ではないと思われているが、 頑張れば数百台規模でもほぼ scalable な speedup が行なえるという論文。 基本的方針は multifrontal numerical factorization に似た方式。

16) Workshops
以下のワークショップが行われた。公募中心の現在とは違い、数は少ない。

Federal Strategies and Program in the Age of Information(詳細不明)

EUROPORT: Real Industrial HPC

Francis Wray, Smith System Engineering and GMD, Owen Thomas, GMD

Careers for Women in Computer Science and Engineering

Object-oriented Parallel Programming

Dennis Gannon, Indiana University

System Software and Tools for High Performance Computing Environments

Paul Messina and James C. T. Pool, California Institute of Technology

Thomas Sterling, NASA Goddard Space Flight Center

Research Issues in Scalable I/O

James C. T. Pool, California Institute of Technology

 

17) HPF
Advance Program には、火曜日の午後に Workshop “HPF: User’s Perspective” が予定されていたが、final program では、”Federal Strategies and Program in the Age of Information” にすり替えられていた。final program の workshop のセクションの前書きには、まだ High Performance Fortran などと書いてあったので、「ドタキャン」されたことは疑いない。BoF(Birds-of-a-Feather session)の方は開催された。

BoF “High Performance Fortran Forum” (Wednesday, Dec. 6, 5:15-7:30)では、実装の現状、HPF2の規格、ユーザの声などがあったようだ。IBMは、Watson Labと東京基礎研で独立に開発し、競争の結果勝った方を製品として出すとか。

HPF1.0の仕様が膨大すぎるのでcoreを定義しようという話も出たもようである。ただし、1.0で定義してあるsubsetとの関係はどうなっているのであろうか。また、HPF2は、今回定義するとか言っていたが、結局来年送りになったもよう。どうも、HPF2 は一種のsubset (or core) として小さな規格を定義するようである。V1.1の中に定義されていたsubsetとも違うようだ。他方、不規則割り付けなどを含む拡張規格は、HPF2000 と呼ばれるとのこと。2000年ころ確定するのか、実用化するのか?

18) Gordon Bell賞・Sidney Fernbach賞
木曜日(7日)8:30-10:00 のセッションで、表彰および講演があった。Gordon Bell賞は、3件のfinalistsのうち2件は日本からであった。航技研、山形大、広島大連合が、NWTの128プロセッサでQCD計算を行い、179 GFlopsを出してPerformanceカテゴリーの賞を獲得した。牧野淳一郎・泰地真弘人は、GRAPE-4で112 GFlops相当の速度を出し、special-purpose machineカテゴリーで入賞。Price/Performance比のカテゴリーでは、MITの人が20台のHPのWSをイーザーネットでつないだだけのシステムで入賞。メッセージパシングソフトは自分で書いたとか。「PVMなんて知らない」と豪語していた。座長からは、PVMの本はMIT Pressから出ているのに、とからかわれていた。

Peak Performance
First Place: Masahiro Yoshida, Masahiro Fukuda and Takashi Nakamura, National Aerospace Laboratory (Japan); Atushi Nakamura, Yamagata University; Shini Hoiki, Hiroshima University; “Quantum chromodynamics simulation,” 179 Gflops on 128 processors of the Numerical Wind Tunnel

Price/Performance
First Place: Panayotis Skordos, MIT; “Modeling of air flow in flue pipes,” 3.6 Gflops/$1M on a cluster of 20 HP workstations

Special-Purpose Machines
First Place: Junichiro Makino and Makoto Taiji, University of Tokyo; “Simulation of the motion of 100,000 stars,” 112 Gflops using the Grape-4 machine with 288 processors

 

この賞のスポンサーの C. Gordon Bell氏は、Digital Equipmentの技術者としてPDPやVAXなどの開発を統括し、Encore Computer社の創立者、Ardent Computerのチーフアーキテクトなどを経て、NSFのAssistant Directorなどを歴任した。氏は1987年、年$1000を自分で拠出してGordon Bell Prizeを設立した。スーパーコンピュータには一言ある人物であるが、1995年8月、なんと Microsoft 社の研究チームに移ってしまった。これも時代の流れか。

また、計算科学分野に対する顕著な貢献を行った研究者を称えるSidney Fernbach賞は、”For your work in developing new algorithmic techniques in fluid dynamics, & your relentless & innovative pursuit of the hardware & software capabilities to carry out & visualize in real time the largest turbulence simulations”に対して、Paul R. Woodward(Minnesota大学)に与えられた。

19) Top500
第6回目のTop500が発表された。なお、SC’95が12月にずれ込んだことで、Top500のフォルダ名が/11/と/12/で混乱している。プルダウンの‟November 1995”のリンクは正しいが、全体表示の‟November 1995”のリンクは間違いで、正しくは/12/を/11/に変えて

https://top500.org/lists/top500/1995/11/

である。しかも、ここから“The List”をクリックしても到達せず、正しくは/11/を/12/に変えて

https://top500.org/lists/top500/list/1995/12/

で、1-100のリストが開く。上位20位は以下の通り。性能はGFlops。前回の順位に括弧のついているのは、増強やチューニングで性能が向上したことを示す。

順位

前回

設置場所

機種

コア数

Rmax

Rpeak

1

1

航空宇宙研究技術所(日本)

Numerical Wind Tunnel

140

170.0

235.79

2

2

SNL

XP/S140

3680

143.4

184.0

3

3

ORNL

XP/S-MP 150

3072

127.1

154.0

4

4

アメリカ政府某機関

T3D MC1024-8

1024

100.5

153.6

5

5

高エネルギー物理学研究所

VPP500/80

80

98.9

128.0

6tie

(11tie)

Cornell Theory Center

SP2/512

512

88.4

136.2

6tie

IBM

SP2/512

512

88.4

136.2

8

(11tie)

Maui HPC Center

SP2/384

384

66.3

102.1

9

日本電気府中工場

SX-4/32

32

60.7

64.0

10

6

LANL

CM-5/1056

1056

59.7

135.0

11tie

7

日本原子力研究所

VPP500/42

42

54.5

67.2

11tie

名古屋大学

VPP500/42

42

54.5

67.2

13

8

Minnesota Supercomputer C.

CM-5/896

896

52.3

114.7

14tie

遺伝研

VPP500/40

40

52.0

64.0

14tie

東京大学物性研

VPP500/40

40

52.0

64.0

16tie

9tie

LANL

T3D MC512-8

512

50.8

76.8

16tie

Network Computing Services Inc.(米)

T3D MC512-8

512

50.8

76.8

16tie

9tie

Pittsburgh Supercomputer C.

T3D MC512-8

512

50.8

76.8

19

(14tie)

オングストローム技術組合(日本)

VPP500/32

32

42.4

51.2

20

14tie

筑波大学

VPP500/30

30

39.8

48.0

 

前回まじめに測定してなかったCTCのSP2は、今回測定し直し6位にまで上がった。同じくMaui HPC CenterのSP2はノード数を400から384に下げたのにも関わらずRmaxはかなり改善されている。日本設置のマシンで100位以内は以下の通り。44位の京都大学のVPP500は前回からノード数を1個下げて15となっている(1998年11月まで)。

順位

前回

設置場所

機種

コア数

Rmax

Rpeak

1

1

航空宇宙研究技術所(日本)

Numerical Wind Tunnel

140

170.0

235.79

5

5

高エネルギー物理学研究所

VPP500/80

80

98.9

128.0

9

日本電気府中工場

SX-4/32

32

60.7

64.0

11tie

7

日本原子力研究所

VPP500/42

42

54.5

67.2

11tie

名古屋大学

VPP500/42

42

54.5

67.2

14tie

遺伝研

VPP500/40

40

52.0

64.0

14tie

東京大学物性研

VPP500/40

40

52.0

64.0

19

(14tie)

オングストローム技術組合(日本)

VPP500/32

32

42.4

51.2

20

14tie

筑波大学

VPP500/30

30

39.8

48.0

21

(16)

理研

VPP500/28

28

37.2

44.8

27tie

22tie

日立エンタープライズサーバ部門

S-3800/480

4

28.4

32.0

27tie

気象庁

S-3800/480

4

28.4

32.0

27tie

22tie

東京大学

S-3800/480

4

28.4

32.0

40tie

31tie

日本電気(日本)

SX-3/44R 400 MHz

4

23.2

25.6

40tie

31tie

東北大学

SX-3/44R 400 MHz

4

23.2

25.6

42tie

36tie

北海道大学

S-3800/380

3

21.6

24.0

42tie

36tie

東北大学金属材料研究所

S-3800/380

3

21.3

24.0

44

(33tie)

京都大学

VPP500/15

16

20.3

24.0

49

40

分子科学研究所

SX-3/34R

3

17.4

19.2

75

63

産総研RIPS

Y-MP C916/16256

16

13.7

15.2

84

48tie

東北大学流体研究所

Y-MP C916/16256

16

13.7

15.2

86tie

76

通信総合研究所

VPP500/10

10

13.6

16.0

88

原子力発電技術機構

SP2/72

72

12.9

19.1

89tie

73tie

動力炉・核燃料開発事業団

T3D MCA128-2

128

12.8

19.2

89tie

73tie

東北大学流体研究所

T3D MCA128-8

128

12.8

19.2

 

20) Cray Research (San Diego)訪問
会期中、日本からの参加者何人かでSan Diego市内のCray Research Superservers社の工場を訪問し、CS6400の後継機であるコードネームStarfireについて説明を受けた。UltraSPARC IIを最大64個共有メモリで結合したサーバであり、snoopingによりcache coherencyを保つということであった。1996年、Cray Research社がSGIに買収されたとき、この子会社はSun Microsystemsに買われた。2年後、東大の情報科学科がこのマシンを買ったときにはSun Microsystemsの製品Ultra Enterprise 10000となっていた。

20) I-Way Project
このSupercomputing 95において、イリノイ大学のTom De FantiとANLのRick Stevens等は最初の大規模なメタコンピューティングの実験を行った。全米17カ所の計算センターを結合し60以上のアプリケーションを走らせた。これは、I-Way Project (the Information Wide Area Year Project)と呼ばれている。この成果をもとにGlobus Project(世界の学界の動きの章)が始まった。恥ずかしながら、筆者はSC95に参加していたが、このようなことが行われていることに全く気づかなかった。

次回は、アメリカの企業、ヨーロッパの企業、企業の創立・終焉など。Cray Computer社は遂に破産整理、Convex社はHewlett-Packard社に買収される。

 

left-arrow   new50history-bottom   right-arrow