新HPCの歩み(第133回)- 1995年(g)-
Gordon Bell賞では、航技研、山形大、広島大連合が、NWTでQCD計算を行い、Performanceカテゴリーの賞を獲得、牧野淳一郎・泰地真弘人は、GRAPE-4でspecial-purpose machineカテゴリーの賞を獲得した。またこのSCで行われたI-Way Projectというメタコンピューティング実験は、後のGrid Computingの嚆矢と言われている。 |
SC 95(続き)
![]() |
|
14) Center Directors’ Round Table
12月6日10:30には”The Future of the Centers”というround tableがあった。座長はMargaret Simonsである。今回は、連邦予算の減少の中で、スーパーコンピュータセンターはいかにあるべきかを、一列に座席を置いて、パネル風に進めた。テーブルの並べ方を見て、Margaret曰く「これではstraight tableだ」。
まず、SDSC の Sid Karin (今回のSC95の組織委員長)が、サービスと研究の関係について述べた。サービスもまた研究につながるということを言いたいらしい。研究としては、一方には技術開発 (supercomputing, visualization, networking, information technology) があり、他方には応用分野 (chemistry, biology, environment, mechanics) などがある。しかし、100人のスタッフでは全部はカバーしきれない。スタッフが何か自分で面白いことをしていなければ駄目だ。
Pittsburgh Supercomputer Centerの Roskies 氏(次回の組織委員長)はこう述べた。センターの必要性は疑いない、なぜならワークステーションの100倍以上が必要な問題はいくらでもある、high-end system は必要である。でも user は同じでない。基調講演で述べられたように、declining resources しかし computing はますます科学において重要な役割を担っている。計算科学がセンターの存在を正当化する。Grand Challenge は成功であった。なぜなら、大きな学際的研究が行われたから。NSFセンターはこのような協力の中心である。センターの文化は、競争しつつ協力することである。ピッツバーグセンターの展望として、他ではできないような大規模な計算、それを可能にする最先端の能力を保つことを挙げた。
LANL の Andy Whiteは、「あしたは真珠湾記念日(アメリカ時間では12月7日)」とジャブをかませてから Success and realization として、ab initioや気候予測など予言力のあるシミュレーションが可能になったことを挙げた。そのためには、ネットワーク、ソフトウェア、インターフェースが重要である。
パネリストのポジショントークのあと、座長がフロアにいるセンター長たちに議論に加わるよう呼び掛けた。Malvin Kalos (Cornell Theory Center)は、優秀な人材を確保し、センターの利用環境をよくすることを指摘した。HPCが生き残るためにはハイエンドが重要だが、市場としては小さいことが問題である。計算科学の重要性は高まりつつあり、超並列計算を必要としている。
Sid Karinは、アカデミアと産業界と政府の協力関係が明確でないことを指摘した。IntelはSNLと協力してテラフロップスマシンを作るそうだが、商品にはならないだろう。社会全体から見て協力関係はうまく行っていない。
だれかが、「スーパーコンピュータセンターのダウンサイズは必要か?」と問題提起したら、全員が直ちに「No!」と叫んだ。
このラウンドテーブルは、国立センター関係者が議論するので、センターは大切という結論しか出なくて当然であろう。それでも、日本での議論は、なかなかアメリカのレベルにまで達していない。他方、このテーマはあくまでアメリカ合衆国の国内事情であるが、主催者側には、もうすこし国際化したいという意向があるように見られる。センターの将来の問題などは、予算システムなどは違うが、他国と共通の問題も存在する。「来年は、日本の状況についてパネルや円卓会議でレポートしろ」などということになる可能性もあるのではないか、と筆者は感じた。
15) 原著論文
原著論文では、日本からの発表はGordon-Bell関係の2件だけであった。分野別の採択状況は以下の通り(Proceeding CD-ROMより)。
分野 |
投稿数 |
採択数 |
採択率% |
Networking and Distributed Computing |
34 |
9 |
26 |
Algorithms |
28 |
7 |
25 |
Data Mining |
12 |
3 |
25 |
Performance |
29 |
7 |
24 |
Software Tools and Compilers |
71 |
18 |
25 |
Architecture |
18 |
3 |
17 |
Applications |
40 |
18 |
45 |
Education |
8 |
3 |
38 |
Security |
1 |
1 |
100 |
合計 |
241 |
69 |
29 |
平均採択率は29%である。目に付いたものを二三。
○ソフトウェアによる分散共有メモリの性能評価
Message Passing vs. Distributed Shared Memory on Networks of Workstations by H. Lu et al. (Rice U)
裸のPVMでmessage passingで書いたプログラムと、TreadMarks というソフトを使ってshared memory programmingをしたものとを比較し、その速度比を分析。プラットフォームは、8 node cluster of HP9000-735/125 with 96 MB memory, connected with FDDI ring。Shared memory でも結構速いというのが味噌。彼女の分析で不満に思ったのは、PVM と TreadMarks の比較ばかりで、加速率との関係が議論されてなかったことである。MPIならどうなのか。
○通信最適化の評価
Communication Optimization for Parallel Computing Using Data Access Information by M.C. Rinard (UCSB)
Jadeというタスクレベル並列性を記述するプログラム言語を用い、共有メモリマシン(DASH) と、分散メモリマシン(i860)上での通信最適化の効果について分析。かなり多数の問題について実測をしている。データの複製と、タスクとデータを近づけ局所性を増すことが最も効いたが、concurrently fetching remote data や overlapping computation with communication は全く効果がなかった、という結論。最後の点はどうもおかしい。
○通信のグレインサイズの最適化
Controlling Application Grain Size on a Network of Workstations by B. S Sigell and P. A. Steenkiste (Carnegie Mellon)
通信のグレインサイズを可変にするシステムをつくり、これを実験した。最適のサイズがある。当り前。動的にサイズを変えるなどという芸当もやっている。シミュレーションと実測を比較している。
○IBMのHPFコンパイラ
An HPF Compiler for the IBM SP2 by M. Gupta et al (IBM)
この講演は聞いていない。IBMのHPFコンパイラの詳しいレポート。Message vectorization, collective communication, wave-frontingなどかなりの最適化をがんばっているもよう。日本の各社もHPFコンパイラでがんばっているのだから、どんどん論文が出るといいと思った。
また、建部修見氏の報告からニ三紹介する。
○Spectral Bisection法による領域分割の並列化
PMRSB: Parallel Multilevel Recursive Spectral Bisection by Stephen T. Barnard, Cray Research, Inc.
Multilevel Recursive Spectral Bisection を Cray T3D で並列に実行するPMRSB のライブラリである。 Spectral Bisection はグラフのラプラシアン行列の自明でない最小の固有値に対応する固有ベクトル(the Fiedler vector)を Lanczos 法などで求め、 その Fiedler vector の中央値より大きい要素、 小さい要素で 2 つに分ける方法である。 RSB はこの SB を recursive に適応することにより分割を行うものである。 また RSB の Fiedler vector を求める計算は非常に重いため、 この計算に multilevel の加速を用いる方法が MRSB である。 この方法では coarsening の方法として最大独立点集合を使い、local refinement (smoothing)として inverse iteration を使っている。
この並列化を行うにあたり、 再帰的に SB を行うところで divide-and-conquer を用い、 multilevel のところでデータ並列を用いている。並列化したことに利点としては、 グラフ構造が動的に変わるような問題に対しても適応できることと、 一台の workstation では解けないような大きな問題でも対処できることとしている。 なおこの並列化は message passing の distributed memory machine では非常に非効率的であると述べている。
またこの最大独立点集合を求めるのに PRAM の(CRCW の) algorithm を用い、 著者は T3D では shared memory をうまく用いて PRAM algorithm をうまく実装することができると主張していた。 (この部分ではきっといろんな反論が来ることを警戒してか幾分慎重に説明しているように感じた。)
○グラフ分割の並列化
A Multilevel Algorithm for Partitioning Graphs by Bruce Hendrickson, Robert Leland, Sandia National Laboratories
グラフの分割問題の multilevel algorithm についての論文で、 基本的には グラフの coarsening の方法、 もっとも粗いグラフで分割問題、 local refinement の方法からなっている。 coarsening はグラフの最大マッチングを求め、 それらを contract する。 特徴としては vertex, edge の weight を足していくこと。 もっとも粗いグラフでは spectral method を用い分割を行ない, local refinement は Kernighan and Lin の graph bisection アルゴリズムを元に行なっている。 この方法だと edge の数に proportional な時間で解ける。 なお KL algorithm は P-complete なので並列化はできないとのことである。
○グラフ分割の並列化
Analysis of Multilevel Graph Partitioning by George Karypis, Vipin Kumar, Univ. of Minnesota, Minneapolis
Multilevel グラフ分割のアルゴリズムにおける解析を行ない, ある reasonable な条件の元で local refinement なしに coarser graph での良い分割が finer graph での良い分割に比べ数倍しか悪くならないことを示している。
○Adaptive Mesh RefinementのためのC++によるAPI
A Parallel Software Infrastructure for Structured Adaptive Mesh Methods by Scott R. Kohn, Scott B. Baden, Univ. of California, San Diego
Adaptive mesh を使う algorithm のための API(Application Programmer Interface)を開発した。 この API は C++ の class で構成され、 grid の集合である IrregularGrid、 そのまた集合である CompositeGrid というクラスを使う。 またこの論文では HPF での実装と比べ、 HPF ではもっとも細かいグリッドを使って uniform に実装してるため、 時間、 メモリのいずれをとっても不利になっている。 この API では load balance に関して 1グリッドは 1プロセッサということになっているため、 load balancing が問題であるが、 この問題は難しい。
○疎行列コレスキー法の前進・後退代入の並列化
Parallel Algorithms for Forward and Back Substitution in Direct Solution of Sparse Linear Systems
Sparse Cholesky 分解後の前進消去、 後退代入は scalable ではないと思われているが、 頑張れば数百台規模でもほぼ scalable な speedup が行なえるという論文。 基本的方針は multifrontal numerical factorization に似た方式。
16) Workshops
以下のワークショップが行われた。公募中心の現在とは違い、数は少ない。
Federal Strategies and Program in the Age of Information(詳細不明) |
EUROPORT: Real Industrial HPC Francis Wray, Smith System Engineering and GMD, Owen Thomas, GMD |
Careers for Women in Computer Science and Engineering |
Object-oriented Parallel Programming Dennis Gannon, Indiana University |
System Software and Tools for High Performance Computing Environments Paul Messina and James C. T. Pool, California Institute of Technology Thomas Sterling, NASA Goddard Space Flight Center |
Research Issues in Scalable I/O James C. T. Pool, California Institute of Technology |
17) HPF
Advance Program には、火曜日の午後に Workshop “HPF: User’s Perspective” が予定されていたが、final program では、”Federal Strategies and Program in the Age of Information” にすり替えられていた。final program の workshop のセクションの前書きには、まだ High Performance Fortran などと書いてあったので、「ドタキャン」されたことは疑いない。BoF(Birds-of-a-Feather session)の方は開催された。
BoF “High Performance Fortran Forum” (Wednesday, Dec. 6, 5:15-7:30)では、実装の現状、HPF2の規格、ユーザの声などがあったようだ。IBMは、Watson Labと東京基礎研で独立に開発し、競争の結果勝った方を製品として出すとか。
HPF1.0の仕様が膨大すぎるのでcoreを定義しようという話も出たもようである。ただし、1.0で定義してあるsubsetとの関係はどうなっているのであろうか。また、HPF2は、今回定義するとか言っていたが、結局来年送りになったもよう。どうも、HPF2 は一種のsubset (or core) として小さな規格を定義するようである。V1.1の中に定義されていたsubsetとも違うようだ。他方、不規則割り付けなどを含む拡張規格は、HPF2000 と呼ばれるとのこと。2000年ころ確定するのか、実用化するのか?
18) Gordon Bell賞・Sidney Fernbach賞
木曜日(7日)8:30-10:00 のセッションで、表彰および講演があった。Gordon Bell賞は、3件のfinalistsのうち2件は日本からであった。航技研、山形大、広島大連合が、NWTの128プロセッサでQCD計算を行い、179 GFlopsを出してPerformanceカテゴリーの賞を獲得した。牧野淳一郎・泰地真弘人は、GRAPE-4で112 GFlops相当の速度を出し、special-purpose machineカテゴリーで入賞。Price/Performance比のカテゴリーでは、MITの人が20台のHPのWSをイーザーネットでつないだだけのシステムで入賞。メッセージパシングソフトは自分で書いたとか。「PVMなんて知らない」と豪語していた。座長からは、PVMの本はMIT Pressから出ているのに、とからかわれていた。
Peak Performance |
Price/Performance |
Special-Purpose Machines |
この賞のスポンサーの C. Gordon Bell氏は、Digital Equipmentの技術者としてPDPやVAXなどの開発を統括し、Encore Computer社の創立者、Ardent Computerのチーフアーキテクトなどを経て、NSFのAssistant Directorなどを歴任した。氏は1987年、年$1000を自分で拠出してGordon Bell Prizeを設立した。スーパーコンピュータには一言ある人物であるが、1995年8月、なんと Microsoft 社の研究チームに移ってしまった。これも時代の流れか。
また、計算科学分野に対する顕著な貢献を行った研究者を称えるSidney Fernbach賞は、”For your work in developing new algorithmic techniques in fluid dynamics, & your relentless & innovative pursuit of the hardware & software capabilities to carry out & visualize in real time the largest turbulence simulations”に対して、Paul R. Woodward(Minnesota大学)に与えられた。
19) Top500
第6回目のTop500が発表された。なお、SC’95が12月にずれ込んだことで、Top500のフォルダ名が/11/と/12/で混乱している。プルダウンの‟November 1995”のリンクは正しいが、全体表示の‟November 1995”のリンクは間違いで、正しくは/12/を/11/に変えて
https://top500.org/lists/top500/1995/11/
である。しかも、ここから“The List”をクリックしても到達せず、正しくは/11/を/12/に変えて
https://top500.org/lists/top500/list/1995/12/
で、1-100のリストが開く。上位20位は以下の通り。性能はGFlops。前回の順位に括弧のついているのは、増強やチューニングで性能が向上したことを示す。
順位 |
前回 |
設置場所 |
機種 |
コア数 |
Rmax |
Rpeak |
1 |
1 |
航空宇宙研究技術所(日本) |
Numerical Wind Tunnel |
140 |
170.0 |
235.79 |
2 |
2 |
SNL |
XP/S140 |
3680 |
143.4 |
184.0 |
3 |
3 |
ORNL |
XP/S-MP 150 |
3072 |
127.1 |
154.0 |
4 |
4 |
アメリカ政府某機関 |
T3D MC1024-8 |
1024 |
100.5 |
153.6 |
5 |
5 |
高エネルギー物理学研究所 |
VPP500/80 |
80 |
98.9 |
128.0 |
6tie |
(11tie) |
Cornell Theory Center |
SP2/512 |
512 |
88.4 |
136.2 |
6tie |
- |
IBM |
SP2/512 |
512 |
88.4 |
136.2 |
8 |
(11tie) |
Maui HPC Center |
SP2/384 |
384 |
66.3 |
102.1 |
9 |
- |
日本電気府中工場 |
SX-4/32 |
32 |
60.7 |
64.0 |
10 |
6 |
LANL |
CM-5/1056 |
1056 |
59.7 |
135.0 |
11tie |
7 |
日本原子力研究所 |
VPP500/42 |
42 |
54.5 |
67.2 |
11tie |
- |
名古屋大学 |
VPP500/42 |
42 |
54.5 |
67.2 |
13 |
8 |
Minnesota Supercomputer C. |
CM-5/896 |
896 |
52.3 |
114.7 |
14tie |
- |
遺伝研 |
VPP500/40 |
40 |
52.0 |
64.0 |
14tie |
- |
東京大学物性研 |
VPP500/40 |
40 |
52.0 |
64.0 |
16tie |
9tie |
LANL |
T3D MC512-8 |
512 |
50.8 |
76.8 |
16tie |
- |
Network Computing Services Inc.(米) |
T3D MC512-8 |
512 |
50.8 |
76.8 |
16tie |
9tie |
Pittsburgh Supercomputer C. |
T3D MC512-8 |
512 |
50.8 |
76.8 |
19 |
(14tie) |
オングストローム技術組合(日本) |
VPP500/32 |
32 |
42.4 |
51.2 |
20 |
14tie |
筑波大学 |
VPP500/30 |
30 |
39.8 |
48.0 |
前回まじめに測定してなかったCTCのSP2は、今回測定し直し6位にまで上がった。同じくMaui HPC CenterのSP2はノード数を400から384に下げたのにも関わらずRmaxはかなり改善されている。日本設置のマシンで100位以内は以下の通り。44位の京都大学のVPP500は前回からノード数を1個下げて15となっている(1998年11月まで)。
順位 |
前回 |
設置場所 |
機種 |
コア数 |
Rmax |
Rpeak |
|||
1 |
1 |
航空宇宙研究技術所(日本) |
Numerical Wind Tunnel |
140 |
170.0 |
235.79 |
|||
5 |
5 |
高エネルギー物理学研究所 |
VPP500/80 |
80 |
98.9 |
128.0 |
|||
9 |
- |
日本電気府中工場 |
SX-4/32 |
32 |
60.7 |
64.0 |
|||
11tie |
7 |
日本原子力研究所 |
VPP500/42 |
42 |
54.5 |
67.2 |
|||
11tie |
- |
名古屋大学 |
VPP500/42 |
42 |
54.5 |
67.2 |
|||
14tie |
- |
遺伝研 |
VPP500/40 |
40 |
52.0 |
64.0 |
|||
14tie |
- |
東京大学物性研 |
VPP500/40 |
40 |
52.0 |
64.0 |
|||
19 |
(14tie) |
オングストローム技術組合(日本) |
VPP500/32 |
32 |
42.4 |
51.2 |
|||
20 |
14tie |
筑波大学 |
VPP500/30 |
30 |
39.8 |
48.0 |
|||
21 |
(16) |
理研 |
VPP500/28 |
28 |
37.2 |
44.8 |
|||
27tie |
22tie |
日立エンタープライズサーバ部門 |
S-3800/480 |
4 |
28.4 |
32.0 |
|||
27tie |
- |
気象庁 |
S-3800/480 |
4 |
28.4 |
32.0 |
|||
27tie |
22tie |
東京大学 |
S-3800/480 |
4 |
28.4 |
32.0 |
|||
40tie |
31tie |
日本電気(日本) |
SX-3/44R 400 MHz |
4 |
23.2 |
25.6 |
|||
40tie |
31tie |
東北大学 |
SX-3/44R 400 MHz |
4 |
23.2 |
25.6 |
|||
42tie |
36tie |
北海道大学 |
S-3800/380 |
3 |
21.6 |
24.0 |
|||
42tie |
36tie |
東北大学金属材料研究所 |
S-3800/380 |
3 |
21.3 |
24.0 |
|||
44 |
(33tie) |
京都大学 |
VPP500/15 |
16 |
20.3 |
24.0 |
|||
49 |
40 |
分子科学研究所 |
SX-3/34R |
3 |
17.4 |
19.2 |
|||
75 |
63 |
産総研RIPS |
Y-MP C916/16256 |
16 |
13.7 |
15.2 |
|||
84 |
48tie |
東北大学流体研究所 |
Y-MP C916/16256 |
16 |
13.7 |
15.2 |
|||
86tie |
76 |
通信総合研究所 |
VPP500/10 |
10 |
13.6 |
16.0 |
|||
88 |
- |
原子力発電技術機構 |
SP2/72 |
72 |
12.9 |
19.1 |
|||
89tie |
73tie |
動力炉・核燃料開発事業団 |
T3D MCA128-2 |
128 |
12.8 |
19.2 |
|||
89tie |
73tie |
東北大学流体研究所 |
T3D MCA128-8 |
128 |
12.8 |
19.2 |
20) Cray Research (San Diego)訪問
会期中、日本からの参加者何人かでSan Diego市内のCray Research Superservers社の工場を訪問し、CS6400の後継機であるコードネームStarfireについて説明を受けた。UltraSPARC IIを最大64個共有メモリで結合したサーバであり、snoopingによりcache coherencyを保つということであった。1996年、Cray Research社がSGIに買収されたとき、この子会社はSun Microsystemsに買われた。2年後、東大の情報科学科がこのマシンを買ったときにはSun Microsystemsの製品Ultra Enterprise 10000となっていた。
20) I-Way Project
このSupercomputing 95において、イリノイ大学のTom De FantiとANLのRick Stevens等は最初の大規模なメタコンピューティングの実験を行った。全米17カ所の計算センターを結合し60以上のアプリケーションを走らせた。これは、I-Way Project (the Information Wide Area Year Project)と呼ばれている。この成果をもとにGlobus Project(世界の学界の動きの章)が始まった。恥ずかしながら、筆者はSC95に参加していたが、このようなことが行われていることに全く気づかなかった。
次回は、アメリカの企業、ヨーロッパの企業、企業の創立・終焉など。Cray Computer社は遂に破産整理、Convex社はHewlett-Packard社に買収される。
![]() |
![]() |
![]() |