世界のスーパーコンピュータとそれを動かす人々


7月 31, 2023

新HPCの歩み(第150回)-1997年(h)-

小柳 義夫 (高度情報科学技術研究機構)

今回は、HPFがBoFとしてではなく、technical session のテーマとして現れ、4件の論文が採択された。Columbia大学の格子ゲージ専用機QCDSPの発表もあった。Gordon Bell賞のピーク性能賞は、ASCI Redによる3億粒子の重力多体系計算であった、CP-PACS関係者も応募したがfinalistにも入らなかった。

SC 97(続き)

 
  SC97のマウスパッド。筆者が現在使用中
   

13) パネル(アーキテクチャ)
上記の state-of-the-field talk のあった水曜の午後に、アーキテクチャのパネルとソフトウェアのパネルとがあった。1:30-3:00 はアーキテクチャのパネル“Breakthrough and Challenges ahead in Computer Architecture”で、司会は David Culler (UCB)である。ポジショントークについて、聞き取れた範囲で記す。

(a) J. H. Gray (Microsoft)
 これから少なくとも25年間は、相互接続網バンド幅が1年に3倍増加するので、これを活用するアーキテクチャが重要になる。

(b) Greg Papadopoulos (Sun Microsystems, 今回の共同プログラム委員長):
 彼は午前の Hennessy の講演に一応の敬意を評してから、現状をこうまとめた。
         ・研究用HPCと商用HPCの統一
         ・共有メモリとクラスタの統一
 [よく考えてみると、これはサン社の方向性そのものである。]なぜ並列がむつかしいかというと、コントロールの分割とデータの分割である。データの分割は対称型共有メモリ(SMP、どのプロセッサからもすべてのメモリが同一時間でアクセスできる)ができれば問題でなくなる。しかし SMP にも限界がある。それは、アドレスのバンド幅、データのバンド幅、レイテンシの問題である。分散共有メモリ(DSM、メモリはプロセッサ毎に物理的に分散しているが、どのプロセッサからもアクセス可能)はだめだ。自分のメモリと遠いメモリとのアクセスの差は3倍以内でないと使いものにならない。[Originはダメということか]

(c) Burton Smith (Tera Computer)
 今後の方向として次の点を指摘する。命令レベル並列性とともに、プロセッサ数も増大し、共有メモリも一様だったり非一様だったり。同期はどんどん高価になる。ベクトルパイプラインはまだ死なない。レイテンシは流行病(epidemic)である、その対策としてTeraのような細粒度マルチスレッドや、PIM(processor-in-memory)がある。でもPIMは局所的なメモリしか速くならない。  決定的なチャレンジは、マルチスレッドで高バンド幅のコストを下げ、それを前提にアーキテクチャを再発明することである。

(d) J. Hennessy
 今後の進歩の可能性として、マルチプロセッサが進歩し、5年から10年で、1チップ上のマルチプロセッサが登場する[実際には、2001年末に最初の単一ダイ上のDual Coreプロセッサ、POWER4が出荷される]。メモリは、SDRAMやRambusなどでバンド幅は増大するが、レイテンシはどうしても大きくなる。メモリのモデルとして、一様だが遅いSMPと、自分のメモリは速いが他のメモリは遅いDSMかである[とSun MicrosystemのStarfireを揶揄したので、あとでGregが嚙みついた]。プロセッサが増えると必要な努力も増えるが、その係数をできるだけ小さくすることが必要。

(e) 議論
 このあと討論となったが、司会者の「平木もいるし…」などという挑発に乗って、平木敬が「量子限界に達したらどうするんだ?」と質問していた。

後半 3:30-5:00 にソフトウェアを中心としたパネル (Dennis Gannon, Ken Kennedy, Doug Pase, Dan Reed) があったがメモはない。後で、Dennis 曰く「残念ながら面白くないパネルだった。」

14) Internet
今年からネットワークが会議のタイトルにも入り、前々からの延長線上ではあるが、ネットワークにますまず比重がおかれるようになった。

Town Hall Meeting on the Internet: Then, Now and Tomorrow が19日水曜日の5:00-6:30 に開かれた。プログラムには Internet の創始者ということで下記の7人の名前が出ていたが、実際にパネリストをやっていたのは5人。昔話をしていた感じであった。

Matthew Lyon

Public Strategies, Inc.

Dave Farber

University of Pennsylvania

Frank Heart

(Retired) BBN (GTE)

Larry Landweber

University of Wisconsin

Don Nielson

SRI International

Brian Reid

Digital Equipment Corporation

Larry Roberts

ATM Systems

 

20日木曜日の 8:30-10:00 は State-of-the-field talk: The Future of Telecommunication and Networking — an Attempt to Predict the Unpredictable (David J. Farber, U of Pennsylvania 水曜日のパネリストの一人) であった。ネットワーク関係の技術の急激な進歩 (cable modem, wireless, fiberなど) を示した後、現状はバンド幅とレイテンシが問題だと指摘。ジョウゴみたいなもので、バックボーンは直径1マイルあっても、末端はストローの太さになってしまう。一つのアプリで 40 Mb/s 必要なのに、622 Mb/s で間に合うのか。将来は、実時間のビデオや、分散ストレージのために大きなバンド幅が必要だ。不自然なボトルネックを除くことが課題だ。

今後はメタコンピューティングが重要になり、計算と通信のためのインターフェースは I/O中心 ではなく、メモリ中心でなければならない[要するに、通信はI/O としてではなく、メモリアクセスとして位置付けなければならないということか]。地理的に分散したコンピュータ群上のソフトウェアが重要になる。

15) Town Hall meetings
上記のInternetを含め、3つのTown Hall meetingsが開催された。Town Hall meetingは、登壇者より、聴衆の意見を引き出すことが目的である。

18日火曜日5:00-6:30にはPITACに関するTown Hall meetingが開催された。登壇者は以下の通り。

Ken Kennedy,

CRPC, Rice University

Bill Joy

Sun Microsystems

Dave Cooper

LLNL

Sue Graham

University of California, Berkeley

Jim Gray

Microsoft

Dave Farber

University of Pennsylvania

Robert Ewald

SGI/Cray Research

Sherrilynne Fuller

University of Washington

Steve Wallach

Centerpoint Venture Partners

 

20日木曜日10:30-12:00には、SC Conferencesに関するTown Hall metingが開催された。これはこれまでのSC会議を総括し、今後のSCへの示唆を得ようとするものである。登壇者は以下の通り。

Beverly Clayton

Pittsburgh Supercomputing Center

SCXY Chair

Dona Crawford

Sandia National Laboratories

SC97 Chair

Dennis Duke

SCRI

SC98 Chair

Cherri Pancake

Oregon State University

SC99 Chair

 

16) PACIに関するパネル
アメリカ政府の動きの「NSF PACI」で述べたように、PACI (Partnerships for Advanced Computational Infrastructure)と は米国のNFSのスーパ―コンピュータセンタが中心となって展開する大学連合のプロジェクトである。NSFでは、現存する4つのスーパーコンピュータセンタ(Cornell, Pittsburgh, Illinois, San Diego)をリストラし、Illinois (NCSA)とSan Diego (NPACI)の2つに絞った。この2センターを中心として大学連合を形成し、センターとの間を高速のネットワークで接続し、計算資源を共用しようとするものである。年間予算は全体で、$65Mとのことである。このパネルは、その関係者が集まったものである。モデレータは、NFSのBob Borchersであった。

(a) Peter Kollman (UCSF)
 Hayes Panel のメンバであり、その中でも唯一のコンピュータheavy user であった。

 私はコンピュータ科学と計算科学の間に緊張関係を感じた。PACI は fixed budget を前提にしたので、センター数を2つに減らさざるを得なかった。

 私の専門は古典分子動力学(MD)によるタンパク質のフォルディングである。シミュレーションの時間ステップはフェムト秒(10-15秒)であるが、タンパク質の立体構造が水中で形成されるには msec ないし μsec のオーダー掛かる。だから109以上のステップが必要である。これは前人未踏だが、まだ本来の構造には程遠い。fixed budgetではだめだ。

 

(b) Sid Karin (NPACI センター長)

 重要なのは協力関係である。NPACIはアメリカ全土にわたって36のサイトの協力で運営している。センターの使命を実現するには、ubiquitousで continuousで pervasiveなインフラが必要である。Ubiquitousとはどこでも利用できること、continuousとはシームレスに結合していること、pervasiveとはハイエンドからローエンドまで支援することである。

 まず、異なるアーキテクチャの計算資源(IBM、Tera、Cray、HP)を実装し、それらを統合し、継ぎ目を隠す。ユーザインタフェースは統一的に設計し、ユーザの相談に対応する。

 今後は、データ・インテンシブな計算が増え、理論・実験・シミュレーションの三本柱に加わる。例えば、Digital Sky Surveyでは、一晩に20 GB、一年に20 TBのデータが蓄積される。

 教育や訓練によりすそ野を広げることが重要である。

 

(c) Larry Smarr (NCSA)

 Illinois大学はNCSA (National Computational Science Alliance)を構築した。このallianceは全米の技術グリッドであり、SmarrやHennessyなどから構成される運営委員会で運営する。計算需要はどんどん増大し、2002年には10 TFlops になるであろう。

 例えば、白色矮星をコアに持つ赤色巨星の進化のシミュレーションをNCSAで実行し、データをvBNSでMinnesota大学に送ってリアルタイムで可視化することも可能になる。

 今後は科学技術計算とビジネス計算が統合されるようになり、Windows NTとUnixの相互運用が実現する。

 

(d) Bob Sugar (UCSB)
 NSF プログラムが変わったおかげで、いろんな分野で重要な high end computingが可能になったというようなことを述べたが、メモ不完全。

(e) 討論
 討論では、「デスクトップの進歩によって、HPCマシンはいらなくなるのでは」というような質問があったが、「速い計算を必要とする問題はいくらでもある」と反論していた。また「アルゴリズムについて特にMDについてうまく行くのか」という質問があったが、「5年後には、いろいろなレベルでうまく結びついているはずだと」答えていた。

17) 原著論文

(a) HPF
 HPF Forumは、1997年1月31日にHPF 2.0を公表したが、SC97では、これまでのSCとは異なり、HPFがBoFとしてではなく、technical session のテーマとして現れた。4件の論文が採択された。各論文について、a)コンパイラ、b)計算機、c)プログラミングスタイル、d)問題、をリストしてから概要を示す。

 論文1

K. Gary Li and Nabil M. Zamel (Saudi Aramco), “An Evaluation of HPF Compilers and the Implementation of a Parallel Linear Equation Solver Using HPF and MPI”

a) xlhpf(IBM),pghpf(PGI)

b) SP2(他にT3E と Origin)

c) CM Fortranのプログラムを移植(後にMPIを使って改良)

d) Reservoir simulator

■xlhpfはHPF subset を完全にはサポートせず、制約が多い。特に、プロセッサ配列の指定が1種類しかできないことが致命的である。

■行列×ベクトル において、MPIコードはHPFコードより2倍速い (pghpfの場合)。

■線形方程式解法( truncated Neumann series を前処理とした Orthomin 法)においては、MPIコードは、HPFコードより5倍速い。

 

 論文2

J. J. Nucciarone et al. (Penn State University), “New Life in Dusty Decks: Results of Porting a CM Fortran Based Aeroacoustic Model to High Performance Fortran”

a) xlhpf (IBM) and pghpf(PGI)

b) SP2 (Power2 Super Chip, 120MHz, 480MFlops)、 Origin 2000

c) CM Fortran のプログラムを移植

d) hybrid computational aeroacoustics code for 3D time-dependent Euler eq.

■xlhpfはHPF subset を完全にはサポートせず、制約が多い。CMFのスタイルを維持するために、1-D、 2-D、 3-D の間の関係を指定したくなかったので、このコンパイラは使い物にならなかった。

■コンパイラが複雑なFORALLを理解してくれない。補助配列をいれて理解できるように書き下すと、まるでMPIプログラムのようになってしまう。

■ 結果は悲惨。SP2では、プロセッサが増えるほど実行時間も増える!! 原因は、細かい通信がループの最内側で多数生じるためと思われる。I/Oもネック。

■Originでは、16PEで63秒が、32PEで42秒程度。まだマシだが。

 

 論文3

T. Ngo et al. (IBM and U. Washington), “Portable Performance of Data Parallel Languages”

a) xlhpf, pghpf, xhpf (APR), ZPL (UWのデータ並列言語),(及び比較のための MPI)

b) SP2

c) DO loop, F90 array syntax/Forall の2種のプログラミング

d) NPB Ver 2.1より、 EP、 MG、 FT

■HPFの設計は、portabilityの目標とは矛盾がある。たとえば、通信がプログラマから見えないのはうれしいが、コンパイラの最適化に全面的に頼らざるを得なくなる。隔靴掻痒の感がある。

■HPFコンパイラは、DOループで書かれたプログラムの並列性を認識するのが困難。F90 array syntaxやForallは比較的成功することが多い。それでもコンパイラによって差がある。

■EPについて--HPF DO-loop versionは、IBMやPGIのコンパイラは認識せず、全部のプロセッサで全部の計算をしてしまう(加速率1)。APRコンパイラは良好にスケール。元々のDO-loopプログラムはAPRから借用したもの。F90/Forallは、IBMもPGIもうまく実行。

■MGについて--DO-loop versionはHPFコンパイラでうまく動かない。PGIコンパイラでは、通信のベクトル化がうまくいかない。ループの最内側で通信をcallする。APRコンパイラは、プロセッサの配列として1Dしか許さないので、並列化がうまくいかない。IBMコンパイラは、保守的すぎて並列性を検知しない。F90/Forall version は、IBMとPGIでは成功。

■FTについて--内積とバタフライパターンの処理が問題。HPF DO-loop versionについて、APRはMGと同じ問題。PGIは、通信が最適化されてない。IBMは、並列化がぜんぜんなされない。HPF F90/Forall では、すべてのコンパイラに通るようにするには、多くのコード再構成が必要。

■データ並列言語ZPLは、スケーラブルな性能を示す。しかしそれでも、MPIプログラムに比べればまだオーバーヘッドが大きい。その理由は、多数のtemporary array を使う必要があり、このため dynamic allocation/deallocation and copying が必要になるからである。それだけでなく、キャッシュの利用を妨げる。データ並列言語がメッセージパッシング言語の代わりをするようになるためには、もっとオーバーヘッドを減らす必要がある。

 

 論文4

G. Roth et al. (Rice University and LANL), ” Compiling Stencils in High Perfromance Fortran”       

a) xlhpf 比較のためFortran90

b) SP-2

c) Stencil計算(SHIFTを多用)

d) 偏微分方程式の差分法。9点stencil。

Stencil を用いて、コンパイラの負担を減らし、性能を向上させようという提案。

 

(b) QCDSP(格子ゲージ専用機)
 筆者がAward sessionの座長をしているとき、別の会場でColumbia大学のQCDSPの発表があった。Teraflopsまで到達可能とのこと。現在1024 PUのマシンが稼働しているが、実効性能はまだ。最終的には8096 PUの予定。

QCDSP: A Teraflop Scale Massively Parallel Supercomputer N. Christ et al.

 

(c) Pentium Pro
 Intel の Pentium Pro で、どうしてピークの60%ものLINPACKが出るのかという種明しの講演もあった。

High Performance Software on Intel Pentium Pro Processors or Micro-Ops to TeraFLOPS

Bruce Greer and Greg Henry (Intel Corporation)

要は、Level 3 BLAS の DGEMM を使い、ギチギチに最適化したらしい。

18) Gordon Bell Prize
今年は日本からfinalistsに一つも残らず、ASCI Red関連のオンパレードであった。CP-PACSもがんばったがだめだった。Performance賞はLANLのグループで、ASCI Red 4096プロセッサによる3億粒子の重力多体系計算、費用性能比では、オーストラリアのグループの28個のDEC Alphaマシン(PVMを使っている)と、LANLのPentium Pro 16個のマシン(著者はPeak Performance受賞論文と一部重なっている)。

Peak Performance
First Prize-Part 1: Michael S. Warren, Los Alamos, National Laboratory; John K. Salmon, Caltech; “Simulating the motion of 322,000,000 self-gravitating particles,” 430 Gflops on ASCI Red using 4,096 processors

Price/Performance
First Prize: Nhan Phan-Thien and Ka Yan Lee, University of Sidney; David Tullock, Los Alamos National Laboratory; “Modeling suspensions,” 10.8 Gflops/$1M on 28 DEC Alpha machines

First Prize-Part 2: Michael S. Warren, Los Alamos, National Laboratory; John K. Salmon, Caltech; Donald J. Becker, NASA Goddard; M. Patrick Goda, Los Alamos National Laboratory; Thomas Sterling, Caltech; Gregoire S. Winckelmans, Universite Catholique de Louvain (Belgium); “Two problems: vortex fluid flow modeled with 360,000 particles; galaxy formation following 10,000,000 self-gravitating particles,” 18 Gflops/$1M on a cluster of 16 Intel Pentium Pros (200 Mhz.)

 

受賞を逃したfinalistsは以下の通り。

Transient Solid Dynamics Simulations on the Sandia/Intel Teraflop Computer  
Stephen A. Attaway Sandia National Laboratories; Edward J. Barragy, Intel Corporation; Kevin H. Brown, David R. Gardner, Bruce A. Hendrickson, Steven J. Plimpton, Courtenay T. Vaughan, Sandia National Laboratories

High Performance MP Unstructured Finite Element Simulation of Chemically Reacting Flows  
Karen D. Devine, Gary L. Hennigan*, Scott A. Hutchinson, Andrew G. Salinger, John N. Shadid, and Ray S. Tuminaro Sandia National Laboratories, Albuquerque, NM *New Mexico State University, Las Cruces, NM

 

19) Sidney Fernbach Award
計算科学分野における顕著な貢献に対して与えられるSydney Fernbach Awardは、”For outstanding contributions to the development of parallel numerical algorithms and parallel software packages that have helped the mechanical engineering world to embrace parallel processing technology”に対して、Charbel Farhat(University of Colorado at Boulder)(所属要確認)に与えられた。なおFarhatは、2002年にSNLのグループとともにGordon Bell Prizeも受賞している。

20) Top500(世界)
10回目となる1997年11月のTop500が発表された。上位20位は以下の通り。性能はGFlops。前回の順位に括弧のついているのは、増強やチューニングで性能が向上したことを示す。筑波大学のCP-PACSは4位にまで下がってしまった。トップ20位以内の22件の内9件が新顔であり、内6件はT3E 900である。ASCI Redもフルノードが動くようになったものと思われる。前回は航技研のNWTがチューニングで東大のSR2201をかわしたが、今回はSR2201のチューニングが進み、NWTを抜いた。

順位

前回

設置場所

機種

コア数

Rmax

Rpeak

1

(1)

SNL

ASCI Red – Pentium Pro 200 MHz

9152

1338.0

1830.4

2

アメリカ政府某機関

T3E 900 – EV5 450 MHz

1248

634

1123.2

3

英国気象庁

T3E 900

840

430.3

756.0

4

2

筑波大学計算物理学研究センター

CP-PACS/2048

2048

368.2

614.4

5

NERSC

T3E 900

512

264.8

460.8

6

(4)

東京大学

SR2201/1024

1024

232.4

307.2

7

3

航空宇宙研究技術所(日本)

Numerical Wind Tunnel

167

229.0

281.3

8

ECMWF

VPP700/116

116

213.0

255.2

9tie

(5tie)

Max-Planck-Gesellschaft(独)

T3E – EV5 300 MHz

512

196.0

307.2

9tie

Cray社

T3E – EV5 300 MHz

512

196.0

307.2

9tie

(5tie)

FZJ(ドイツ)

T3E – EV5 300 MHz

512

196.0

307.2

9tie

(5tie)

NASA/Goddard

T3E – EV5 300 MHz

512

196.0

307.2

9tie

(5tie)

Pittsburgh Supercomputing Center

T3E – EV5 300 MHz

512

196.0

307.2

9tie

(5tie)

Stuttgart大学(独)

T3E – EV5 300 MHz

512

196.0

307.2

15

ERDC DSRC(アメリカ)

T3E900

312

166.3

280.8

16

ドイツ気象庁

T3E – EV5 300 MHz

400

153.0

240.0

17

11

Pacific Northwest N L

SP P2SC 120 MHz

472

151.8

226.6

18

12

SNL

XP/S140

3680

143.4

184.0

19tie

FZJ(ドイツ)

T3E 900

256

138.7

230.4

19tie

13tie

Minnesota Supercomputer C.

T3E 900 – EV5 450 MHz

256

138.7

230.4

19tie

13tie

Naval Oceanographic Office

T3E 900 – EV5 450 MHz

256

138.7

230.4

19tie

Edingburgh大学(イギリス)

T3E 900

256

138.7

230.4

 

21) Top500(日本)
日本国内設置のマシンで100位以内は以下の通り。大阪大学のSX-4/64は前回の2台のSX-4/32を接続したものであろう、今回、東北大学には4台のSX-4/32が載っているが、1998年6月のTop500ではSX-4/128H4となり、コア数128、Rmax=244.00 GFlops、Rpeak=256.00 GFlopsで13位にランクする。

順位

前回

設置場所

機種

コア数

Rmax

Rpeak

4

2

筑波大学計算物理学研究センター

CP-PACS/2048

2048

368.2

614.4

6

(4)

東京大学

SR2201/1024

1024

232.4

307.2

7

3

航空宇宙研究技術所(日本)

Numerical Wind Tunnel

167

229.0

281.3

27

大阪大学

SX-4/64M2

64

122.0

128.0

28

17

九州大学

VPP700/56

56

110.0

123.2

29

18

高エネルギー物理学研究所

VPP500/80

80

109.0

128.0

30

19

日本原子力研究所

XP/S-MP 125

2502

103.5

125.1

46

(56tie)

防災科学技術研究所

T3E

160

62.4

96.0

47tie

(38tie)

国立環境研究所

SX-4/32

32

61.7

64.0

47tie

(38tie)

日本電気府中工場

SX-4/32

32

61.7

64.0

47tie

(38tie)

東北大学(4台)

SX-4/32

32

61.7

64.0

54tie

44tie

日本原子力研究所

VPP500/42

42

59.6

67.2

54tie

44tie

名古屋大学

VPP500/42

42

59.6

67.2

56

46

RWCP(日本)

SR2201/256

256

58.7

76.8

58tie

47tie

遺伝研

VPP500/40

40

56.9

64,0

58tie

47tie

東京大学物性研

VPP500/40

40

56.9

64,0

71tie

56tie

北陸先端科学技術大学院大学

T3E – EV5 300 MHz

128

50.40

76.8

74

(59)

航空宇宙研究技術所(日本)

SX-4/25

25

48.3

50.0

75

(60)

オングストローム技術組合(日本)

VPP500/32

32

46.1

51,2

80

64

理化学研究所

VPP500/28

28

40.4

44.8

81tie

(65tie)

海洋科学技術センター

SX-4/20

20

38.7

40.0

81tie

(65tie)

金属材料研究所

SX-4/20

20

38.7

40.0

81tie

(65tie)

トヨタ中央研究所

SX-4/20

20

38.7

40.0

87tie

71tie

日本原子力研究所

VPP300/16

16

34.1

35.2

87tie

71tie

科学技術振興事業団

VPP300/16

16

34.1

35.2

87tie

71tie

動力炉核燃料事業団

VPP300/16

16

34.1

35.2

97tie

81

国立循環器病研究センター

SX-4/16

16

31.1

32.0

99tie

84tie

NTT

T932/321024

32

29.4

57.6

99tie

84tie

防災科学技術研究所

T932/321024

32

29.4

57.6

 

22) Sun Microsystems社訪問
会議終了後、佐藤秀夫さんやDangさん(日本サン・マイクロシステムズ社)の案内で、Menlo ParkとMountain Viewの開発現場(Server Test Roomなど)を見学したが、数台のE10000と多数のWS、それに大規模なディスクシステムが動いているのは壮観であった。その帰り、Stanford大学近くのWine cellarでフランスワインのテイスティングを楽しんだ。このワインはどんな食べ物に会うか(ペアリングというらしい)など、ワイン談義を英語でやるのは大変だった。その店で何本かカリフォルニアワインを買って帰ったが、家内からは、フランスワインのテイスティングをしてカリフォルニアワインを買ってくるとは、と嘲笑された。実は値段が相当違った。

次回は1997年の最後で、アメリカ企業の動き、ヨーロッパの企業の動き、企業の創業・終焉。Encore Computer社、Amdahl社、BBN Technology社などが姿を消し、Entropia社が出現する。

 

left-arrow   new50history-bottom   right-arrow