新HPCの歩み(第194回)-2002年(j)-
Gordon Bell賞に地球シミュレータ関係が3件も入賞した。これはComputenikを強調して、アメリカの予算を増額させるためでは、などという陰口も聞こえた。バンド幅チャレンジでも日本の複数チームががんばった。最終日のパネルでは「特注スパコンは絶滅危惧種か?」や「地球シミュレータのインパクト」などがあり、渡辺貞氏や佐藤哲也氏が熱弁を振るった。 |
SC2002(続き)
13) Top500(2002年11月、世界)
20回目に当たる、2002年11月版のTop500は11月13日頃にweb上で公表された。2位と3位はASCI Qの1/3と思われ、LANLに設置されているAlphaServer SCシステムである。次回は3個を結合して登場すると予想されるが、地球シミュレータはまあ安泰であろう。Top10の足切りは3.2 TFlopsであり、47システムが1 TFlopsを越えるLinpack性能を出している。
今回初めて、クラスタが2件もTop10に入った。5位は、LLNLに設置されたクラスタで、Linux Networx社製で、Quadrics社製相互接続網を使用、もう一つは8位で、Myrinet相互接続網を用いたクラスタである。Top500の中のクラスタは合計93台で、Intel社のプロセッサは55台、AMD社のプロセッサは8台である。14台はSelf-madeである。
性能合計では、1位IBM社は31.8%、2位HP社は22.1%、3位日本電気は14.6%である。台数では、1位HP社は137台、2位IBM社は131台、3位Sun Microsystems社は88台である。台数合計で前回に続きHewlett-Packard社がトップとなった。 (HPCwire 2002/11/15)
中国製のマシンが初めてTop100に登場した。43位のDeepComp 1800 – P4 Xeon 2 GHz – Myrinet, Legend Group製(北京のAcademy of Mathematics and System Science)で、コア数512、Rmax=1046.00 GFlops、Rpeak=2048.00 GFlopsである。 (HPCwire 2002/9/6)
相互接続網としてMyricom社のMyrinetを用いたものが目立っている。Beowulf Clusterでは28件がMyrinetを採用しているが、Hewlett-Packard社のSuperdome/Hyperplexの112件もMyrinetを使っている。合計140件で、全体の28%である。(HPCwire 2002/11/20) また、Top5のうち3件がQuadricsを用いていることも注目される。(HPCwire 2002/12/6)
Top20までは以下の通り。性能の単位はTFlopsである。前回の順位に括弧が付いているのは、ハードウェア増強 またはチューニングにより性能が向上したことを示す。
順位 |
前回 |
設置機関 |
システム |
コア数 |
Rmax |
Rpeak |
1 |
1 |
JAMSTEC |
Earth Simulator |
5120 |
35.86 |
40.96 |
2tie |
- |
LANL |
ASCI Q |
4096 |
7.727 |
10.24 |
2tie |
- |
同上 |
同上 |
同上 |
同上 |
同上 |
4 |
2 |
LLNL |
ASCI White |
8192 |
7.226 |
12.288 |
5 |
- |
LLNL |
MCR Linux Cluster |
2304 |
5.694 |
11.060 |
6 |
3 |
PSC |
AlphaServer |
3016 |
4.463 |
6.032 |
7 |
4 |
CEA (France) |
AlphaServer |
2560 |
3.980 |
5.120 |
8 |
- |
Forecast Systems Lab., NOAA |
Aspen Systems |
1536 |
3.337 |
6.758 |
9 |
- |
HPCx (UK) |
p690 Turbo 1.3 GHz |
1280 |
3.241 |
6.656 |
10 |
- |
NCAR |
p690 Turbo 1.3 GHz |
1216 |
3.164 |
6.323 |
11 |
- |
NAVOCEANO |
p690 Turbo 1.3 GHz |
1184 |
3.160 |
6.1568 |
12 |
5 |
NERSC |
SP Power3 375 MHz |
3328 |
3.052 |
4.992 |
13tie |
(12) |
ECMWF (UK) |
p690 Turbo 1.3 GHz |
960 |
2.560 |
4.992 |
13tie |
- |
同上 |
同上 |
同上 |
同上 |
同上 |
15 |
7 |
SNL |
ASCI Red |
9632 |
2.379 |
3.207 |
16 |
8 |
ORNL |
p690 Turbo 1.3 GHz |
864 |
2.310 |
4.4928 |
17 |
- |
Louisiana State U. |
SuperMike |
1024 |
2.207 |
3.6864 |
18 |
- |
NASA Goddard Space C. |
AlphaServer |
1392 |
2.164 |
2.784 |
19 |
9 |
LLNL |
ASCI Blue Pacific |
5808 |
2.144 |
4.160 |
20 |
(10) |
US Army Research Lab. |
p690 Turbo 1.3 GHz |
800 |
2.140 |
4.160 |
栄枯盛衰が厳しいのはいつものことではあるが、今回はTop10のうち6つが新しいシステムである。2位3位を取ったASCI Qの片割れ、5位のLLNLのLinux PC Cluster with Quadrics switch、8位のFSL/NOAAのHPTi/Myrinet clusterである。Top10にPCクラスタが入ったのは初めてである。あと、IBM eServer p690が2つ、9位のUK HPCx Consortiumと10位のNCARである。
相互接続網ではMyricom社のMyrinetの進出が目立つ。500件中140件がMyrinetを採用している。このうち、112件はHP社のSupercome/Hyperplexシステムであるが、残りの28件はBeowulf型のMyrinetクラスタである。最高位は上記8位のNOAAのシステムである。(HPCwire 2002/11/20)
14) Top500 BoF
いつもの通り11月20日(水曜日)BoF (Birds of a Feather) の一つとして、Top 500 の集まりがあった。Hans Meuer, J. Dongarra, E. Strohmaier, H. Simonなどが主催。今年は1993年6月に最初のTop500が発表されて以来ちょうど10年になるので、10年間の総括なども行われた。
a) 表彰式
まず、今年の発表があった。昨年と同様に表彰状を作り、Horst Simonが上位3位にこの場で授与した。もちろん1位は佐藤哲也センター長が受け取った。2位と3位は、 ASCI Qの1/3の片割れが二つ(一つがunclassifiedで、一つがclassifiedだそうだ)なので、マネージャーの何とかさんが受け取った。次回は残りの1/3と合わせてRpeak=30 TFlopsで登場すると予想したが、結果は1/3が2つ結合しRpeak=20止まりであった。 トップの性能の時間的推移は階段状になっている。NWTやASCI RedやASCI Whiteは何回かのリストに続けて載っている。これを外挿すると、2005年にはTF以上ないとTop500には載らないと思われる。現在はTF以上のシステムは47しかない。それから、2009年にはPetaFlop systemが登場すると予想される。
b) 10年間のトレンド
Strohmaierが10年間のトレンドを示した。ベクトルからスカラへの変化、でも今でもベクトルは性能的にはかなりの部分を背負っている。チップ別のグラフも示した。Intel社のチップは、i860がParagonで活躍していたが次第に廃れ、近年クラスタの隆盛とともに復活している。アーキテクチャでは、すでにclusterとconstellation が半分を占めている。クラスタのTop20のうち、7つがアメリカ、8つが中国である(未確認)。
c) LINPACKの意味と限界
続いてDongarraがベンチマークとしてのLINPACKについてコメントした。LINPACKがベンチマークになったのはほんの偶然であった(「ユーザが行列問題を解く時間を推定できるための便宜として掲載したもの」)。最初のレポートを出したのが1977年であるから、今年はちょうど25年目である。このレポートでは、NCARのCray-1が14 MFlopsを出したのが最高であった。LINPACK benchmarkには3種類あり、100×100でプログラムの変更を許さない版、1000×1000でbest effortを許すHPPと、任意のサイズのTPPである。100×100は今や時代遅れではあるが、25年間全く同一の基準で性能を測ってきたという歴史的な意義はある。
ピーク性能との比を効率と呼ぶことにすると、100%近いのから、10%程度のものまでいろいろある。しかし、LINPACKベンチマークは計算機のある性能を測定するものであり、全能力を測っているわけではない。
続いて、Pfreundt (iPACS)が、”New and Alternative Benchmark”と題して、新しいベンチマークの可能性について述べた。どうしてLINPACKなんかで順位付けをするのだというような批判に答えるためであろう。特にLINPACKが連続アクセスを特徴としているので、data access patternで分類したらというような案を提案した。すなわち、temporal localityの指標であるreuse of data、ベクトル長やメッセージ長を示すgranuality、spacial locality/strideを示すregulairtyで特徴付けようということらしいが、具体案が示されたわけではない。われわれがかねてから主張しているように、ベンチマークには様々な階層があり、それぞれの特徴を持っているが、ではLINPACKに代われるかというと結局難しい。
d) The Most Powerful Supercomputers 1993-2002″
最後にHorst Simon とErich Strohmaier(NERSC)が10年間の総括を兼ねて”The Most Powerful Supercomputers 1993-2002″という分析を紹介した。つまり、トップの計算機が積算でどのくらいぬきんでていたかを、500番目までのRmaxの和との比(相対Rmax)で示そうということで、各システムについて20枚の表での合計を計算した。相対Rmaxの総計の意味でもっとも抜きんでた計算機を3つ挙げよ、というクイズがあり、それらしい答えをしていた正解者は来年6月のISC2003の参加がただになったらしい。10位まで示す。
順位 |
機種 |
積算相対Rmax |
最高rank |
1 |
ASCI Red (SNL) |
49.0% |
1 |
2 |
Numerical Wind Tunnel (NAL) |
41.2% |
1 |
3 |
Earth Simulator |
28.4% |
1 |
4 |
Paragon XP/S140 (SNL) |
26.9% |
1 |
5 |
ASCI White (LLNL) |
23.6% |
1 |
6 |
CM-5 (LANL) |
19.8% |
1 |
7 |
ASCI Blue Mountain (LANL) |
17.9% |
2 |
8 |
CP-PACS (U. Tsukuba) |
16.1% |
1 |
9 |
ASCI Blue Pacific (LLNL) |
15.2% |
2 |
10 |
CM-5 (Minnesota SC) |
13.7% |
2 |
である(秘密のマシンは除いた)。積算なので、長く優位を保つと有利になる。前回のASCI Whiteを7倍も凌駕した地球シミュレータが意外に低いのはそのせいであろう。ASCI Redは前回のトップだったCP-PACSを3倍も凌駕し、しかも長く1位を保った。NWTも3年間(6回)トップまたは2位にいたからすごい。
各システムについて、積算でなく、各回最大の相対Rmaxについても表が示され、これではさすがに地球シミュレータが1位であった。ついでに、センター別の積算相対Rmaxも示す。右半分と左半分は別の表である。
|
機種 |
最大相対Rmax |
センター |
積算相対Rmax |
1 |
Earth Simulator |
16.2% |
SNL |
83.8% |
2 |
NWT (NAL) |
8.5% |
LANL |
74.8% |
3 |
ASCI Red |
8.3% |
LLNL |
59.3% |
4 |
ASCI White |
6.7% |
NAL |
46.2% |
5 |
XP/S140 (SNL) |
6.4% |
U Tokyo |
33.9% |
6 |
CM-5 (LANL) |
5.3% |
PSC |
28.5% |
7 |
CP-PACS |
4.6% |
Earth Simulator Center |
28.4% |
8 |
ASCI Blue Pacific |
4.2% |
NERSC |
27.1% |
9 |
ASCI Blue Mountain |
4.1% |
ORNL |
27.0% |
10 |
T3E (Government) |
3.9% |
NASA/Ames |
23.7% |
前にも書いたが、Top500のトップ5のうちの3機がQuadricsの相互接続ネットワークを使っていることが注目される。競争するMyrinetはTop500のうち140件(28%)を占めている。内訳は、Beowulf Clustersが28件、HP Superdome/Hyperplexが112件である。
15) Top500(2002年11月、日本)
100位以内に入った日本設置のマシンは以下の通り。地球シミュレータを除いてTop20から日本のマシンが姿を消したことが印象的である。2番目は26位の東大情報基盤センターのSR8000/MPPである。CP-PACSは163位に落ちた(発表当初では167位)。
順位 |
前回 |
設置場所 |
機種 |
コア数 |
Rmax |
Rpeak |
1 |
1 |
海洋研究開発機構 |
地球シミュレータ |
5120 |
35.86 |
40.96 |
26 |
13 |
東京大学 |
SR8000/MPP |
1152 |
1.7091 |
2.074 |
34 |
19 |
大阪大学 |
SX-5/128M8 |
128 |
1.192 |
1.280 |
47 |
- |
日本原子力研究所 |
AlphaServer SC40, 833 MHz |
812 |
1.007 |
1.352 |
50 |
25 |
日本電気府中工場 |
SX-6/128M16 |
128 |
0.982 |
1.024 |
53 |
27 |
高エネルギー研 |
SR8000-F1 |
100 |
0.917 |
1.200 |
56 |
30 |
東京大学 |
SR8000/128 |
128 |
0.873 |
1,024 |
67 |
41 |
東北大学金材研 |
SR8000-G1/64 |
64 |
0.7907 |
0.9216 |
68 |
(47) |
東京工業大学 |
Presto III Athlon 1.6 GHz |
496 |
0.7602 |
1.5872 |
75 |
45 |
筑波大学 |
VPP5000/80 |
80 |
0.730 |
0.768 |
77 |
51 |
気象庁 |
SR8000-E1/80 |
80 |
0.6913 |
0.768 |
86 |
56 |
産総研CBRC |
Magi Cluster PIII, 933 MHz |
1040 |
0.654 |
0.970 |
89 |
57 |
新情報(つくば研究所) |
SCore IIIe/PIII, 933 MHz |
1024 |
0.6183 |
0.9554 |
93 |
62 |
東京大学物性研 |
SR8000-F1/60 |
60 |
0.577 |
0.720 |
96tie |
65tie |
日本原子力研究所 |
VPP5000/64 |
64 |
0.563 |
0.6144 |
96tie |
65tie |
九州大学 |
VPP5000/64 |
64 |
0.563 |
0.6144 |
16) The Sidney Fernbach Memorial Award
SCには種々の賞があり、このころは木曜日の1:30から発表と授与式があった。Fernbach賞は、HPCの応用分野の大家である故Sidney Fernbach (LLNL)氏を記念して、革新的なアプローチを用いて応用分野に顕著な貢献をした人に与えられる。これはIEEEの正式な賞で、1992から始まった。賞金$2000。今年の委員長はJack Dongarra、委員はAl Brenner, David Bailey, Charbel Farhat, Mike Normanで、Robert J. Harrison (Pacific Northwest National Laboratory, 計算化学)に与えられた。Harrison氏は、2002年1月につくばで開かれた「ハイパフォーマンスコンピューティングと計算科学シンポジウム」において、招待講演”A Multidiscipoinary Approach to Computational Chemistry” をしていただいた。なお、昨年は受賞者がいなかった。
17) The Seymour Cray Computer Science and Engineering Award
これもIEEEの正式な賞で、賞金はなんと$10,000。これはSeymour Crayを記念して1997年に作られた賞で、Seymour Crayが示したような創造的精神を実証するHPCシステムへの顕著な寄与をした人に贈られる。委員長はJohn Riganati氏、委員はTor Bloch, Vito Bongiorno, Dona Crawford, Dennis Duke, Ken Neves, Yoshio Oyanagiの6名。どういうわけか筆者も末席を汚している。推薦の締め切りは7月末日であった。日本からは地球シミュレータの推進者である三好甫氏が推薦されたが、氏は前年末に亡くなられてしまい、「原則、存命者」というルールからは難しかった。委員長に「なぜ、存命者に限るのか」と聞いたら、「今さら、von Neumannに授与してもしょうがないだろ。」との答えであった。審査の経緯は非公開であるが、三好氏はこの原則に反するのにも関わらず、かなり高い評価を得ていたことだけを記しておく。結果はMonty M. Denneau博士(IBM)に決まった。彼は、IBM社の並列処理開発(TF1/Vulcan, GF 11, IBM-SP series, Blue Gene, The Wiring Machine, Yorktown Simulation Engineなど)において一貫して指導的立場にあった人である。
18) Gordon Bell Prize
Digital Equipmentの副社長であったGordon Bell氏(その後Microsoft社)が毎年ポケットマネー5000ドルを出して与えられる賞で、「並列処理において実際問題の計算を行い、応用で最高の性能を出した人」に与えられる。実際にはいくつかのカテゴリーから選ばれ、賞金は分割される。
選考委員長はThomas Sterling。委員は、 Bill Gropp, David Keyes, David Bailey and James Demmel。今年は38件の応募があり、6件がfinalistsとして残った。そのうち3つは地球シミュレータ関係。あと、牧野淳一郎も残った。Technical Sessionの二つのコマを用いて論文発表が行われたが、2コマ目は地球シミュレータ関係の論文がまとめられてしまった。受賞したのは、
Peak Performance |
Special Award for Language |
Special |
Manoj Bhardwaj, Kendall Pierson, Garth Reese, Tim Walsh, David Day, Ken Alvin, James Peery, Sandia National Laboratories; Charbel Farhat, Michel Lesoinne, University of Colorado at Boulder; “Salinas: A Scalable Software for High Performance Structural and Solid Mechanics Simulation.” The structural mechanics community has embraced Salinas, engineering software over 100,000 lines long that has run on a number of advanced systems, including a sustained 1.16 Tflops performance on 3,375 ASCI White processors. |
James C. Phillips, Gengbin Zheng, Sameer Kumar, Laxmikant V. Kale, University of Illinois at Urbana-Champaign; “NAMD: Biomolecular Simulation on Thousands of Processors.” Researchers achieved unprecedented scaling of NAMD, a code that renders an atom-by-atom blueprint of large biomolecules and biomolecular systems. |
結局、finalistsのうち牧野氏だけが落ちて、5件に授賞され、賞金$1000が与えられた(山分け?)。牧野さんは、もし通っていれば6回目の受賞になっていたところである。数値は改良されて27.7 TFlopsであったが、昨年と同じGrape-6での結果であったので惜しくも受賞を逃した。応募論文は以下の通り。
j. Makino (U Tokyo), “A 29.5 Tflops simulation of planetesimals in Uranus-Neptune region on GRAPE-6” |
ピーク章では、Tom Sterlingが「時間があるから日本人の名前を全部読む」とか言って苦戦していた。坂上らの論文は、地球シミュレータ上でHPFを用い、逐次処理のプラズマシミュレーションコードに30数行程度の指示文を挿入-するだけで14.9 TFlopsを達成したことが認められた。HPFは10年目となり、SC2002全体ではHPFの話題はほとんどなかったが、この受賞だけが際立っていた。1997年1月から正式発足した「HPF合同検討会(JAHPF)」の成果であった。なお、この論文では横川がまだJAERIとなっていた。Salinasは工学のソフトウェアであるが、工学のプログラムの受賞は初めて。(HPCwire 2002/12/13)
地球シミュレータ関係が3件も入賞したのは、Computenikを強調して、アメリカの予算を増額させるためではないか、「$1000で$100Mが取れれば安いもの」などという陰口も聞こえた。
19) The High-performance Bandwidth Challenge
これは2000年から始まったコンテストで、SCinetを用い、SC会議の期間中に実際にどれだけのバンド幅を出すかで勝負する。委員長は、Greg Goddard, University of Florida。Qwest社から賞金が与えられる。
参加チームの結果の数値だけ引用する(単位はGb/s、総転送量は省略)。詳しい定義は忘れた。
チーム |
Link Type |
Peak-in |
Peak-out |
Peak-bi |
Avg-in |
Avg-out |
Avg-bi |
Argonne |
1 x 10 GigE |
3.601 |
0.116 |
3.717 |
1.761 |
0.033 |
1.794 |
DataSpace* |
4 x 1 GigE |
2.392 |
0.004 |
2.396 |
1.54 |
0 |
1.54 |
JapaneseDataGrid |
1 x 10 GigE |
0.595 |
1.691 |
2.286 |
0.295 |
0.917 |
1.212 |
LBL |
3 x 10 GigE |
16.81 |
0.001 |
16.811 |
15.741 |
0 |
15.741 |
NPACI/SDSC |
2 x 10 GigE |
0.748 |
0.012 |
0.76 |
0.426 |
0 001 |
0.427 |
Sandia |
1 x OC-48 |
0.942 |
0.934 |
1.876 |
0.557 |
0.701 |
1.258 |
SLAC/Caltech |
2 x 10 GigE |
6.254 |
6.189 |
12.443 |
5.587 |
5.078 |
10.665 |
UNC |
1 x 1 GigE |
0.689 |
0.514 |
1.203 |
0.081 |
0.079 |
0.16 |
University of Tokyo |
1x 1 GigE |
0.035 |
0.55 |
0.585 |
0.003 |
0.208 |
0.211 |
3種の賞は以下のとおり与えられた。(HPCwire 2002/11/28)
○Highest Performing Application
“Wide Area Distributed Simulations Using Cactus, Globus and Visapult ” NERSC, LBL。16.8 Gb/sを実現。このグループの受賞は連続3回目であるが、前回より5倍も向上している。(HPCwire 2002/11/28)
○Most Efficient Use of Available Bandwidth
“Data Reservoir ” 東京大学、富士通研究所、富士通プログラム技研のチーム(代表、平木敬)。日米間12000 kmの高速通信において、TCP/IP通信により、ネットワークバンド幅の95%以上の持続的ネットワーク利用に成功した。信号のlatencyを考えただけでも、TCP/IPでこのような成果を出したことは驚異に値する。
○Best Use of Emerging Network Infrastructure
“Project Dataspace “(Illinoisなどのグループだが不明)。Distributed data miningにおいて2.4 Gb/sを達成した。詳細は不明。
グリッドデータファーム(産総研)では、高エネルギー加速器研究機構、東京工業大学、東京大学、Indiana Univ.、SDSCの協力を得て、MAFFIN、つくばWAN、APAN/TransPAC、NII-ESnet HEP PVC、Abileneなどのネットワークを使い、190台のパソコンから成るPCクラスタ7システムを統合利用して2.286 Gb/sのピーク記録を達成した。日米間の記録としては、会場のPC 4ノードと産総研の4ノードとの間で707Mb/sのデータ転送を実現した。これはAPAN/TransPACの2本太平用回線(シアトルからの北回線とシカゴからの南回線、いずれもOC-12)の両方を同時に利用して達成したものである。この記録の達成のためには、TCP/IPの種々のパラメータの調節や、通過するネットワークとの調整などいろんな苦労があったようである。最大のボトルネックはTokyo NOCから産総研までで、1 Gb/sしか取れなかった。ピークバンド幅としては東大のデータレザボアに勝っていたが持続的ではなく、惜しくも受賞を逃した。筆者は参加者ではないが、同じブースの関係者としては残念であった。
いずれにせよ、両チームとも日本からかなりの物量を日本から持ち込んでの挑戦で、想像を絶する苦労があったものと思われる。ブースは隣同士で、実験中には両者間に火花が飛んでいた(^_^)。
20) HPC Challenge Awards
HPC ChallengeはSC97に始まり、SC98にも続けられた。SC99とSC2000ではHPC Gamesの名前で同様なコンテストが行われた。SC2001では計画されたが(911のためか?)中止された。
コンテストのやり方は年ごとに異なる。今年のSC2002でのHPC Challenge Awardsは3つのカテゴリーにおいてHPCリソースを革新的に利用したものに与えられる。受賞者については確認がとれていない。
○Most Innovative Data-Intensive Application:
UK e-Science Pilot Project: DiscoveryNetが受賞した模様。ImperialCollege of Science, Technology and Medicine, London。代表はProf. Yike Guo and Dr. John Hassard.
○Most Geographically Distributed Application:
○Most Heterogeneous Set of Platforms:
この二つの賞はGlobal Grid Testbed Collaborationというグリッド関係者の連合チームが取ったようである。Pittsburgh Supercomputer CenterのLeMieuxを利用した。
プラチナ賞($1500 honorarium), 金賞 ($1000), 銀賞 ($500)があるはずだが、どれが何処に行ったかも不明。
21) 論文賞
Best technical paper ($1000)とbest student technical paper ($500)とbest research poster ($250)がある。
a) The SC2002 Best Technical Paper: Parallel Multiscale Gauss-Newton-Krylov Methods For Inverse Wave Propagation
Authors: Volkan Ackelik and Omar Ghattas, Carnegie Mellon University; George Biros, Courant Institute of Mathematical Sciences at New York University.
この論文は媒質中の音波の伝播に関する逆問題を解く並列アルゴリズムとそのスケーラビリティを提示した。210万未知数を含む骨盤の幾何構造を256プロセッサのマシンをもちいて3時間で解いた。
b) The SC2002 Best Student Technical Paper: Active Proxy-G: Optimizing the Query Execution Process in the Grid
Authors: Joel Salts and Thin Kurd, Ohio State University; Alan Busman and Enrique Andrade, University cally dispersed data.
この論文はグリッド上の情報検索における検索結果のキャッシュ機構を提案し、新しいqueryに対してキャッシュを使うだけではなく、キャッシュから結果を引き出せない場合はsub queryを生成して検索する手法を提示した。
c) Best Research Poster: Faucets: Efficient Resource Allocation on the Computational Grid Authors: Mani Potnuru, Sameer Kumar, Jay DeSouza, Sindhura Bandhakavi, and Laxmikant Kale, University of Illinois at Urbana-Champaign.
グリッド上の分散システムでの資源割り付けの新しい手法Faucetsを提案した。
22) パネル「特注スパコンは絶滅危惧種か?」
最終日金曜(22日)は、展示もなく昼までなので人数が少なく、いつもプログラムに困る。最近は客寄せに刺激的なパネルを3並列に企画しているようだ。
8:30からのパネルは、
“Are Designer Supercomputers an Endangered Species?”
“High End Information Technology Requirements for Homeland Security”
“Desktop Grids: 10,000-fold Parallelism for the Masses”
の3件が並列で開催された。
筆者は1番目「特注のスーパーコンピュータは絶滅危惧種か?」に出席した。そもそも最初タイトルを読み間違えていて、「スパコンのデザイナー(設計者)は絶滅危惧種か?」かと思った。これも面白いテーマだったかもしれない。
司会はAruna Ramanan (IBM)。まず渡辺貞氏(NEC)が、「designer supercomputerとは、アーキテクチャと物理的実装の両面において新しく革新的な設計のスーパーコンピュータを言う。」と定義した後、こう述べた
地球シミュレータは、NECのSXの延長上にあり、designer supercomputerではない。もし、ベクトルスーパーコンピュータは絶滅危惧種か、というなら、そうかも知れない。しかし、誰が絶滅させようとしているのか?ユーザはベクトルスーパーコンピュータを望んでおり、その意味では絶滅危惧種ではない。実効性能が実際出るし、システムソフトウェアも易しいと、ベクトルの優位性を強調。そして、地球シミュレータのインパクトは何か。”頭を上げよ。予算を増やせ”。ペタフロップスへの道への障害物は、予算、市場性、メモリバンド幅、多数のCPUなど技術的問題など。また、高速通信と高速演算とは互いに相手を要求している。グリッドは資源の利用可能性は広げるが、通信が弱い。(マンモスと象の絵を示し)マンモスは絶滅したが、象は残った。Burtonが70年代に考えたmultithreadは絶滅したが、hyperthreadとして生きている。 |
Gita Alaghband (U. of Colorado) は、こう述べた。
“I hope NOT!” かつてスーパーコンピュータで可能になった技術は今広く利用されている。新しい技術は高価だが、進歩をもたらす。私は最近 “Fundamentals of Parallel Processing” Harry Jordan , Gita Alaghband (2002/8/12, Prentice Hall)を出版した(コマーシャル?)。アーキテクチャ、アルゴリズム設計、プログラム言語、この3つが並列処理の基本だ。性能を決める要素は、メモリ階層、ネットワーク、プロセッサ、キャッシュ、latency tolerance、アルゴリズム、言語、OSなど。Flopsの値が議論されるが、大きな問題には不適であるし、もちろん、非数値問題には適さない。性能を決めるのは、data transfer capacityである。今後、メモリ階層が増えるにつれてlatencyは増加する一方だが、バンド幅が得られればどうにかなる。commodity-off-the-shelfの価格効率比は、並列分散計算に新しい分野を開いた。しかし、多くの問題がある。latency of communication, synchronization, fine grain parallelismなど。結局、研究教育の発想の逆転が必要である。スーパーコンピューティングにおいて、新しいアイデアと創造性が必要である。基本に帰れ! |
Tom Sterling (Caltech)は、こう述べた。
We do custom today!(われわれは今でも特注している。) Beowulf cluster はほとんど死んだ。High density bladesに代わりつつある。LanaiやMyrinetも特注。IA64が出てきたが、なぜAlphaは死んだのか。なぜItaniumは生きているのか? PlayStation2は6 GFlopsの性能を持つ。InfiniBandははやるか? 何がdriveになりうるか?今やHPCはubiquitousだ。今のデスクトップは昔のCray-1より速い。性能への欲求は限界を知らない。問題はlatencyである。従来のアプローチは変革を必要としている。プロセッサの限界、メモリの限界。あまりに難しくてプログラムできない。too big, too hot。これにはいくつかのアイデアがある。PIM, polymorphism, adaptive reconfiguration, evolution through revolution。新しい種は、従来の種が飽和してS字カーブを描いた時に生じる。PIMは不可避である。MIND (Memory Intelligent & Networking Devices)、HPCS (High Productivity Computing System?)」など新しいアイデアの重要性を述べた。結論として 「ビジネスモデルとして、下方にスケーラブルである必要がある。傲慢を避けよ。」 |
Candace Culhane (NSA 国家安全保障局) が話そうとしたとき液晶プロジェクタが動かなくなり、彼女は口だけで語った。
地球シミュレータはnew capability of scienceを示した。では未来のアーキテクチャはどうなるのか。NSAで2年間の調査をした。対象は社会的な問題である。ポイントは3つある、 (1) プログラミングの易しさ。プログラミングパラダイムが重要である。 (2) スケーラビリティ。10000~100000台まで。 (3) nomenclature(意味不明)時間の問題。何がもっともパワフルなマシンか? このような我々の要求を満たすようなシステムデザインが必要だ! 価格性能比も重要だが、我々のミッションを解決できるかが一番の問題だ。何がチャレンジかはよく分かっている。 |
要するに、ベクトルが欲しいと言うことか?
Jamshed Mirza (IBM, server group)の時、プロジェクタはちゃんと動いた。
問題は3つある。 (1) 市場のダイナミックス。売り上げのドライブ、投資、技術革新。 (2) メインストリームとの互換性。[これを言うところがさすがIBM] (3) 新しいアプローチ(メインストリームとは違う)。 地球シミュレータは、Top500で新しい平坦部(plateau)を作ったが、12ないし18ヶ月で越せるだろう[ASCI Purpleのことを言っているのか。Blue Geneか?] Blue Geneはdesigner systemであるが、メインストリーム技術の延長線でペタフロップスは可能だ。問題は発熱だ。だんだん、原子炉炉心の熱密度に近づいている。それから、プロセッサとメモリのバランスが悪くなっている。例えば、1チップ上にSMPができる。まあほとんどの面積はDRAMだが。これを10 GHzで動かせばよい。他の可能性は、光接続だ。アキレス腱はソフトウェアだ。”No Moore’s law with respect to software!” オープンソースは問題を解決するか? あとの問題は価格。価格の制御が難しい[これもさすがIBM]。autonomic featuresが大事である[これもIBM社の最近のスローガン]。段階的な増強 (incremental changes)でペタフロップスまで行ける。」IBM社のシステム技術なら、汎用の商品と特注スパコンとは連続的につながっているということらしい。 |
例によってフロアとの質疑応答の時間はあまりなかったが、MD-Grape/Wineをどう思うか、という質問がフロアの非日本人から出た。Mirza氏、「pay backが十分高ければ考えられる。」渡辺氏「問題は市場性。PlayStationは特注だが、大きな市場があった。」
なにかあまりかみ合わないパネルであった。
23) 「地球シミュレータのインパクト」
22日午前後半10:30~12:00には次の3つのパネルが平行して開かれた。
“The 40 TFlop/s Earth Simulator System: Its Impact on the Future Development of Supercomputer”
“Planning for a Homeland Security Research Agenda”
“Truth and Consequences: The Making of discovery Channel ‘Unfolding Universe'”
筆者は第一のパネルに出た。司会はHorst Simon (NERSC, LBL)。Simonはあらかじめ5つの質問をパネリストに与えた。
(1) 35 TFlopsというLinpack結果への驚きはさておき、今後の計算科学全般へのインパクト、特に気候シミュレーションに対してどうなるか。 (2) このように飛躍的な(Simonはquantum-leapをした、と表現した)スーパーコンピュータから、どのような知的・科学的な利点があるか。 (3) 地球シミュレータの成功は、off-the-shelf のクラスタやSMPやアメリカのベクトル計算機にどのような意味があるか。 (4) 地球シミュレータの経験から何を学ぶか。基礎科学のためのスーパーコンピューティングを強化するために、アメリカは何をすべきか。 (5) 単に国同士で競争するだけでなく、高エネルギー加速器のように、国際協力によって地球シミュレータのような大システムを共同で作ることは考えられるか。どうしたら始められるか。 |
John B. Drake (ORNL) は、気候モデリングの専門家である。ただし、彼の名前はプログラムにはなかった。その立場から、気候予測がコンピュータの能力によって制限され、長期の予報をし、しかもアンサンブル平均を取るためにはいかに高能力の計算機が要求されるかを力説した。
地球シミュレータ規模のコンピュータは多くの事を可能にする。ベクトルかキャッシュかは問題ではない。」競争については、「初めから我々は競争ではなく協力している。 |
David Kahaner (ATIP)はこう述べた。
地球シミュレータのインパクトであるが、計算科学の面からは日本が2年間もリードすることの意味は大きい。アメリカはHPCの独占を破られたのだ。 コモディティ・クラスタについては、たしかにコストは安いが、メモリバンド幅など多くの制限がある。“ベクトルは死んでいない”しかし、スカラで何処まで行くかが問題。 アメリカへの意味としては、議会はかなりの投資による研究開発を承認するだろう。 競争と国際協力については、国家の威信が絡んでいて難しい。SX-6もPrimepowerも重要な製品だ。スペースステーションやSSCのような多国籍プロジェクトは政治の次元の問題となってしまう。問題は、どんな科学の分野に焦点を当てるかだ。 |
中村壽(RIST、高度情報科学技術研究機構)はこう述べた。
インパクトについては、「スピードは力だ」ということを皆が認識したことである。新しい発見(例えばナノカーボンなど)への期待がもてる。科学上の利点については、複雑系へのチャレンジにおいて、不可能を可能にすることである。 アメリカとの競争については、「Noblesse oblige(高い身分に伴う義務)、patienceだ」。しかし、”We are Power Guzzler!”(計算パワーを飲み尽くす。パワーはいくらあっても足りない。)、さらには「100 TFlops、1 PFlopsが必要。地球シミュレータの次が重要だ。国際協力については、例としてACES (APEC)とNext Generation Climate Modelsと、SSS200Xを挙げた。[よく分からないが、すでにやられているということであろうか] |
佐藤哲也(地球シミュレータ)も飛び入りで参加した。
地球シミュレータは複数階層の統合的なシミュレーションを可能にした。これを私はholistic simulationと呼ぶ。 |
Burton Smith (Cray Inc.) はこう述べた。
「地球シミュレータは、ダイノザウルスの復活だ。」SC’89のときEugene Brooksが、“killer microsの攻撃に何者も勝てない”と予言したが、嘘であることが分かった。[さりげなくCray社の事業を宣伝]地震波の伝播の図を示したあと、「1000×1000 のLINPACKでは、SX-6はPentium 4よりはるかに速い。」と指摘した。 HPCの問題とシステムを、Type T(トランジスタを重視したピーク性能指向)とType C(相互接続の通信性能重視)とに分けると、地球シミュレータはType Tである。[これはBurtonの見解で、日本側は両方を重視と言うであろう]高価かどうか、それはsocial instrumentをどう見るかと言うことだ。宇宙ステーションよりは遙かに安い。 アメリカへのインパクトとしては、「Is commercial problem all Type T?」 ここから我々は何処に行くのか? Type C計算機を作るのか。地球シミュレータやCray X1やBlue Planetを作るのか。 国際協力については、「アーキテクチャの観点からは、遺伝子が混ざるのはよくない。[船頭多くして船山に登る、ということか?]と否定的だ。 |
突然、Blue Planetが出てきて何かと思ったが、これはLBNLとANLがIBM社と共同で提案しているもので、2005年末までにピーク150 TFlops、実計算で40~50 TFlopsの実効性能を目指している。POWER5を改良しViVA (Virtual Vector Architecture)と呼ぶ疑似ベクトル処理を実現する。[CP-PACSや日立のSR8000を思わせる。]
結局、アメリカもHPCに予算を出せという予定の結論になったようだ。
次回は12月にインドのBangaloreで開催されたHPC Asia 2002。
![]() |
![]() |
![]() |