世界のスーパーコンピュータとそれを動かす人々


3月 13, 2023

新HPCの歩み(第131回)- 1995年(e)-

小柳 義夫 (高度情報科学技術研究機構)

第1回のHPC AsiaであるHPC Asia 95は、1995年9月18日~22日に台北の臺北國際會議中心で開かれた。基調講演はIBMのIrving Wladawsky-Bergerで、並列処理開発を山登りに例えた。招待講演のChen 氏は、「いま新しい会社を創立し、新しいコンピュータを発表したばかりだ。」と大見えを切った。

HPC Asia 95

1) 全体像
第1回のHPC AsiaであるHPC Asia 95は、1995年9月18日~22日に台北の臺北國際會議中心(TICC, Taipei International Convention Center) で開かれた。写真はWikipediaからで、当時はなかった台北101などが写っている。主催者のNCHCは、IBM SP2の5.0 GFlopsで1995年6月のTop500で187位に登場し、ちょうど意気の上がったところであった。

 
   

前年のところで書いたように、1994年2月28日~3月1日に、新竹の國立高能計算中心(NCHC, National Center for High Performance Computing)で準備会(Steering Committee)を行った会議である。19日現在の参加登録者は735人であった。事前登録者の国・地域別内訳は以下の通り。

Australia

13

Austria

1

Hong-Kong

9

India

1

Italy

1

Japan

45

Korea

17

Netherlands

1

New Zealand

1

PRC

6

Philippines

1

Singapore

12

Switzerland

3

Taiwan

470

Thailand

3

UK

4

Israel

1

Sri Lanka

1

USA

70

Total

660

 

この他、展示ベンダの従業員が100名、展示のみの参加者(登録不要)が300~400人いた。

前日9月17日(日曜日)には、関東では戦後最大級の台風12号(国際名Oscar)で東京周辺は暴風雨になり、この日に台湾に出発した人は、飛行機が遅れて大変な目に合った。夜中の3時について、朝まで飛行場で待機させられた人もいたとか。Northwest航空ではこの影響が翌日にも及び、すでに天候は回復していたのに、夜中まで遅れた。

そればかりか、会議の終わり頃には台風14号(国際名 Ryan、台湾名「頼恩」)が南から台湾に近づき、最終日22日(金曜日)には、全島が非常事態となり、会議の全てのプログラムがキャンセルされてしまった。ところが、ちょっと雨が降っているくらいで、風もなく、「ええ、これ台風?」という感じであった。この日の発表予定の人、この日のTutorialを聞く予定の人は災難であった。幸い、飛行機はまだ正常だったので、筆者は便を早めて帰ってきた(変更不可の安チケットだったが、非常時ということで)。その2日後(24日未明)に、台風14号は、九州に上陸した。

2) 展示
企業展示は20以上で、日本からは富士通、日立、日本電気、アメリカからはAT&T, BBN, Convex, Cray, DEC, Fujitsu, HP, Hitachi, IBM, NEC, SGI, Sun, PGI, World Scientific(出版社)や地元企業。研究展示は、台湾の運輸通信省、ETH, NCHC, Ohio Supercomputer Center, Univ. of Wales (UK)など。出展者が多すぎて、展示会場が1階と2階に分かれることになった。IBM社とConvex社は、初日19日(火曜日)の夜、会議場に隣接するGrand Hyatt Hotel の1階と3階において、同じ時間にreceptionを催した。

3) Scientific Program
基調講演(Irving Wladawsky-Berger, IBM)や招待講演(Steve Chen, Steve Nelsonなど)はレベルが高かったが、投稿論文が低調で、遅刻や取り消しが多かった。投稿論文数は180であったが、そのうち100件は台湾内からの投稿であった。137件を採択し、20件をポスターに回した。

4) 基調講演(Irving Wladawsky-Berger, IBM)
Irving は、IBMにおいて RS6000やSP-seriesの開発の責任者であり、今回は、”Scaling the Future with Parallel Applications” と題して、並列処理開発を山登りに例えながら基調講演をおこなった。

 山に登るには慎重に準備し、用具を整えてから出発する。我々は並列処理の頂上に登るのである。技術の進歩によって、チップも、メモリも、ディスクも、光ファイバも安価になり汎用品commodityとなった。この安価な部品は、PCにとっても魅力的であり、client/server modelにとっても魅力的である。SMP (Symmetric Multi-Processor) は、メインフレーム以来の成熟した技術であり、マイクロプロセッサでも有効である。SMPはscalableではなく、すぐvon Neumann bottleneck にぶちあたるが、そこそこのレベルのscalabilityには有効である。さらに、SMPはより大きな並列計算機の要素にもなる。

 なぜscalabilityが必要なのか? 我々の扱うデータはますます大きくなり、ハードウェアも増大する。応用プログラムはますます正確になり、より大規模になり、より知的、よりfriendlyなインターフェースが要求される。これらすべてはシステムの能力の増大を必要とする。これがscalable computerが必要な理由である。これは、並列処理によってのみ可能だからである。

 IBM社はこのscalable parallel processing system にどう対応してきたか? 確かに数年前、われわれはこの山の前にいた。しかし、現在SPは600台も売れている。約半分は科学技術計算のため、他の半分は商業的な利用である。並列計算のアルゴリズムは大変難しい。メインフレームの経験では、応用の規模が増大すると、複雑度(計算量)は非線形的に増大する。古い応用プログラムを並列化することは難しいので、新しい応用プログラムを開発しなくてはならない。現在は1年前より多くの並列ソフトが用意されている。コンパイラも改良され、オブジェクト指向も進歩している。並列システムの信頼性もメインフレームと同様なところまで進歩している。教育も大切だ。サポートする人材も必要だ。並列計算機は、less arcane, more user-friendlyな(秘術でなく、よりユーザに使いやすい)ものになりつつある。

 RDB (Relational Database)にしてもOO (Object Oriented)にしても、新しいアイデアが新しいマーケットになるには時間がかかる。なにかのチャレンジに立ち向かうことによって技術が進歩する。科学技術計算市場ではGrand Challengeをターゲットにした。しかし、scalabilityにはより広い適用可能性がある。さらに、商業的応用もある。SPをWWW-server, Video-on-Demand server, Through-put server として使う人もいる。並列はniche market と思われていたが、いまや拡大して大きなサーバとして活用されている。

 もちろんさまざまな困難はある。しかし、山に登る人にとって、頂上に到達するためには何でもする。

(a)実世界および仮想世界のシミュレーションは、より高度に、より面白いものになる。そのためには、より巧妙な技術が必要とされる。

(b)また、並列計算機は、マルチメディア情報サーバとして使われる。それには、PB(ペタバイト1015 bytes)の容量が必要である。そのためには、新しいI/O技術を開発しなくてはならない。

(c)情報の配布だけでなく情報の解析も重要である。data mining には知的な処理である。

(d)だれでも、いつでもというaccessibilityの重要性が増している。ネットワーク、特にInternetの技術は重要である。SPをInternetのトラッキングシステムとして使っているnetwork providerもある。オリンピックでは、SPでWWWサービスが予定されている。全米オープンテニスでも、WWWサービスがなされた。ネットワークの他の端には人間がいる。visual interface の重要性が高まっている。cognitive challengeは、人間の脳に近づくことを追求している。

 山登りは、どこまで行くのだろう。hard work が待ちかまえている。不撓不屈の(persevering)努力が必要である。一つの問題が解決しても、より大きな問題が出て来る。high performance computing に対するfresh view が要求される。研究はますます必要である。わがIBMは研究開発のインフラを持っている。しかし、it does not stand alone.アジア、アメリカ、ヨーロッパの協力が必要である。同様に、発明を研究所からどう取り出すかが重要である。教育も重要、投資も必要である。頂上に達すれば、見晴らしがきく。

“We are on our way to the summit.”(まだ頂上への途上だ)

質疑応答

Q:研究資金が大学に流れる秘策は?

A:納税者に対して論証しなければならない。何度も強調することが重要。

Q:システムソフトウェアにおけるスケーリングとは?

A:古い問題だ。しかし、サイズはずっと大きくなった。進歩は遅い。並列データベース、ファイルトランザクションなど。Just hard work!

 

5) Steve Chen (CHEN Systems Inc.)
Steve Chen(陳世卿)は”HPCC: The Past, Current and Future”と題して招待講演を行った。SSI社が破産してしばらく音沙汰なかった、かのSteve Chen氏が再び口を開いた。ご存じのように、Chenは、Cray Research の設計者としてXMP, YMP などの並列ベクトル機を設計したが、その後の方向について社の執行部と意見が合わず、スピンオフしてIBM社などの資金援助を得てSSI (Supercomputer Systems Inc.) 社を創立した。92年にMinneapolisで開かれたSupercomputing 92 では、「新しいコンピュータはいつできるのか」という質問に、”Soon, very soon.” と応えていたが、その年の末、破産してしまった。その後、音沙汰なくどうなったかと不思議に思っていたところであった。Chen 氏は、「いま新しい会社を創立し、新しいコンピュータを発表したばかりだ。これまで、私の話が聞こえていなかったとすれば、それは私が一生懸命働いていたからだ。」と大見栄を切った。

(a) 過去について

 私は長年にわたってhigh performance computerの設計をやってきた。その間に何が起こったか。

・20年間、生活のなかに多くの成果をもたらした。バイオ、医療のシミュレーションなど。
・多くの人がさまざまな計算機に触れるようになった。HPCCが始まる前、わざわざドイツに行って計算した人もいた。
・計算のアルゴリズムが進歩した。
・新しい世代のソフトウェア。Berkeley version of UNIX はおもちゃだと言われたが、結局みんな使うようになった。
・Kuck の下で勉強した学生は、人間は逐次的に思考すると習った。しかし、並列計算は実用的な計算だ。

(b) 現在

 いま、並列ベクトル計算機は科学のworkhorse(使役馬)となった。HPCは期待の星である。more cost-effective and scalable. 5年前には考えられなかったが、今は非常に強力なマイクロプロセッサがある。Cray-3は2nsという最高級のクロックを誇ったが、そのうちにCMOSのマイクロプロセッサでも実現できるだろう。問題はcoolingである。 HPCは混乱している。SPP, SMP, MPP, WS cluster など。しかも、ベンダのリストは短くなっている。CMOSを使う汎用品(commodity)の技術は急速に進歩した。ネットワーク、周辺機器など非常に安くなった。ソフトウェアにおいても、並列技術が進歩。低コストの領域に収束しつつある。

(c) 将来

 部品は大量生産の汎用品になり、技術は成熟し、広い分野に拡散している。これまでのような、ハード、ソフト、応用の垂直デザインはもはや維持できない。静かに消えていく。GaAsは通信のみに使われている。マイクロプロセッサは非常に複雑になったので、選択の幅は小さい。汎用品を使う他ない。計算と通信の技術は収束しつつあり、新しい技術と応用(例えばビデオサーバ)を生んでいる。技術の寿命は短くなった。よいことは、並列処理がmain stream になったということである。

(d) 主要な市場動向

 Client/serverなんてまやかしだと言われていたが、もはや違う。ゆっくりだが確実に進化している。 Desk top が強力になったので、分岐点がよりフロントに移動した。現在の計算機の動向は、up-sizing, down-sizing, mid-sizing の3方向で特徴づけられる。

・up-sizing — デスクトップが非常に強力になったので、これまでのメインフレームや、ベクトル計算機の役割を担うようになり大規模化した。より、中央化の方向である。
・down-sizing — 中央計算機でやっていたことがデスクトップでできるようになった。
・mid-sizing — これまでのミニコンピュータ(AS400, HP3000, VAX)からオープンシステムへ。最も数の大きい売れ筋は、up-sizing である。

(e) クライアント/サーバ(C/S)計算とは何か?

 サーバは拡張中。よりロバストなものへ。わたしは、新しいサーバがいかにあるべきかを考えてきた。C/Sの特徴は、収益性と、変化の激しいビジネスの世界に対応できることである。

(f) C/Sの次の動き

 分散アーキテクチャには3つの階層(tiers)がある:data warehouse, data transaction, application logicである。知的なクライアント・デスクトップは、企業データに対して矛盾のない統一的なアクセスを保証しなければならない。スケーラブルなSMPクラスタは企業のサーバの基盤となるであろう。企業全体のサーバがsingle system imageで扱えるようになる。

(g) SMPの弱点

・スケーラビリティに限界がある。
・入出力の性能が不十分
・メインフレームと比べると、システム管理や性能ツールが不十分
・信頼性も可用性も不十分
・システムの接続が、オープンでなく標準化されていない(SCSIの接続でさえやっかい)

(h) 現在のMPPの弱点

・応用のためのパッケージソフトウェアがほとんどない
・応用自体に並列性が内在している場合しか有用でない
・チューニングが困難で、しかもポータブルでない(マシン依存)
・OSや並列プログラムモデルに標準がない
・開発するのにも所有するのにも高いコストがかかる

(i) 新世代のSMPサーバ

・高性能でスケーラブルなCPUとI/Oが可能で、マルチタスクかつマルチユーザをサポート
・メインフレーム並みの信頼性
・先進的な通信のためのオープンな接続オプション
・汎用的なミドルウェア
・結合が強く、ロバストなシステム
・高度なチューニングのツール
・リモートでメンテナンスが可能
・多くのベンダに対する相互運用性
・豊富な、アプリ開発環境
・分散並列クラスタのアーキテクチャを、単一システムに見せる技術

(j) オープンなシステム間接続

 Open Systemは、ビジネスにも科学技術計算にも使われている。いずれも、分散並列クラスタ環境に向かうであろう、市場は広く、ニッチではない。

(k) まとめ

・HPCCは根本的に変化するであろう。
・90年代後半には、汎用品(commodity)の部品に基づいた高性能のSMP/Cluster system が主流となるであろう。
・スーパーコンピュータから家庭のデスクトップまでの並列計算技術は一つに収束するであろう。

 

要するに、commodityチップ(PentiumかP6か?)を用いてSMPを作ろうということらしいが、これまでのChen氏の路線からは大規模な方向転換であろう。この路線はまあ常識的とは思うが、とっくに多くの計算機会社はその方向に走っており、もはやChen氏の会社が追いつくとも思えない、というのが筆者の印象であった。その後9月22日に、Chen SystemはCS-1000というSMPサーバを発表したが、会社は1996年にSequent Computer Systems社に買収される。

6) Steve Nelson (Steve Nelson and Associates for Cray)
Steve Nelsonは”Higher Performance Computing: How High, How Soon, and How Much?”と題して招待講演を行った。Nelson氏は、Cray 社にいたころ、C90, T3D などを設計した。

(a) Some Technology and Architectures Observation

 1960年から1993年までのCPUとDRAMの進歩のグラフを見せ、DRAMの容量は増えたが、アクセス時間はそれほど短くなっていないことを指摘。SRAMは速いので、cacheを使って速くする。ベクトル計算機は高かったが、本質的な理由はない。ベクトルとスーパースカラと比較すると、C90は2個のパイプを持ち、一度に17個の命令を並列に実行する。ところが、N-wayのスーパースカラは、命令発行の複雑度がN^2に比例する。ベクトルでは、多重度に比例した複雑度で済む。しかも、4-wayのスーパースカラでも、平均的な並列度は1.5命令/クロック程度である。

 また、cacheの改良が行われているが、数値計算には適さない。数値計算の為には、1語長ほどの短いライン長、高い連想度のセットアソシアティブキャッシュが大量に必要で、とても無理だ。マルチプロセッサではもっと深刻、coherency とか snoopingとか。CPUのクロック単位の、メモリシステムのレイテンシは、Cray-1では10であったが、T90/32では50になっている。このうち純粋のメモリアクセス時間は小さな部分で、大部分はメモリ制御システムである。

 4プロセッサの場合、多段スイッチを使った空間複雑度と、時間複雑度との対比。分散メモリでは、将来の大規模マルチプロセッサに対応できる反面、ソフトは複雑で、mappingの問題が生じる。

 CrayのSCX Channelは、バンド幅1 GB/sでリング接続、信頼性が高く、ホットスワップが可能なのでメンテナンスが容易である。

  Evolution of UNICOS: 現在のところ UNICOS MAX, UNICOS mk があるが、将来は、micro-kernel based UNCOS に統一する。

(b) 市場の変化

  Science/Technology 市場は、政府研究所を中心としたのmission oriented なものが中心で、それに産業界の問題が加わってきたが、commercial な市場では、意志決定とトランザクション処理であり、しかもどんどん需要は増大している。分析によればHPCの市場の収入は減少しつつある。これは、主にIBMとDECのメインフレームの減少による。将来、2~2.5B$でフラットになるであろう。反面、ワークステーションの市場は増大し、80%に及んでいる。

 今後application migration が起こり、MPPとSMPとに分離するであろう。MPPは、ISV (Independent Software Vendors) が少ないという問題があり、SMPは大きな問題が扱えないという弱点がある。

(c) 2010年の予想

 去る7月にカリフォルニアでTeraflops Workshop があった。私は、非常に懐疑的であった。でも、今から15年後にどうなるか予想してみよう。

 メモリが主たる価格を占め、プロセッサはほとんどただになる。つまり、プロセッサはメモリに埋め込まれるであろう。2010年には、0.07μの技術が実現しているから、DRAMメモリなら64Gb、cache用のSRAMなら300Mb/cm2であろう。リソグラフィーには乗り越えるべきギャップがあるが、多分乗り越えられるだろう。[著者注:2010年に製造開始した「京」では45 nm=0.045μmが実用化。]

 考えられるProcessor-in-Memoryの筋書きは、700mm2の面積をDRAMにして32Gb(4GB)の共有メモリ、300mm2を4個のマイクロプロセッサ(うち、200mm2をcache領域)にして、合計1000mm2。これを625MHzで動かす。さらに、5GB/s per link の 3D router をも埋め込む。チップ当りの発熱は3W程度のはずである。このチップを、32×64×64の3次元に接続すれば、全体で1.3 Peta Flops の計算機となる。

 

7) その他の総合講演

(a) Plenary talk “Trends in Supercomputer Architecture and Issues of Benchmarking” (Ken-ichi Miura 三浦謙一 Fujitsu America)
(b) Plenary talk “Hitachi’s High Performance Computer Overview”(Shun Kawabe河辺竣, Hitachi Ltd.)
(c) Plenary talk “Present and Future of High Performance Computing” (Tadashi Watanabe 渡辺貞 NEC)
(d) Plenary talk “Teraflops Computing-Commercially Viable?” Steve Wallach (Convex)
(e) Plenary talk “High-Performance Computing in Transportation Aerodynamics” (藤井孝蔵、宇宙研)

いずれも熱演で、活発な質問も出た。

8) PanelとRound Table
Panel “Benchmarking High Performance Computers: Mission Impossible?” (A. J. van der Steen, moderator, Charls Grassl, Cray, Y. Oyanagi, U. Tokyo, Danny L. Shieh, IBM, Ken-ichi Miura, Fujitsu)には筆者もいやいや引っ張り出されて、議論に加わった。モデレータと筆者以外はvendor側なので、筆者としては、scienceとしてのベンチマークという立場を強調した。特に、ベンチマークが計算機購入の指針、または販売宣伝の指針(Benchmarkettingという言葉もあるようだが)のみではなく、システム設計の指針でもあるのだ、という視点を強調した。この点はある程度賛成を得られたようである。この他、以下のパネルもあった。

(a) Round Table “Globally Scalable Computing Trends, Issues and Directions” (M. H. Kalos, 内田(富士通)、島崎眞昭、富田眞治、Steve Nelson, Carol Crothers)
(b) Panel “Network of Workstations vs. Massively Parallel Processors: Is there a Winner?”

9) Tutorials
会議の前日と最終日に合計17件のTutorialsが準備されていた。最終日22日予定の分は、台風接近によりすべてキャンセルされた。

次回は、San DiegoでのSC95である。日本の大学・研究機関からも多くの展示が出展された。

 

left-arrow   new50history-bottom   right-arrow