世界のスーパーコンピュータとそれを動かす人々


提 供

9月 14, 2015

HPCの歩み50年(第55回)-1996年(c)-

小柳 義夫 (高度情報科学技術研究機構)

アメリカのクリントン政権は、HPCとネットワークをこれまで以上に連携する情報技術戦略を進めた。ASCI計画の最初のスーパーコンピュータASCI Redは年末に設置され、1997年6月のTop500で筑波大学のCP-PACSを破ることになる。

アメリカ政府の動き

1) アメリカ政府CIC R&D計画
HPCC (High Performance Computing and Communication、1992年度~1996年度)は1996年9月(年度末)に終了したが、その成果を踏まえて、これを拡張したより包括的なCIC (Computing, Information and Communications) R&D計画(1997年度~2001年度)が策定された。1996年2月に1997年度大統領予算教書の補足書での詳細を公表した。研究投資の項目としては、

a) 高性能コンピュータシステムの開発
b) 地球規模のネットワーク技術
c) ソフトウェア開発技術と応用ソフトウェア開発
d) 信頼性と安全性
e) 巨大な分散知識リポジトリの管理およびアクセスの向上
f) ヒューマンインタフェース技術

などが上げられている。

1996年10月、クリントン政権は、21世紀に向けたネットワーク基盤の構築に向けてNGI (Next Generation Internet)構想(1998年度~2002年度)を発表した。

アメリカ政府は、HPCとネットワークをこれまで以上に連携する情報技術戦略を進めることとなった。

このような流れの中で、Internet2プロジェクトが多くの大学の研究者によって始まり、1997年には正式な非営利団体として発足した(後述)。

asci red5_800x600
ASCI Red

2) ASCI Red
ASCI計画の最初のスーパーコンピュータであるASCI Red(またはASCI Option Red)は、1996年末、Intel社によりSNL (Sandia National Laboratory)に建設された。基本的にParagonの技術を継承したものであるが、ノードプロセッサがi860でなくPentium Pro(200 MHz)であることと、ネットワークが2次元でなく3次元メッシュである点が異なっている。

HPCwireによると、Intel社は1996年5月に64ノード2キャビネットの初期システム(20 GFlops)をSNLに納入した。1ボード当たり1ノードだそうである。最終版はボード当たり2ノード。大原雄介の記事によると、1996年10月7日には208 GFlops (Linpackらしい)、11月22日には327 GFlops、12月4日には1 TFlopsを超えた。1997年6月のTop500リストでは、7264ノード(Rpeak=1.453 TFlops)を用いてLinpackで1.068 TFlopsを達成し、前回1996年11月の1位CP-PACS (368 GFlops)を抜いてダントツの1位を獲得している。翌年1997年6月12日には全キャビネットが納入され、1997年11月のTop500では9152ノード(Rpeak=1.830 TFlops)でLinpackで1.338 TFlopsを達成している。

ASCI Redはその後1999年にプロセッサをPentium II (333 MHz)に差し替えて2.379 TFlopsまで増強された。

3) ASCI Blue
1998年にピーク性能3 TFlops以上を実現するというASCI Blueは、MPP構成のASCI Redとは異なり、SMPクラスタ方式のシステムとすることになり、1996年2月20日にRFP(提案依頼書)が公開された。大原雄介の記事によると、いきなり最終システムの提案を要求するのではなく、少なくとも2つのステージ、ID (Initial Delivery)とTR (Technology Refresh)が必要で、さらに多くのステージを踏んでもよいということになっていた。提案は3月26日に締め切られ、IBMとSGI/Crayの2つの提案が候補に残った。IBMはSP2をベースにシステムを構成することを提案したが、結果的にはPowerPCのクラスタとなった。SGI/Crayの提案は、Origin 2000(後述)というR10000ベースの32並列のcc-NUMAシステムをHIPPIによって結合するという提案で、TRでは4096プロセッサまで増強するという無謀にも見える計画であった。

DOEは、この2つの提案から一つを選択するのではなく、当初の予算を大幅に増額して、それぞれLLNLとLANLとに設置するということになった。LLNLにはIBMのシステムを設置してASCI Blue Pacificと名付け、LANLにはSGI/Crayのシステムを設置してASCI Blue Mountainと呼ばれることになった。

1996年9月下旬には、ASCI Blue PacificのIDがLLNLに設置された。ノード当たり112MHzのPowerPC 604が1個で、512ノードであった。設置後わずか48時間で稼動したそうである。TRに当たるASCI Blue Pacific SST(1999)は、332 MHzのPowerPC 604evをノード当たり4個おき、1464ノード(5856 CPU)から構成されている。

ASCI Blue Mountainは、結局、250 MHzのR10000(500 MFlops)を128個(64ノード)からなるcc-NUMAシステムを48個結合したものとなった。初期のシステムは1996年第4四半期から納入された。最終的には、CPU数は6144個、ピーク性能は3.072 TFlopsであった。

4) 米国Petaflopsプロジェクト
アメリカ政府のNSF, NASA, DARPAは10月25日に以下の8つのPetaflopsプロジェクトを選定し、予算を付けた。

a) Andrew A. Chien and Rajesh K. Gupta, UIUC
b) Peter M. Kogge et al., U. of Notre Dame
c) Vipin Kumar and Ahmed Sameh, U. of Minnesota
d) Stephen L. W. McMillan et al., Drexel U., IAS, Princeton, 東京大学(牧野), UIUC, Princeton U.
e) Paul Messina and Thomas Sterling, CalTech
f) Jose A. B. Fortes et al, Purdue U. and Northwestern U.
g) Josep Torrellas and David Padua, UIUC
h) Sotirios G. Ziavra et al, New Jesey Inst. of Tech. and Wayne State U.

これらの成果は1996年10月27日のFrontiers ’96 Conference (Annapolis, Md.)で発表された。

5) NERSC
1996年4月、アメリカのNERSC (National Energy Research Supercomputer Center)はLLNLからLBNLに移転した。

この機関はDOEにより1974年にCTRCC (Controlled Thermonuclear Research Computer Center)としてLLNLに設置され、CDC6600、CDC7600、Cray-1、Cray-2などが設置されていた。1980年代の前半、NMFECC (National Magnetic Fusion Energy Computer Center)と改称された。1990年代前半にもう一度改名され、NERSCとなった。

前に述べたように、筆者は12月にLBNLを訪問し、NERSCで”CP-PACS”と題してセミナーを行ったが、よく考えたら移ったばかりだったようだ。LinkedInによると、Horst Simonも1996年2月にSGIからNERSCのDirector of Computational Research Divisionに転職したばかりだった。

6) Internet2
1995年にvBNSが始まったが、これはスーパーコンピュータセンターと教育機関を結ぶものであった。これに対し、研究・教育コミュニティーは独自のネットワークを構築するためにInternet2を始めた。Internet2プロジェクトは1996年、EDUCOMの後援の元、34の大学の研究者らによって始まった。正式な組織は1997年、University Corporation for Advanced Internet Development (UCAID) という非営利団体として発足。その後名称を Internet2 に変更し、”Internet2″ を登録商標とした。

標準化関係

1) HPF
HPF Forumは精力的に作業を進めた。日本人はほとんど出席していない。出席者に名前を見るのは三浦謙一(富士通アメリカ)や妹尾義樹(日本電気)など。私の資料では、1996年には、January 9-12 Houston, Texas、March 13-15 Arlington, Texas、May 1-3, Arlington, Texas、July 10-12, Burlingame, CAの記録がある。10月20日、HPF 2.0原案が発表された。

HPF 1.0からの拡張としては、

a) データ分散の新しい様式
INDIRECT mapping, SHADOW regions, REALIGM, REDISTRIBUTE
b) 新しい並列制御
ON clause, TASK_REGION directive
c) 非同期I/O

など。実装はなかなかむつかしいようである。

HPFの問題点として、研究者主導でなんでもかんでも取り入れすぎて仕様が膨大になりすぎたこと、データ並列だけを掲げてタスク並列を導入しなかったこと、Fortran 90のよい処理系の開発が遅れたこと、技巧を駆使した実用Fortranプログラムに対応できなかったことなどが上げられる。

HPFの実際の有効性についてはよく分からないが、News Groupのcomp.parallelの5月3日にDECの研究者により投稿されたクラスタの性能データの一部を紹介する。これはDEC 3000/900 WS (EV45 275Mhz, GIGAswitch/FDDI crossbar switch)の上でDECのHPF/F90コンパイラを使い、3次元の差分法をred-black法で解いたものである。HPCN (Milano)で発表したもののようである。

プロセッサ数 1 2 4 8
PVM(計算時間) 510 sec 299 sec 144 sec 76sec
PVM(速度向上率) 1.0 1.7 3.5 6.7
HPF(計算時間) 510 sec 274 sec 181 sec 67 sec
HPF(速度向上率) 1.0 1.9 3.9 7.6

PVMより少しよい、との結論であるが、キャッシュの効果がどの程度かが問題であろう。このデータはもちろんHPF ver.1である。

2) NAS Parallel Benchmark 2
1996年1月、NASAのNAS部門はNPB 2を公表した。NPB 1は、アルゴリズムだけを指定する「紙と鉛筆」方式だったので、ベンダが総力を挙げてチューニングを行って結果だけを報告し、使ったソースコードは公開されなかった。これではベンチマークの結果が意味のあるものにならない、という反省があった。

NPB 2では、NPB 1の8つのベンチマークのうち5個をソースコードで与え、修正されたソースコードを公開することとした。NPB 1ではAとBのサイズがあったが、コンピュータの進歩によりサイズCを追加した。

3) Globus Project
前年1995年のI-Wayと呼ばれるメタコンピューティング実験の成果をもとに、グリッド環境を構築するために必要な基盤技術の開発を行うGlobus Projectが始まったが、1996年、オープンソースプロジェクトして確立し、その後は国際協力によって開発作業が進められた。2005年10月にはGlobus Allianceが作られた。

アメリカ・ヨーロッパの学界の動き

1) SC96
Supercomputing 96は、次回に詳しく述べる

2) ICS会議
ACMが主催するICS (International Conference on Supercomputing)の第10回は、5月25~28日、アメリカのPhiladelphiaで開催された。ACMからプロシーディングスが発行されている。

3) Manheim Supercomputer Seminar
第11回目は、1996年6月20~25日にMannheim市内で開催された。出席者141人。基調講演はHorst Körner, DLR, Germany。

4) HPCN 1996
1993年にヨーロッパベースの国際会議として始まったHPCNは、4回目をベルギーのBrusselsで1996年4月15~19日に開催した。事務局の発表によるとテクニカルセッションの参加者は450名、展示をあわせての入場者は946名(展示者を除く)とのこと。企業出展は約40件。プロシーディングスはSpringerから発行されている。CrayがSGIに吸収された(2月)ばかりで、企業展示やベンダーセッションが微妙な感じであった。HPF Workshopも開かれ、HPF1.0の評価が議論された。日立からはSR-2201のモックアップ、HARP-1E、CPUモジュール、パッケージ、ボード実機などが展示され、Linpackの暫定値が発表された。IBM、SGI、CONVEX、Fujitsu、NEC等主要メーカは全て実機を持ち込んだデモンストレーションを行い、迫力あるプレゼンをしていたそうである。筆者は参加していないのですべて伝聞である。

5) ScaLAPACK
分散メモリMIMDコンピュータのための線形計算ライブラリScaLAPACKがこのころ開発された。LAPACKはBLASルーチン群に基づいているが、ScaLAPACKは、通信ルーチンのBLACSと並列BLAS (PBLAS)に基づいている。初期のBLACSはPVMで通信を記述していたが、その後MPIに変更された。ScaLAPACKの1.2版が1996年5月に公開されている。

6) Manna Supercomputer
ドイツのGMDのFIRST (Forschungszentrum für Innovative Rechnersysteme und –technologie, English: Research centre for innovative computer systems and technologies)はSUPRENUM Projectが終了した1990年ごろからi860を用いた超並列コンピュータMannaの研究開発を始めていたが、1994~96年頃完成したようである。ノードは2個のi860と32 MBのDRAMから成り、階層的なクロスバで結合する。独自に開発したPEACE (Program Execution And Communication Environment)というOSで制御され、演算とオーバーラップする通信隠蔽を可能にする。2つのi860 processorsは、一方を演算、他方を通信に使うモードの他に、両方とも演算に使うモードおよびVSM (Virtual Shared Memory)によってglobal address space(今風に言えばPGAS)を使うモードがある。1024ノードまで接続可能と書かれているが、性能データは16ノードまでである。

アジアの動き

1) HPC Asia準備
2回目のHPC Asiaは1997年4月28日~5月2日にソウルで開かれることになるが、そのSteering Committeeが、Kahaner委員長の主導のもと、ハワイのMHPCC (Maui HPC Center)で1996年7月11~13日に開かれ、出席した。MHPCCのCandace A. Shirleyが世話をしてくださった。8日から10日までは近くのホテルで開催されていたIBMのイベントに招待されているということで紛れ込んだ(実際には話はついていなかったもよう)。組織委員会のあと台湾のWu Kuo Weiさんの車でHaleakalā山頂までドライブした。

筆者はこれでハワイの主要4島(Oahu, Kauai, Hawaii and Maui)すべてに足跡を残した。

CP-PACSのところで述べたように、12月8~14日にはPDG関係の共同研究でLBNLに行ったが、組織委員の Sangsan Lee(SERI, Systems Engineering Research Institute)もたまたまLBNL (NERSC)に来ており、喫茶店でHPC Asia会議について意見交換し招待講演を承諾した。

1996年12月24~30日、家内と年末休暇旅行でバリ島に出かけたが、ヒンドゥー教のTaman Ayunn寺院で、突然インドネシア人の男から”Perhaps I know you.”と言われてびっくりした。なんとSteering CommitteeメンバーのDr. Surjadi Slamet君(インドネシア大学)であった。かれはインドネシアで知っている唯一人の人物であり、ジャカルタから2000 Kmも離れたところで出会ったのにはびっくりした(まあ観光地の方が会いやすいのかもしれないが)。翌日、かれの親族と一緒に、Ubudのチョコルダ王家の盛大な葬儀行列を見に行った。かれと会わなければこんな経験はしなかったと思う。

2) 神威I
中国は、Alpha21164を使った神威Iを完成した。ピークは312 GFlopsであった。2011年の神威藍光はAlphaアーキテクチャの独自開発チップであるが、これはAlphaチップを購入して組み立てたらしい。詳細は不明である。駐日中国大使館のページによると、1992年に国家並行計算机工程技術研究中心を設立し、「神威」シリーズの構成のコンピュータを開発してきたとあるので、その一環なのであろうか。山谷剛史の記事では、1999年に「神威I」(384 GFlops)を作ったとある。

海外企業の話は次回。なんとCray Research社がSGIに吸収されてしまった。

(タイトル画像: ASCI Red)

left-arrow 50history-bottom right-arrow