世界のスーパーコンピュータとそれを動かす人々


10月 24, 2016

HPCの歩み50年(第100回)-2003年(f)-

小柳 義夫 (高度情報科学技術研究機構)

SC2003では、地球シミュレータを凌駕するべきマシンとして、IBMはBlueGene/Lを、CrayはRed Stormを展示していた。Petaflopsパネルが3コマも開かれ、盛会であった。Top500ではVirginia工科大学が1100台のMacを結合して3位に食い込んだ(愛称Big Mac)。地球シミュレータは相変わらず1位であるが、Top100の日本マシンは6件に減ってしまった。

SC2003

1) 全体像
SC2003: High Performance Networking and Computing Conference国際会議(通称 Supercomputing 2003) は、16回目の今年、”IGNITING INOVATION”のテーマのもとで、アリゾナ州フェニックスのPhoenix Civic Plaza Convention Center で11月17日から24日まで開催された(educational program やtutorialは15日から)。総参加者は7641名、technical program参加者は2390人で、いずれもこれまでの最高であった。詳細は筆者の報告参照。

フェニックスはアリゾナ州の州都で、人口は100万、周辺を入れて250万。会議場のあるダウンタウンには、アリゾナ州立大学のダウンタウンキャンパスやホテル、博物館などはあるが、中心部の一角を除いてほとんど商店もなく、ド田舎に来た感じである。1ヶ月前には華氏100度(摂氏38度)を超えどうなることかと思ったが、会議のころは摂氏10度~25度で、乾燥していることもあり快適であった。朝晩は寒いくらいである。

会場のネットワークSCinetはますます増強され、会場内のファイバーの総延長は55マイル以上、バックボーンは40 Gbps、外とはAbilene, ESnet,TeraGridなどでつながっていると自慢していた。特にバンド幅チャレンジのためにQwestをはじめ13の会社の協力を得たとのこと。無線LANを全会場に張ったが、ユーザも多くなり、使い勝手は時々悪くなる。

Access Grid技術をつかって、世界中にこの会議の様子を双方向に中継するSC globalは、2001年に始まり、2003年にはさらに規模が大きくなった。今年は世界中6大陸(去年は5大陸)をつないだと自慢していた。昨年好評だった産総研のグリッドカラオケも実施したようである。SC global 独自に基調講演を設け、Larry SmarrとHarry Gruberが講演した。会期中他のプログラムと平行して設けたSC global独自のセッションも盛んであった。

2) 企業展示
主催者発表によると、今年は128の企業展示があり、このうち45社は新顔とのことである。 全部詳しく見たわけではないか気が付いたところだけ。

a) IBM
IBMはRegattaなどの他に、Blue Gene/Lの1ボードを展示していた。ちょうど家庭用の皿洗い機の大きさの箱に収まっていた。Blue Gene/LはなんとTop500の73位を取ったという。1024 processorsでpeak 2048 GFlopsということは、chip上の2 processorsのうち一方だけを計算に使って、one rackということであろうか。LINPACK値が1435ということはメモリの小ささ(256 GB)を考えるとかなりの快挙である。現在のところ予定の700MHzには達していない(500MHz?)が、次のチップではフルスペックのものができるとのこと。

b) 富士通
富士通は、PRIMEPOWER HPC2500の他、Intel chipを使ったPRIMERGY serverを展示していた。後のベンダセッションを参照。

c) 日立
日立は、SR11000のチップや筐体イメージを展示していた。これもベンダセッションを参照。

d) 日本電気
NECは、ベクトル計算機SXシリーズの他、Itanium2を使ったExpress5800/1000サーバやTX7サーバを出展していた。

e) Cray
Crayは、X1とともに、Sandiaに入れるRed Stormを商品化したRGなどの将来の機種を展示。これもベンダセッションを参照。

f) Sun Microsystems
Sunのブースにたくさんヘルメットがおいてあるので、設営用のものかと思っていたら、SDSCの開発したROCKSというtoolkitを用いて、なんと目の前で128ノードのlinuxクラスタを1時間15分で組み立て、応用を走らせるというデモをやっていたようだ。担当はPhil Papadopoulos(あれ、彼はLANLにいたと思っていたが?)。

3) 研究展示
研究展示(Research Exhibits)は91件で、新顔は15。今年は研究展示の方が面積的に上回った。

研究展示のうち日本からは18件、産総研、大阪大学サイバーメディアセンター、同志社大学、GRAPEプロジェクト(理研・東大)、東北大学流体研、東大生産研、ITBL、北陸先端大学、宇宙航空研究開発機構(JAXA、旧宇宙開発事業団、航空技術研究所, 宇宙航空研究所が合併した独立行政法人)、原子力研究所計算科学技術推進センター、奈良女子大、NAREGI (National Research Grid Initiative)、理化学研究所、高度情報科学技術研究機構(RIST)、埼玉工業大学、埼玉大学、東京大学データレザボアプロジェクト、筑波大学計算物理学研究センターである。いろいろ組み合わせは変わっているが、昨年出展したなかで今年出さなかったのは地球シミュレータだけであった。いろんな人から「どうなったのだ?」とおたずねやおしかりがあった。#341 として JAMSTEC/Earth Simulator は登録されており、直前に中止したらしい。PC Cluster Consortium(石川裕)は、企業展示の枠で出展していた。アジア太平洋地区の研究展示は昨年大変ひどい扱いを受けて抗議を申し入れていたが、今年は「アジア村」は作られず、ポイント(過去の出展履歴で決まる)相応のよい場所を割り当てられた。

4) Technical Papers
今年のプログラム委員会には日本から松岡聡氏(東工大)が入っていた。このほかグリッド関係で協力した人もいたようである。 論文投稿総数は207で、その中から60が選ばれた。テーマとしては、性能評価12,グリッド9,アーキテクチャ3,クラスタ3,ツール3,コンパイラ3、runtime 3,ソフトウェア3,ネットワーク3,アルゴリズム3,応用3,I/0 3,通信2,スケジュール1、それにGordon Bell 賞関係6といったところであろうか。

日本が関連した発表としては、

-Kengo Nakajima, RIST “Parallel Iterative Solvers of GeoFEM withSelective Blocking Preconditioning for Nonliner Contact Problems onthe Earth Simulator”
-Makoto Taiji, Tetsu Narumi, Yousuke Ohno, Noriyuki futatsugi, Atsushi Suenaga, Naoki Takada, Akihiko Konagaya, “Protein Explorer: A Petaflops Special-Purpose Computer System for Molecular Dyanmics Simulations”

およびGordon Bell賞関連で

-Junichiro Makino, Toshiyuki Fukushige, HIroshi Daisaka, eiichiro Kokubo, “Performance Evaluation and Tuning of GRAPE-6 — Towards 40 ‘Real’ Tflops”
-Dimitri Komatitsch, Chen Ji, Jeroen Tromp, Seiji Tsuboi, “A 1.6 billion Degrees of Freedom, 5 Teraflops, 2.5 Terabyte Earthquake Simulation on the Earth Simulator”

の計4件であった。

5) China HPC Workshop
この機会を利用して、ATIP (Asian Technology Information Program, D. Kahaner) は”China HPC Workshop Program”を16日(日曜日)8:00~20:00に近くのHyatt Regency Hotel で開いた。SCとは直接の関係はない。私は当日に到着したので一部だけ顔を出したが、中国からの参加者の他、アメリカ人、日本人など数十名の参加者があった。中国ではICT (Institute of Computer Technology)を中心にグリッド(China National Grid)を構築しこれを用いた研究が盛んなようである。応用としては、鉄道、オリンピック、製造業などがあるようだ。

Dawning(曙光)やLegend(聯想、実は既に4月にLenovoと社名変更)などの会社も元気で、特に今年はTop500の第14位に Chinese Academy of Science “DeepComp 6800″というマシンがランクされた。Itanium2 1.3 GHzを1024個Quadrix社のQsNetで結合したもので。ピークは5324.8 GFlops、Linpackは4183 Gflopsである。製造はLegend 社。

筆者がこのワークショップに乗り込んだ理由の一つは、来年7月に大宮で開催するHPC Asia 2004)の宣伝をするためである。 またこれとは別にATIPは20日(木曜日)に”Asian HPC Luncheon”をHyattで開き、40名ほどが参加した。ここでもHPC Asia 2004の宣伝を行った。

6) Dona Cox, “Beyond Computing: The Search for Creativity”
今回の基調講演は、Donna Cox (NCSA) の”Beyond Computing: The Search for Creativity”であった。彼女はIllinois大学Urbana-Champaign校の芸術デザイン学部の教授で、コンピュータグラフィックス、科学的可視化の大家だそうである。確かにプレゼンはよくできていたが、かっこよく無理に哲学的な話をしようとしたようで、話自体はあまり面白くなかった。1990年のNew YorkでのSCでBanquet talk をやったとのこと(記憶にはないが)。

「はじめにIn the beginning」と言って、科学者が自分の部屋でMacを使っている昔の絵を出し、当時は科学的可視化なんてこんなものだった、と。

革新的な研究には創造力が必要である。創造力は、あるドメインの事柄を、他のドメインから見ることによって生まれる。それをmetaphor(隠喩、A is B という形で例える。ふつうの比喩は A is like B という形)という。言語のmetaphorとして”Life is a journey”や”Time is money”や”Argument is war”などを取り上げた。旅という言葉で連想されるいろんな要素を人生に投影することにより新しい視点が開ける。これがmetaphorである。日常的なものから非日常的なものへmetaphoric creative continuumが存在する。ビジュアルなmetaphorの例をいくつかの絵で示した(Earphones are bricks.という重いイヤフォンの絵とか)。

ここで話が昨年のSC2002のIntellibadgeに飛んだ。これは参加者の有志に無線のタグを持たせて、どこに出席しているか、どこを歩いたかを追跡するもので、彼女はその仕掛け人の一人であった。統計によると、3日間に会場を歩いた距離は平均 6 miles だったが、最大の人は43 miles も歩いている。動線を解析すると、実はほとんど展示会場にいることが分かったとか。この可視化と分析は面白かった。

将来のITは創造性を増すものでなければならない。そのためにはminorityとdiversityを尊重しなければならない。text mining, image mining, datamining などがますます重要になる。私が手伝っているニューヨーク市のHayden Digital Domeはネットワークでいくつかの研究機関と結び、映像を提供している。ここで、彼女は自分の作った可視化の映画の抜粋を示した。そして、高精度可視化の重要性を強調した。

最後に脳の絵を出し、brain metaphor (“Brain is a computer”)について述べた。コンピュータ科学は多くのmetaphorを使っている。「ウィルス」はその一例である。

7) Petaflops Workshop I
18日の10:30から17:00までペタフロップス・ワークショップが開かれた。正式なタイトルは、

“Petaflops Programming: Parallelism, Pain, and Perverse Programming Paradigms”

がんばってPを7つ並べた。ペタフロップスが話題に上るのは久しぶりである。午前がアーキテクチャ、午後の前半がソフトウェアであった。午後の後半は出られなかったが応用というかユーザがテーマであった。

午前のワークショップは”Petaflops Architecture: The 100,000 Processor Challenge” と題してアーキテクチャの議論が行われた。司会はCandace Culhane (National Security Agency)で、あらかじめ各パネリストに数個の問題(Q1からQ6)を出していたようであるが、どこにも書いていない(webにはあったようだ)のでよく分からなかった。

a) Jim Tomkins (SNL): “A Conservative Path to Petaflops Computing”
要するに今の延長でペタフロップスが可能だというアイデア。2010年には50nm以下の技術が実現し、周波数も10から12GHzに達している。クロックあたり4FPで、チップ上に4個のコアがのると思われる。メモリは、レイテンシは悪くなるが、B/F比(バンド幅と計算能力との比)は今と同程度であろう。もちろん、ピン対あたり40 Gb/sくらいの転送が必要になる。相互接続もまあB/Fは同程度であろう。

Q1: どんなアークテクチャが使われるか:数PFまでは今のままで行ける。アプリケーションは長い寿命があり、新しいアーキテクチャは使われないであろう。
Q2: 言語はどのくらい複雑になるか:アプリケーションから見るとsimple is better.
Q3: run time routineでしか制御できないほどの複雑さがあるか:そんなものは使いにくい。
Q4: 多数の並列性のレベルは必要か:必要ない。
Q5: 今後の動向は:まあよくなるだろう。電気的スイッチを用いた光結合が使われるであろう。
Q6: プログラミングのキーは:明示的メッセージパシングは相変わらず支配的であろう。
2010年の設計。25000プロセッサで1 PF、500 TBメモリ、20 PBディスク、1TB/sの実行ディスクバンド幅。プログラムは、明示的メッセージパシング。

具体的には、32x32x24の隣接結合(トーラスではなく)、2x16x24のサービスおよびI/Oプロセッサ。1ノード4 CPUで、32個のキャビネットに6336ノードを入れて25344CPU。3500 ft^2で消費電力は3-4 MW。4個のpipelined.FP unitsを10 GHzで動かせは40 GFで、このコアを4個チップに乗せて1ノード。メモリはノードあたり96 GB。バンド幅は213 GB/sで、レイテンシは500 clocksくらい。メッセージパシングは、バンド幅80 GB/sで、レイテンシは200-500 ns 。テクノロジはいろいろ変わるが、プログラミングモデルは変わらないであろう。

b) 三浦謙一(富士通)”Petaflops Programming”
ベクトルかスカラーかという問題は大きな問題ではない、メモリの構成、とくに共有メモリのサイズが実際のアプリケーションには効く。ついでに「日本のユーザはベクトルにスポイルされている。」とつぶやいた[陰の声、そんなこと言っていいの?]。相互接続には光が用いられるであろう。フォールトトレランス(CPUの中でも)と電力制御が大きな問題である。専用計算機もある種の問題には有効であり、日本ではGrapeのように成功した例もある。

結局、スカラーのSMPのクラスタ(Top500のいうconstellation)になる。Prime Power HPC2500は85 TFまでしか行かないが、2006年の次期機種は314 TFまでいける。あと、クロックで1.5培、ノード数で2倍にすればペタフロップスまでいける。

c) Mootaz Elnozahy (IBM): “PERCS: IBM Efforts toward HPCS”
いろんな制約がある。まずレガシーコードをどうするか。それからHPCの顧客の多様性、経済的な要素、IBMのビジネスモデルなどいろいろある。productivityは重要な問題だが、petascaleとは何か、よく定義されていない。IBMの方針は、アプリケーションの必要に従うということである。

ソフトとしては、適用性とPowerPCへの下方互換性、既存のインフラの活用が問題である。アーキテクチャの革新としては、ベクトル/ストリーム処理が重要になるであろう。メッセージパシングも。メモリとしては、今よりもっとインテリジェントなアクセス階層が必要になる。

Q1: どんなアーキテクチャが使いやすいか:reconfigurable。
Q2: 言語の複雑性。チップ上のメモリ管理。
Q3: runtime 環境の複雑性:binary rewriting。
Q4: 複雑性は増えるか:yes。But simplest must win.
Q5: trends: commodity-based. key things: scalability.

まとめて、ペタフロップスのハードウェアはできるが、ソフトウェアの進歩が問題。

d) Bill Dally (Stanford)
目標は2010年までに、45 nmのテクノロジーを使って、実行性能が1 PF以上の計算機を経済的に作ることである。たとえば、ピーク1024 GFのノードを4096個結合すれば、ピーク4 PFになる。ノードとしては、4 GHz× 8 FPU/pipe×16 pipes でよい[FPUは乗加算器か?]。これを共有メモリ空間でつなぐ。

1. Moore’s lawは今後も成り立つが、複雑性が増える。データ並列を生かそう。
2. レイテンシを隠すには並列性が必要。
3. バンド幅が問題。メモリバンド幅は主要なコストである。COTS(汎用品)のプロセッサはこのバンド幅を浪費している。ノード数をできるだけ小さくする必要がある。
4. 簡単なプログラミングモデルが必要。共有メモリのデータ並列がよい。プログラマは並列性を明示的に記述するのはよい。

動向としては、ノード内で大きな(数百)並列性を持たせる。局所性は明示的に管理する(たとえばストリーム)。プログラミングモデルは簡単に。

「保守主義は、ラディカルなアプローチより危険が多い。」

このあと、パネリスト同士、またフロアとのやりとりがあった。

8) Petaflops Workshop II
午後1:30から3:00は “Petaflops Programming Models: Ameliorating Architectural Issues or exacerbating them?”(ペタフロップスプログラミングモデルは、アーキテクチャの問題を改善してくれるのか、それとも悪化させるのか?) と題してソフト関係の話があった。司会は(なんと)Burton Smith。

a) Rusky Lusk (ANL)
この話は聞き損なった。

b) Hans Zima (CalTech)
HPFの夢よもう一度、というような話。現在のプログラミングはfragmental programmingで、問題の全体を見ていない。それに比べてHPFは、MPIより簡単で、出力コードはMPIと同等の性能で、データ分散の指示文は自動的に生成もできるなどの特徴がある。問題としては、配列に重点を置きすぎたことと、alignのように実装しにくい仕様があったことである。HPF2はだいぶ改良されている。日本のHPF+/JAを使って地球シミュレータ上でプラズマコードが12.5TFで動いた[昨年のGordon Bell賞の一つ。]

ペタフロップのアーキテクチャは高レベルなプログラミングモデルをサポートできるはずで、全域的なキャッシュコヒーレンスのような無駄なことはするべきでない。OSはランタイム環境を持ち、フォールトトレランスやチェックポイントやオートノマス計算はランタイムで制御すべきである。それにはエージェントベースのアプローチがよい。結局、PIM + ソフトウェア制御のキャッシュ+接続網 という形になるだろう。

結論として、現在のプログラミング方式は生き残らないだろう。自律的なランタイムメカニズムに任せるべきである。[思わず、「本気?」]

c) Kathy Yelick (UCB and LBNL) “What’s wrong in MPI?”
なぜ現在MPIが支配的かというと、ポータビリティがあり、性能を制御でき、またユーザのコミュニティがあったからである。いくら研究者が新しいプログラミングモデルを出してもユーザは変わらない。若い連中を最初から教育していくよりしょうがない。

MPIに代わるプログラミングモデルがあるか。それは、大域的アドレス空間言語である。重要なアイデアは、”affinity in thread and process” と “remote data structure can be read/written directly”である。MPIは規則的な問題にはよいが、細粒度な問題には使いにくく、まして非同期の問題には全くだめである。MPI2のone-sided (RMA)は一つの解答であるが、put latencyは90年代から進歩していない。Virtualize the memory system and virtualize the processor space. Learn from Prolog/HPF/Sisal!!

d) Larry Snider (Washington U)
ZPLという言語の話をした。

3時30分からの第3回を聞けなかったので、そのあとどうなったかは不明である。プログラムによると、

“Petaflops Applications: Pity the Programmer Trying to Do Actual Applications”

とある。司会はAlan Laub (UC – Davis), パネリストはChris Johnson(University of Utah), Mike Merrill (National Security Agency), Theresa Windus (Pacific Northwest National Laboratory), Richard Loft (University Corporation for Atmospheric Research) だったようである。

9) Top500 (2003年11月)
18日5時から恒例のTop500のBoFがあった。出席できなかったが、プログラムは

a) Introduction (Hans Meuer)
b) Awards (Horst Simon)
c) Highlights of the 22nd TOP500 List (Horst Simon/Erich Strohmaier)
d) From Top500 to Top20Auto (Christian Tanasescu)
e) Benchmarking Activities
・APEX – Application Performance Characterization and Benchmarking (Erich Strohmaier)
・HPCchallenge Benchmarks (Jack Dongarra)
f) Discussion (all)

であった。2.では恒例により上位3者に賞状が手渡され、そのあと3.では今年の傾向の分析が報告されたようだ。Top20は以下の通り(中国の組織名は適当に日本の漢字に置き換えました)。

順位 設置場所 マシン コア数 Rmax Rpeak
1 海洋研究開発機構 地球シミュレータ 5120 35.86 40.96
2 LANL ASCI Q (AlphaServer SC45) 8192 13.88 20.48
3 Virginia Polytechnic Big Mac (Apple G5+Mellanox) 2200 10.28 17.60
4 NCSA Tungsten (Xeon+Myrinet) 2500 9.819 15.30
5 PNNL Mpp2 (Itanium2+Quadrics) 1936 8.633 11.616
6 LANL Lightning (Opteron2+Myrinet) 2816 8.051 11.264
7 LLNL (Xeon+Quadrics) 2304 7.634 11.060
8 NERSC Seaborg (POWER3) 6656 7.304 9.984
8 LLNL ASCI White (POWER3) 8192 7.304 12.288
10 LLNL (Xeon+Quadrics) 1920 6.586 9.216
11 宇宙航空研究開発機構 PRIMEPOWER HPC2500 2304 5.406 11.980
12 PSC (AlphaServer SC45) 3-16 4.463 6.032
13 NCAR p690 Turbo 1.3 GHz 1600 4.184 8.320
14 中国科学院計算机網路信息中心 DeepComp 6800 (Itanium2+QsNet) 1024 4.183 5.3248
15 CEA(フランス) (AlphaServer SC45) 2560 3.980 5.120
16 HPCx(英国) p690 Turbo 1.3 GHz 1280 3.406 6.656
17 NOAA (Dual Xeon+Myrinet2000) 1536 3.337 6.758
18 NAVO DSRC p690 Turbo 1.3 GHz 1184 3.160 6.1568
19 Cray社 Cray X1 252 2.932 3.225
19 ORNL 同上 同上 同上 同上
19 米国政府機関 同上 同上 同上 同上

1位の地球シミュレータと2位のASCI Qは変わらないが3位のVirginia 工科大学のアップルG5 cluster(いわゆるBig Mac、10.28 TF)と、4位のNSCAのクラスタ(9.82 TF)は新顔である。1100台のアップルのPCを接続して3位に食い込んでいるところがすごい。5位のPNNLのItanium2 cluster(8.63 TF)はプロセッサ数を増やしての記録更新。6位のLANLのOpteron cluster(8.05 TF)も新顔。このあと恒例の93年以来の傾向の変化の分析があったようだ。表を見ると、p690やPRIMEPOWER HPC2500のRmax/Rpeakが余りよくない。個人的に残念なのは、1996年11月にトップを飾った筑波大学計算物理学研究センターのCP-PACSが、ついに今回Top500から脱落したことである(前回は312位)。7年で500番以上も落ちてしまうとは、すごい進歩である。なお、CP-PACSは2005年9月29日にシャットダウンするまで2813日間稼動した。

出席した学生さんの話では、d)で自動車会社の売り上げとスーパーコンピュータ性能との関係などというイカガワシイ分析もあったとのこと。自動車会社はTop500の中で、サイト数で2.4%、性能で1.2%を占めている。それについてのアーキテクチャ、チップなどの分析と、自動車売り上げとの関係など。

e)では現実の応用での性能を、LINPACKよりよく表現するベンチマーク、特にメモリアクセスを評価するベンチマークを作ろうという2つの提案が出されたようだ。 LU分解というのは昔は難しい並列処理問題で、パイプライニングなどを注意深くしないと性能が出なかったが、HPL (High Performance Linpack) の自動チューニングによって、どんな計算機でもかなりの性能がでてしまい、しかも通信時間をある程度隠す余地があるので、システムの総合的性能の指標とは言い難くなっている。これはだれも考えることであるが、さて多角的にしようとすると、重み付けが問題となり、結局議論が収束しないのではないかと危惧される。

Top100に入った日本のマシンはわずか6件である。

順位 設置場所 マシン コア数 Rmax Rpeak
1 海洋研究開発機構 地球シミュレータ 5120 35.86 40.96
11 宇宙航空研究開発機構 PRIMEPOWER HPC2500 2304 5.406 11.980
60 東京大学 SR8000/MPP 1152 1.7091 2.074
81 核融合科学研究所 SX-7/160M5 160 1.378 1.412
88 大阪大学 SX-5/128M8 128 1.192 1.280
93 同志社大学 (Opteron 1.8 GHz+GigE) 512 1.169 1.843

次は企業のExhibitor Forumの話題と、各種の賞について述べる。

(タイトル画像:IBM BlueGene/L 出典:IBM)

left-arrow 50history-bottom right-arrow