世界のスーパーコンピュータとそれを動かす人々


提 供

2月 22, 2016

HPCの歩み50年(第75回)-2000年(d)-

小柳 義夫 (高度情報科学技術研究機構)

SC恒例となったGordon Bell PrizeのPeak Performance賞はなんと日本の2グループが1位タイで受賞した。Seymour Cray賞は、David E. Cullerのお父さんのDr. Glen J. Culler (UC Berkeley)に対し、「会話型科学計算の発展への業績」について贈られ、かれは車椅子で受け取った。

SC2000(続き)

7) Award session
さて、SC2000にはさまざまな賞がある。9日木曜日午後のPlenary sessionで発表され表彰された。

a) Best Technical Paper Award ($1000)は、”Is Data Distribution Necessary in OpenMP?” by Dimitrios S. Nikolopoulos et al. (Univ. of Patras, Greece, Univ. of Illinois at UC, Tech. Univ. of Catalonia, Spain)に与えられた。この論文は、Origin2000でOpenMPの性能を分析し、page replacement schemesとuser-level page migration engineにより、プログラムレベルでのdata distribution directiveのようなものは不要であると論じた。

Best Technical Student Paper Award ($500)は、学生が主著者(登壇者ということであろう)である論文のうちから選ばれるもので、”A Comparison of Three Programming Models for Adaptive Applications on the Origin 2000″ by Hongzhang Shan, et al. (Princeton Univ., NERSC, NASA Ames)が受賞した。これは、MPI modelと、SHMEM modelと、cache-coherent shared addressspace (CC-SAS) modelとにより、2種のadaptive applicationsを実装し、プログラミングの労力と性能を比較したもので、CC-SASの方がプログラムが書きやすく性能もよいと結論している。ただし、portabilityに限界があり、多数のプロセッサにデータが分散している場合にspatial localityが少ないという問題点も指摘した。

“Best Research Gem of the Conference” Award($250)はResearch Gem (一種のポスター)から選ぶもので、”Automatic TCP Window Tuning Implemented in an FTP Application” by Jian Liu et al. (NCSA)が獲得した。

b) HPC Gamesは、わが国の今年のJSPPのPSC (Parallel Software Contest)の自由部門みたいなもので(だいぶ違うが)、街頭価格1万ドル以内のPC(ソフトは1000ドル以内)を組み合わせたシステムで、いくつかのベンチマークを行い、それぞれのベンチマークでの順位をつけ、その合計(ただし各参加者の最高と最低は除く)で競うものである(詳しいルールはweb page参照)。Grand Prix ($1000)は、Air Force Research Laboratory, “The Red Team” – James Hanna et al.に、Most Inovative Hardward Prize($500)は、University of Kentucky, “The Aggregate” — Hank Dietz et al.に、Most Inovative Software Award($500)は、Grand Prixと同じチームに、Most Leading Edge Technology Award($500)は、Black Lab Linux– Kai Staats et al.に与えられ、Honorable Mensionとして、MITRE — David Koester et al.が挙げられた。

c) このほか、Fun Awardsとしてオチャラケの賞が発表された(賞状授与はなし)。曰く、First Entry to Apply (要するに最初に投稿された論文。採択の中でか?)、Latest Entry、最も芸術的なクラスタ(よく分からないが、Cray-1の形に並べたKentuckyだかのクラスタが取ったらしい)、Ben Hur Award (何のこっちゃ?)、100%何とかAwardなどなど。

d) それから、SC2000 Network Challenge Awardが3グループに与えられた。
Fastest and Fattest Awardは、”Visaput — Using High-Speed WANs and Network Data Caches to Enable Remote and Distributed Visualization” — W. Bethel et al.に、Hottest Infrastructure Awardが、”A Data Management Infrastructure for Climate Modeling Research” — A. Chervenak et al.に、Most Captivating and Best Tuned Awardが、”QoS Enabled Audio Teleportation” C. Chafe et al.に与えられた。

e) さて、注目のGordon Bell Prizesが発表された。これは、HPCおよび並列処理分野の先駆者の一人Gordon Bell氏(現在Microsoft)の拠出金$5000により毎年出され、応用プログラムでの性能を競うものである。過去、日本のグループも何回か受賞している。今年は、論文が通常のtechnical paperとして採択されることを条件としていた。Gordon Bell nomineeのセッションは8日水曜の午後と9日木曜の午前と二つ設けられ6論文が発表されていたが、結局以下のとおり受賞者が発表された。

Peak Performance賞は、何かの応用で最高性能を証明したものに与えられるが、今年はなんと日本の2グループがタイで受賞した。

> “1.34 Tflops Molecular Dynamics Simulation for NaCl with a Special-Purpose Computer: MDM” by Tetsu Narumi, Ryutaro Susukita, Takahiro Koishi, Kenji Yasuoka, Hideaki Furusawa, Atsushi Kawai, Toshikazu Ebisuzaki (RIKEN and Keio)
> “A 1.349 Tflops Simulation of Black Holes in a Galactic Center on GRAPE-6” by Junichiro Makino, Toshiyuki Fukushige, Masaki Koga (Univ. of Tokyo)

両者とも杉本大一郎先生の流れを汲む2派なので、flops値(いずれも換算値)を談合したのではないかとみんなで追求したが、どうも偶然らしい。

Price/Performance賞は、何かの応用で価格性能比(megaflops per dollar)を実現したものに与えられる。受賞者は、

> “92¢/Mflops/s, Ultra-Large-Scale Neura-Network Training on a PIII Cluster” by Douglas Aberdeen et al. (Australian National Univ.) Linux-based cluster of 196 Pentium III processorsを使ってニューラルネットの学習。
> “High-Cost CFD on a Low-Cost Cluster” by Thomas Hauser et al. (Univ. of Kentucky) KLAT2 (Kentucky Linux Athlon Testbed 2、700 MHz Athlon 64 processorのクラスタ)をつかって、Direct Navier-Stokesを解いた。

Special 部門は、絶対性能も価格性能比もトップにはなれないが、非常に革新的な技術をもちいた事例に与えられる。今回は、unusual accomplishmentだとして次のグループが受賞した。

> “High Performance Reactive Fluid Flow Simulation Using Adaptive Mesh Refinement on Thousands of Processors” by A. C. Calder et al. (Univ. of Chicago, LLNL, Intel, ANL)これは、ASCI Red 6420 processorsをもちいてadaptive mesh を高速に実行した。

もう一つ、”Scalable Molecular Dyanmics for Large Biomeolecular System” by Robert K. Brunner et al. がfinalistとしてnominateされていたが、これは受賞しなかった。

f) IEEEComputer Societyの名前で出されるSeymour Cray Computer Engineering Award($10000、スポンサーはSGI)とSidney Fernbach Awardは、8日水曜日午前のMasterworksの時間に発表され、受賞者の講演があった。この席では表彰式があった。Fernbach賞は、Dr. Stephen W. AttawayというSandiaの人の”Large-scale Parallel Transient Dynamics Simulation of an Explosive Blast Interacting with a Concrete Building”の仕事に贈られた。これは、テロリストによるコンクリートの建物の爆破のような過渡現象を、超並列計算機によりシミュレーションする技術で、億に近い要素数の計算である。

Seymour Cray賞は、David E. Cullerのお父さんのDr. Glen J. Culler (UC Berkeley)の会話型科学計算の発展への業績に贈られ、かれは車椅子で受け取った。彼は、1961年に会話型グラフィックシステムを開発し、その後、AP90B, AP-120BなどのVLIW型の(ミニコン付加型の)アレイプロセッサを開発した(ということはFloating Point Systems社に関係したのか?)。5万ドル以下で3 MFLOPSを実現し、”the poor man’s Cray”と呼ばれた。これは、RISCプロセッサが同じ価格性能比を実現する15年前のことであった。その後、デジタル音声認識のためのVLSI アレイプロセッサを開発した。80年代には、Culler Scientific Systemは命令レベル並列、マルチプロセッサ、アレイ型アドレス機構などをもちいたミニスーパーコンを製造した。Culler PSC (Personal SuperComputer)は、Cray 1-Sの1/4の性能をワークステーション並の価格とサイズで実現した。Culler-7というマシンは、ネットワーク型マルチプロセッサUnixコンピュートサーバの先駆けであった。 1991年にStar Technologiesにおいて、最初のSparc-based vector processor (STAR 910/VP)を開発したが、病に倒れ引退を余儀なくされた。David Cullerのお父様がこんな方とは存じませんでした。

g) このplenary sessionの締めとして、”On the Scale and Performance of Cooperative Web Proxy Caching” by Goeff Voekler (UC San Diego)という講演があった。講演者紹介はSid Karrin。

かれは、webのaccessを高速化するにはどうしたらいいかを論じた。Proxyはいいが、ミスが多いとlatencyが増える。また、Proxyは利用者数とともに効率が増加するが、限界がある。最近、cooperative web proxy cachingという技術が進んでいるが、その有効性はいろいろな要素に依存する。組織の内部でshareすることは有効だが、異なる組織をまたがるdocument sharingは必ずしも有効でない。このことを、Univ. of WashingtonとMicrosoft社のweb browsingのtrace分析をもとに議論した。なにか当たり前のことのようだが。

8) パネル”Petaflops around the Corner”
授賞式に引き続き、標記のパネルがあった。ペタフロップスはどうなったのか興味津々で参加した。

まずModeratorのNeil Pundit (SNL)がパネリストを紹介して始まった。

Tom Sterling (CalTech/JPL)はHTMTの推進者である。かれはPetaflops projectの歴史を回顧し、Top500の外挿から2010までにPetaflopsが可能となると力説した。Petaflopsへの要求として、bulk capabilitiesやefficiencyとともにusabilityを強調した。応用分野は山ほどある(fusion, propulsion, moleculte, protein, drug, genom, aerodynamics, anatomy, ….)。SIAのCMOS Roadmapについても言及した。最先端の技術を融合し、動的でadaptivemな資源管理を行うことが重要。最先端の技術として、MTA, optical, RSFQ, Hologram memoryなどを上げ、HTMTは可能だと結論した。(でも、HTMTプロジェクトはその頃fundingをうち切られている)

Pete Bechman (Turbolabs, 元LANL)はまるで緑の党のように、Petaflopsなど作るなと力説した。極端な技術を使ってPetaflopsを作ることは乏しい資源の利用法として最悪であり、恐ろしい計画だ。そもそも、小さなプロジェクトならリスクも小さいし、費用も小さい。しかし、巨大なプロジェクトは、もし技術の完全性を要求するならば、必ず失敗する。スペースステーション、SSC、NIFなど例はいろいろある。Petaflops computerなど作るのをやめて、そのかわり小さなよい技術を実現しよう。間違ったものを作ってはならない。Petaflopsのハードは間違っているし、ソフトも間違っている。CPUの利用率も低い。予算の60%はソフトに注ぐべきなのだ。「正しい龍を殺せ」。結論、(1)Petaflopsを作るな。(2)複雑で大きなプロジェクトはだめだ。(3)小さく有用な技術に投資せよ(linuxのこと?) (4)ハードウェアに焦点を絞るな (5)Flops are stupid. (6)simulation environmentを作れ。(7) Do you want to change the world?

Bill Camp (SNL)は”Petaflops and beyond”と題してPetaflopsの技術的問題を論じた。Moore’s lawによれば2009/2010にはPetaflopsができることになるだろう。たぶん、50Gflops×20000 processorsといったところだろう。T3Eに似たアーキテクチャとなろう。すなわち、メモリバンド幅は1 B/s for 1 flop/sで、3次元メッシュ、大域アドレス空間、cache coherency。RAS はもっとcritical になる。LINPACKはもはや実行不可能となろう。なぜなら、計算量はメモリの3/2乗に比例するからである。なぜPetaflopsが必要か。Bio, medical, climate, materialo, economy, gene sequencing, structural, proteomics, cell signaling, cellular metabolism, organ function, ageing, neuro, …。全球を30m×300m×300mで覆うと5T cellsになる。High End Computing に終わりがあるなどと言う人は、過去に捕らわれている。

Marc Snir (IBM)は “Petaflops around the IBM corner”と題して、IBMのBlue Geneの話をした。2004年になんらexoticな技術を使わずに、Petaflopsはできる。10年後なら知らないが。現在のASCI supercomputerを外挿してはいけない。だいたいMD Grapeのような専用計算機ならすぐPetaを実現できる。また、汎用計算機でも、メモリやI/Oが少なくて良いなら、英雄的な技術などなしに、単純に安くできる。10段ものmemory hierarchyなど不要で、メモリにプロセッサを埋め込めばよい。CPU 利用率など議論するのはナンセンス。どうせゲートの数%に過ぎない。ソフトウェアは技術的な問題ではない。2つのプロジェクトが考えられる。Blue lightは、一種のdense clusterで、1 chip 3 GF、カードに4 CPU載せ、backplaneに64 cardsを差す。ラックは4 back planes。1 Pflopsは300ラックでできる。3 MWでフットボール場2つ分でよい。Blue geneは、1 Pflopsで333 GBのマシンだ。Is it meaningful? Yes, many important applications.

Rick Stevens (ANL)は応用について発題した。インターネット全体は、ルーターが100万から1億、devicesが10億から1000億。これをシミュレーションするにはPetaflopsが要る。Biological CAD, biodesign, Million Person Virtual Theme Park (entertainment), Virtual Biosphere 2, Computational Astrobiology, Digital Archeologyなど。結論、現在の科学計算のモメンタムを保持するにはPetaflopsが必要。Petaflopsは、新しいemerging applicationsを可能にするであろう。

Paul Messina (DOE HQ)は、研究開発プロジェクトとしての意味を語った。Petaflopsはかつて夢であったが、いまやASCI final systemは100 Tera Ops with 30 TBを考えている。COTSを使えばよい。ASCI Red はCOTS CPUのad hoc clusterで性能を実現し、信頼性も大丈夫だった。見通しとして、専用計算機ならGrape 6やBlue Geneのようにすでに可能である。汎用機としては、COTSで行ける。2009年のASCIだと思えばよい。Grid-basedという可能性もある、これば分散異機種結合だ。Petaflopsはアーキテクチャ研究を再覚醒する。いま始めよう。応用の人も巻き込んで。そして、新しい「何か」を、少なくとも検討の対象にしよう(COTS以外も検討しようということか?)。

これらの発題のあと、いろいろ質問が出た。「いったいPetaflopsは何台必要か?」答え「来世紀の終わりにはterascale machinesはmillions」。「ゲームのためにPetaflopsは要るのか?」Stevens「ゲームは不要」などなど。

9) パネルGrid
最終日(10日金曜日)は昼までであり、企業・研究展示も前日に終わっているので出席率が悪い。例年、原著講演はなくパネルや招待講演で構成している。今回も2本並列に4つのパネルが開かれた。

前半では、”Computational Grid: A Solution Looking for a Problem” というパネルを見た。Gridのパネルなのだが、司会者のJenniffer Schopf (Northwestern Univ.)とIan Foster以外はGridの専門家ではなく、1世代前の人であり、話はだいぶ食い違っていた。

Ian Foster (ANL)はGridの解説をしたあと、よくある誤解として、「Gridは新しいInternetだ」「Gridはfree cycles(ただ乗り自転車)だ」を上げた。

Marc Snir (IBM)は、Gridを「自然に」分散したものを扱う技術と定義し、遠隔地の計算資源の協力、データの共有、加速器・望遠鏡などのunique resourcesの利用などを上げた。問題点として、理由もなく分散してもしょうがない。例えば、地域的に離れたスーパーコンピュータに分散する理由はない。ネット上の余った資源を活用するseti@homeなどは面白い技術だが、質が保証されないし、みんなが同時にやったらうまくいかない。全ネットワーク上の資源の総和はBlue Gene300台程度だから意外に小さい。

Geoffrey Fox (Florida State Univ.)は、Gridはコンピュータ以外では昔からある技術だ(交通、電力など)。Gridの応用として、e-commerce Grid, education Grid, Distributed Simulation Gridなどが考えられる。service管理が問題である。security, fault tolerance, object lookup and registration, object persistemce, data base support, event and transaction services など。

Cherri Pancake (Oregon State Univ.)がなぜこのパネルに呼ばれたのかは知らないが、彼女は(次のパネルの)Megacomputingの話ばかりしていた。パソコンのユーザはそれほど理性的かつ協力的であろうか。Grid上の資源はephemeral(短命)なので使いものになるか。Grid economyにおけるユーザは、資源消費者と資源提供者に分かれるが、その両者には対立がある。

10) パネルMegacomputers
最後のパネルは”Megacomputers”に出た。司会者はLarry Smarr (UC San Diego)。Smarrはネット上のcommodity processorsの並列処理により大規模計算を行う可能性が出てきたこと、事実seti@homeやentropia.com のような例があることを述べた。

Ian Fosterがまた出てきて、Grid computing とmegacomputingの関係を述べた。Grid computingは統一的な制御も、全知全能者も、相互信頼もない分散計算である。megacomputerはGridの一例であり、簡単な関係のもとで極めて多数の資源を集め、しかも信頼関係が極めて希薄な点に特徴がある。SETI (Search of ExtraTerrestical Inteligence)やEntropiaはその一例である。将来的には、より集権化された共有の形態になるであろう。技術的な課題としては、1)プロトコルやサービスをどうするか、2)新しい応用の概念、3)より多数のより動的なconfigurationのもとでのアルゴリズムなどがある。

Andrew Chien (Entropia Inc.)はEntropiaの歴史を語った。これは、Mersenne素数を見つけるために1997年に始まった。1998には35番目がみつかり、1999年には36番目が見つかった。80以上の国の、10万台以上のマシンが参加した。この経験から、NSFのPACI programに200 M hr CPU timeを提供することになった。

ParabonのJim Gannonは、Parabonが1999年6月に創立されたがすでに50人を越える従業員を抱えていることを自慢した。セキュリティはSSLで保証し、Javaによりスケーラビリティをまし、悪意もしくは誤りからの防御を高めた。スピードも速くなった。応用分野としては、comparative genomics, financial modelling, compute against cancer (癌の遺伝子の解読)などいろいろある。

Andrew Grimshow (Univ. of Virginia)は、”Mega Computing, Grid Computing, Peer-to-Peer”と題して、このようなモデルの成立する条件について述べた。ソフトウェアのアーキテクチャが単一化したこと、ネットワーク環境が完備したことは重要であるが、技術的な必要条件として、(1)complexity, (2)fault tolerance, (3)site autonomy, (4) security などがある。そのためには、object basedでなければならない。LegionはアーキテクチャやOSを隠す技術である。一種のGrid OSと見ることもできる。応用としては、(このあとメモなし)

Tom Sterling (ANL)がまた出てきて、megacomputingと HTMTは似ているといいたいらしい。megacomputingの技術的課題は、(1)並列度、(2)粒度、(3)data I/O capacity requirements、(4)latency tolerance, (5)fault tolerance and automatic checking and roll-back, (6)security (client cofidentiality), (7)Business model。

最先端計算の課題は、(1) ALU speed and memory capacity constraint (solution: VLSI), (2)Latency constraint, distance, overhead, contention (solution: vector / cache / multithread / NW / bandwidth /locality management), (3) Trust constraint (collaborative computing)。

我々は間違っていたのか? (1)latencyは関係ない、(2)bandwidthは十分安い、(3)megacomputerはBeowulfより安い、(4)プログラミングは易しい。

わたしのmegacomputerについての考えは、(1)同じソフトはGridには使えない、(2)正しい問題に適用しなくては (very large and wonderfully parallel, flexible, security insensitive)。May be the genesis of P-1 (P-1て何でしたっけ。SF?)

5つの質問
1) Will it be an enabler? provide unprecedented computer capacity.
2) Will it be an inhibiter? only suitable problems will be puch–d
dimise of innovative computer architecture
3) Will efficiency continue to degrade?
4) Will the integrated computer capacity continue to explode?
What happens when everyone has a computer?
Will most of our processing go off shore?
5) What will P-1 do when it wakes up?

このあと議論があったがあまり盛り上がらなかった。

ある人としゃべったことであるが、embarassing parallelではうまくいくかもしれないが、もう少し中間的な問題は可能か。また、パソコンが低電力化して、Crusoeのように非動作時には電気がほとんど流れないようになると、この構想は潰れるのではないか。電気代を払ってくれるならともかく。それから、もし情報機器が携帯機器に移っていくとするとだめになるかもしれないのではないか。

11月のTop500の話題は次回。やっとASCI Whiteが1位となったがRmaxはお粗末であった。

(タイトル画像: SC2000ロゴ 出典:UCARホームページ)

left-arrow 50history-bottom right-arrow