HPCの歩み50年(第83回)-2001年(g)-
基調講演ではCraig Venterがゲノム解読におけるHPCの重要性について講演した。水曜日の招待講演はMicrosoftのJim Grayであった。5年後かれが洋上で行方不明になるとはだれが予想したであろうか。投稿論文では日本から4件採択された。
SC2001(続き)
7) Keynote Address
前日のGala Openingに引き続いて、13日(火曜日)の8:30から開会式が開かれた。組織委員長のC. A. Slocomb (LANL)からは全体的な報告があった。
今回の基調講演は、Celera Genomics社のJ. Craig Venter会長であった。彼は、1992年にTIGR (The Insistutite for Genomic Research)を創立したが、当時は1000ほどのsequenceしか解読できなかった。まして、ヒトゲノムが解読できるかどうか懐疑的だった。6年前に最初のゲノムが解読されてから指数的に増大した(マラリア、炭疽菌など)。最初の頃は計算の重要性に気がついていなかったが、現在1.5TFの計算能力をもち、自動機械を用いて、1日24時間週7日間解析を続けている。
ゲノムはshot gun法という方法で読んでいる(これがCelera社の戦略)。一度には数百のbp (base pair)しか読めないので、DNAをその程度の長さに切って読み、それを計算機によりつなぎ合わせる。誤りの確率は1015分の1程度だ(と豪語していた)。
drosophila(ショウジョウバエ)は、300万sequenceで、これは4ヶ月ででき、13601個の遺伝子を見つけた。それに意を強くして、ヒトのゲノムの解析に取りかかった。
サンプルとしては、人種的多様性を考慮して5人(女3人、男2人、African American, Chinese, Hispanic, Caucasian, …)の染色体を用い、1999年8月9日に開始した。これはいわば30億ピースのジグソーパズルである。2000年6月26日にCelera社はヒトゲノムの解読完了を発表した。
遺伝子の数は意外に少ない。昔は10万位と思われていたが、どうも3万程度らしい。ゲノムの特徴はまったく互いに異質である。DNA配列からタンパク質が予言できるが、実際には配列にはコピーが多い。たとえば、20番目の染色体の半分は他の染色体のDNAのコピーである。C elegance(線虫)のゲノムでは複製構造が完全に追跡されているが、人間ともかなり一致している。マウスとヒトとの対応は、ダウン症に関係するヒトの16番目の染色体には、マウスの21番染色体のコピーが多いことが知られている。だいたい、ヒトの94.5%はマウスのゲノムであり、マウスの96.6%はヒトのゲノムである。
今後の問題は個体による違いで、特にSNP (Single Nucleotide Polymorphism、「スニップ」) の研究が進んでいる。しかし、SNPの99%は遺伝子の中にはなく、生物的に無意味である。SNPと病気を結びつけ、個人創薬の可能性が追求されている。
ヒトとチンパンジーとは、平均1.27%しか違わない。一番違うのはY性染色体、それでも1.9%。ヒスタミンH1 receptorでもチンパンジーとヒトとの違いはわずか。
CCR5 gene はHIVへの耐性と関係があると思われ、白人では9%のヒトが持っているが、黒人では0.1%以下である。700年前のペスト大流行で、この遺伝子を持たないヒトは死亡したためと思われる。
タンパク質の解析では、質量分析機でTOF (time of flight) で解析する。deconvolutionが必要で、コンピュータの能力がボトルネックとなっている。Genomicsならテラバイトでよいが、Proteomics ではペタバイトが必要で、さらに個人創薬となるとエクサバイトが必要になる。是非とも、コンピュータサイエンスの力を借りたい。(ただ、どういうHPCがほしいのかという具体的な話はなかった)
8) The World Wide Telescope
14日(水曜日)の招待講演は、Jim Gray, Microsoft Researchの”The World Wide Telescope: Mining the Sky”で始まった。
今や天文のデジタル化された観測データは膨大な量になり、ほとんど公開されてはいるが、生のデータをftpで取るような形が多く、すぐ自分の他のデータに統合できるような形にはなっていない。そこで、天文の学界では、Astronomical Data Gridを構築して、World Wide Telescopeというvirtual observatoryを造ろうとしている。これはデータマイニングにとっても大きな挑戦である。
これまでは、人間が仮説を提示し、コンピュータがそれをチェックするのが普通であったが、これからは、コンピュータが(データから)仮説を提示し、人間がそれをチェックするようになるであろう。データマイニングによって、今後どんどん新しい発見がなされるであろう。データマイニングといっても、科学と商業では全然違う。科学では、データはファイルにあり、科学者が自分で解析を行うが、商業では、データはデータベースにあり、標準的なソフトで解析を行う。
最後にSloan Digital Sky Serveyのデータ (http://www.sdss.org/) を用いて、デモを見せた。これは、教育にも大きな意味がある。
Grayは2007年1月26日洋上で行方不明になったが、Microsoft Researchは2009年、氏を記念して論文集“The Fourth Paradigm: Data-Intensive Scientific Discovery”(データ集約科学は第4の科学)を公開した。
9) Grid Computing
続いて、今年SDSC (San Diego Supercomputer Center)所長になったばかりのFran Berman女史が、”Grid Computing in the Terascale Age”という講演を行った。
Grid computingとは何か?いろんな定義があるが、”Resource sharing and coordinated problem solving in dynamic, multi-institutional virtual organizations”と定義しておこう。
Gridという名前はPower Grid(電力網)からきているが、grid computingは、資源やサービスのスペクトルが遙かに広く、セキュリティの問題や、政治社会的な問題まで含むところが違っている。
歴史を振り返ると、1980年代にGigabit Testbedが始まり、離れた場所を結合して何かの応用を走らせることが可能になり始めた。それ以後、並列処理、ネットワークの研究が急速に進んだ。SC95におけるI-wayは、最初の大規模なGridの実験であった。このときは17カ所が、vBNSやOC3で結合され、60以上のapplicationが走った。
それ以後、急速にGridのcommunityが拡大し、例の本も出た。ソフトウェアの研究も進み、Ian Foster, Carl KasselmannなどのGlobus projectは、Grid を階層化されたサービスの集合として位置づけた。GrimshowらのLegion projectは、Gridを一つの仮想的計算機として見せた。併せて、SRB, Condor, NetSolveなどのbasic buiding blocksも登場した。
アプリケーションのコミュニティも増大した。Grid-friendlyな応用が開発され、現実の応用で成功した。Mcell(cellular microphysiology)では、計算時間が10分の1に減少した。Using everything — “everyware” (Wolski in SC98) all at the same time, adapting to resource availability—solution was ubiquitous, resource aware and adaptive (not embarrassingly parallel).
1995-2000には、国際的な協力も始まった。US/EU/AP。現在では、とロゴの一覧を見せた。グリッド・コミュニティは今や成熟した。インフラから応用に進み、middleware, everyware, performance, scalabilityなどが中心。いまや、元々のインフラを飛び出している。Grids becoming a first-class scientific tool.
Gridを使いよくするためのPortalも開発された。今や、Grid as a critical platform for computing と考えられている。Broad acceptance of Grids as a critical platform of computing. Globalization of the Grid — EU grid, AP grid, PRAGMA, UKなど。今後PRAGMA (Pacific Rim and Grid Middleware Assembly)がアジア太平洋地域におけるグリッドのアプリケーションテストベッドとして関連が深くなってくるであろう。
今やGridは、NII (National Information Infrastructure)の重要な基盤である。NSFは今年の8月9日に、$53MをTeraGridに付けた(SDSC, NCSA, CalTech, ANL)。これは、13.6 TF, 6.8 TB memory, 79 TB internal disc, 576 TB network disc。これにより、脳の研究などに画期的な進歩があるであろう。これまでは一つのPETのデータ4 TBしか扱えなかったが、TeraGridにより、多くの共同の研究所の400 TBのデータが利用可能になる。Targeting the Grid as a first-class scientific tool.
Grid computing in the digital Millenniumは、personalized media, sensors, instruments, wireless, network, knowledge from data, …..今後10年には、Gridは予想もできないような集積度とスケールに達するであろう。
TeraGrid からPetaGridになる。今では知識は所有されているが、これからは、sharing as a default mode of interactionとなるであろう。We should have to be Heroes to achieve Grid program performance.
Drivers wanted, Leadership needed!!!
10) Top 500
14日(水曜日)の17:30からBoF (Birds of a Feather) の一つとして、Top 500 の会があった。J. Dongarra, E. Strohmeier, H. Simonなどが主催。
いつもの通り、今年の発表があった。webには先週の8日から掲載されている。今年は表彰状を作り、上位3位はこの場で表彰した。あとは、来ているところに配った。筑波大学計算物理学研究センターにも79位の表彰状が来た。1996年には1位だったのに。
このほか、歴史のまとめ、アーキテクチャ別、国別、製造会社別、テクノロジー別などのデータが報告された。最後に、クラスタのTop500の発表があった。今回はとくに目立った報告はなかった。かつて、”Japan Inc.” などというentryが出てきたので、”No such company as Japan Inc.” などと野次ったこともあったが。
今年は、日本の松岡(東工大)自作のPresto III (Athlon 1.2 GHz 331.70 GFlops)のデータが落ちていたり、「RWCP SCore IIIe」(Pentium III 933 MHz 618.30 GFlops)のデータが古いままだったりミスが目立ったので、先週のうちに抗議のメールが送られ、10日には改訂版が出た。結局、SCoreIIIは40位、PrestoIIIは86位にランキングされた。これで、IA32(x86)系のクラスタのランキングでは、我が国のクラスタが1位(Magi), 2位(Score III),4位(Presto III)になった。ちなみに、理研のP4クラスタも350位にランクインした。筑波大学のVPP5000(6月には申告漏れ)は27位、CP-PACSは80位であった。
20位までは以下の通り。Compaq社は初めて10位以内に2台登場した。Rmaxの単位はTFlops。
順位 | 設置場所 | システム | Rmax |
1 | LLAN | ASCI White SP Power3 375 MHz | 7.226 |
2 | Pittsburgh Supercomputer Center | AlphaServer SC45 1 GHz | 4.095 |
3 | NERSC | SP Power3 375 MHz 16 way | 3.052 |
4 | SNL | ASCI Red | 2.379 |
5 | LLNL | ASCI Blue-Pacific SST SP 604e | 2.144 |
6 | LANL | AlphaServer SC45 1 GHz | 2.092 |
7 | 東京大学 | SR8000/MPP | 1.7091 |
8 | LANL | ASCI Blue Mountain | 1.608 |
9 | Naval Oceanographic Office | SP Power3 375 MHz | 1.417 |
10 | ドイツ気象庁 | SP Power3 375 MHz 16 way | 1.293 |
11 | NCAR | SP Power3 375 MHz 16 way | 1.272 |
12 | 大阪大学 | SX-5/128M8 3.2ns | 1.192 |
13 | NOAA | SP Power3 375 MHz | 1.179 |
13 | 同上 | 同上 | 同上 |
15 | 米国某政府機関 | T3E1200 | 1.127 |
16 | LLNL | SP Power3 375 MHz 16 way | 1.100 |
17 | Leibniz Rechenzentrum | SR8000-F1/112 | 1.035 |
18 | SDSC | SP Power3 375 MHz 8 way | 0.929 |
19 | 高エネルギー加速器研究機構 | SR8000-F1/100 | 0.917 |
20 | US Army HPC Research Center at NCS | T3E1200 | 0.892 |
前回(6月)と同じくIBMが台数で36%、性能で37%を占めた。多くの人を驚かせたのは、HP社が台数で30%を占め、2位となったことである。ただし大部分は140位以下のSuperDome/HyperPlexであり、性能のシェアは15%に留まっている(それでも2位)。148位にはPA-8600 549MHzを128個搭載したSuperDome (Rmax=196.7 GFlops)が同位で32台連続して並んでいる。続いてはSGI、Cray、Sun Microsystemsがそれぞれ41台、39台、31台の順となっている。HPのSuperDomeが大量登場したことにより、ボトムエンドも前回の67.68 GFlopsから今回いきなり94.3 GFlopsに上がった。予想では80と見られていた。
11) Scientific Visualization
15日(木曜日)のinvited talkは、Chris Johnson (U Utah)の、”Scientific Visualization”で始まった。たくさんの絵やビデオを見せたが、主として医学的な可視化の話が多かった。脳腫瘍の手術のためのVRとか、心電図の立体化とか、歯のCTとか。一部、カナダの低気圧の図もあった。問題は、volume renderingのcomplexityをどう減らすかというようなことであった。その他、
-Tensor visualizaiton
-Diffusion in biological tissue
-Diffusion of MRI of brain
-Brush strokes (?)
-Barycentric mapps — volume rendering
の例を示した。私見と断っていたが、今後の課題として以下の点を挙げていた。
-Error and uncertainty visual representaiton
-Perceptual issues(人間がどう認識するか)
-Quantify effectiveness
-Time-dependent visualization
-Pipeline complexity
-Think about the science(サイエンスを忘れているとよく批判される)
-Interesting feature detection
-Leverage both hardware and software methods
-multi-field visualization
12) Digital Actors
この日もう一つの招待講演は、「デジタルな役者は、人間の役者に置き換わるか」というAlvy Ray Smith の講演であった。かれは、SC96 (Pittsburgh)の招待講演(金曜日午前)において、Toy Storyの制作の裏話を、多くのビデオを見せながら面白く話したので、今回も同様かと思って期待したが、なんと、ビデオはおろかOHPも使わずに、ただ演壇で講演しただけであった。内容も、計算機が自意識を持てるかというような哲学的な話が多くて、結局答えがyesなのかnoなのかも分からなかった。
13) Technical papers
今年は240件の投稿があり、60論文が採択された。日本からは、
-Tetsu Narumi et al. (RIKEN), “8.61 Tflops/s Molecular Dynamics Simulation for NaCl with a Special-Purpose Computer:MDM” (Gordon Bell Finalist)
-Toyotaro Suzumura et al. (Titech, AIST), “A Jini-based Computing Portal System”
-Shigeru Muraki et al. (AIST, Mitsubishi Precision, UCD), “Next-GenerationVisual Supercomputing using PC Clusters with Volume Graphics Hardware Devices”
-Osamu Tatebe et al. (AIST, Hitachi Business, Hitachi), “Design and Implementation of FMPL, A Fast Message-passing Library of Remote Memory Operations”
の4件が発表された。
-Aiichiro Nakano et al. (Louisiana S U, Logicon, Naval Oceanographic Office, Yamaguchi U, HIroshima U, NASA Ames) “Scalable Atomicstic Simulation Algorithms for Materials Research
は、日本とアメリカの共同研究であろうか。
Technical sessionsの傾向として、
-Grid関係が5セッション
-応用関係が5セッション
-architecture関係が2セッション
が目立つくらいか。1セッションは通常3件の発表を含む。
なお、今年は松岡(東工大)がプログラム委員を務めた。来年は三浦謙一(富士通)がPCに入っているということである。今年はグリッド関係のペーパーが多かったせいか、来年はグリッドに関してテクニカルサブコミッティーが構成され、松岡(東工大)、関口、田中(産総研)がメンバーとして入るということである。
次回はSC恒例のAwardsである。牧野氏は5回目のGordon Bell賞を受賞。Wikipediaが活動を始める。
(タイトル画像:SC2001ロゴ 出典:SC2001ホームページ)