新HPCの歩み(第254回)-2007年(g)-
中国科学院はLoongson 2Fを発表し、曙光(Sugon)はこれを搭載したDawning 5000Aを予告したが、実際には使われなかった。しかし、中国科学技術大学は、Loongson 2Fを338基搭載したKD-50-Iの開発に成功したと発表した。Ken KennedyやJohn Backusが死去し、Jim Grayが行方不明になった。 |
中国の動き
1) 情報産業「第11次5ヵ年」規画
中国の国家情報産業部は2007年3月1日に情報産業「第11次5ヵ年」規画を発表し、「2010年までに情報産業総売上高10兆元、年平均伸び率17.6%。このうち、通信業界の売上高は8860億元、年平均伸び率は7.6%、電子情報産業の売上高 は9兆元、年平均伸び率は18%。」を発展目標としている。
また、国家発展改革委員会は2007年4月28日にハイテク産業発展「第11次5ヵ年」規画を発表し電子情報産業とハイテクサービス業を発展の重点と位置付けている。
2) 中国科学院
既報のように、2006年11月18日、MIPSアーキテクチャの中国製CPU「龍芯」の英語名をLoongsonと決めたと発表した。これまではGodsonと呼ばれていた。これを開発したのは、中国科学院コンピュータ技術研究所で、開発者はHu Weiwu(胡偉武)教授。2001年から開発を始め、2002年には龍芯1号(32ビット、266 HHz)、2003年には龍芯2号(64ビット、300-500 MHz)を完成している。何種類かのチップがあるが、2006年9月に開発されたLoongson 2Eは、Wikipediaによると
-four-way superscalar, out-of-order execution, 64-bit MIPS architecture processor core
-Little-endian MIPS III-compatible ISA
-five execution units: two ALUs, two FPUs, and one address generation unit (AGU)
-SIMD unit is integrated with one of the two FPUs
-Separate 64/64 KB instruction and data L1 caches
-On-chip 512 KB four-way set-associative L2 cache
-Integrated DDR memory controller
-Max. 7 W at 1 GHz
という仕様である。2007年12月に開発されたLoongson 2Fの仕様は、
-four-way superscalar, out-of-order execution, 64-bit MIPS architecture processor core
-Little-endian MIPS III-compatible ISA
-five execution units: two ALUs, two FPUs, and one address generation unit (AGU)
-SIMD unit is integrated with one of the two FPUs
-Separate 64/64 KB instruction and data L1 caches
-On-chip 512 KB four-way set-associative L2 cache
-Integrated DDR2 memory controller
-Integrated very simple video accelerator
-Software-controlled dynamic power management
-Max. 4 W at 1 GHz
であり、マルチメディア系命令が追加されている。2Fは最高1.2 GHzで動作し、HPCにも十分使える仕様になっている。このあと2Gと2Hが65nmで開発された。
![]() |
|
3) 曙光(Sugon)
2007年10月26日に深圳で開催された会議において、中国科学院国家智能計算机研究開発中心(the National Research Centre for Intelligent Computer Systems)所長のSun Ninghui(孫凝暉)博士は、Dawning 5000A(曙光)が来年後半に稼働すると発表した。5000Aは、中国で独自に開発したLongxin(龍芯)III CPUを利用する予定であり、10 TFlopsのDawning 4000Aより10倍高性能であろうと期待される。また、さらに高速化した5000Lが2010年中にも稼働するであろう。ロゴはWikipediaから。
実際には、1.9 GHzのquad-core AMD Opteron 7680個をInfinibandで結合したもので、Windows HPC 2008が搭載されている。上海スーパーコンピュータセンターに設置されMagic Cubeと命名された。2008年11月のTop 500では、Rmax=180.6 TFlops、Rpeak=233.472 TFlopsで11位にランクしている。「龍芯」は使われなかったようである。
4) 龍芯を搭載したスーパーコンピュータ
人民網日本語版の2007年12月28日号によると、中国科学技術大学(安徽省合肥市)は中国科学院コンピュータ技術研究所と共同して、このほど中国初の国産CPUチップ「龍芯2F」とその他国産部品、設備と技術を採用したTFlopps級高性能コンピュータ“KD-50-I”の開発に成功したとのことである。中国科学技術大学が来年創立50周年を迎えるので“50”という名前をつけたようである。とするとKは「科学kexue」、Dは「大学daxue」であろうか。同2008年1月14日号は、中国科学院王守覚院士が主任を務める専門家委員会の審査を2006年12月26日に通過したと報じた。“KD-50-I”は、338個の龍芯2Fが搭載され、華為技術有限公司の開発したイーサーネットスイッチで接続されている。消費電力は6 kW以下とのことである。(チャ イナネット 2007/12/28)(人民網日本語版 2007/12/28) ピークは 1 TFlopsだが、Linpackは0.34 TFlopsであま り性能が出ていない(ATIP JAPAN/ASIA HPC DIGEST (JANUARY 2008))。メモリが少ないか、メモリバンド幅が足りない か、チューニングが不十分かであろう。HPLは使っているようである。2008年10月7日付の新華社電は、曙光情報産業有限公司の歴軍・総裁が、中国が独自に開発した「龍芯4号」を用いて2010年に1000 TFlopsのスーパーコンピュータ「曙光6000」を完成させる方針を明らかにしたと報じた。
5) 国家並列計算機工程技術センター
高性能並列計算機システムを研究開発するために、1996年、中国国家並列計算機工程技術センターが設立され、「神威」というシリーズを開発している。1999年に発表された神威-Ⅰ(384 GFlops)(国家気象センター)からスタートし、2007年には神威3000A(18 TFlops)を開発した。国家海洋海洋予報センターに納入された。プロセッサは不明である。OSはlinuxらしい。(Science Portal China 2015/6/30)
6) 中米合同科学計算センター
中国科学院・スーパー計算センターは2007 年5 月31 日、米国ニューヨーク科学計算センター、北京泰瑞世紀科技有限公司と共同で北京に中米合同科学計算センターを立ち上げた。同センター設立の目的は、高性能計算応用技術の研究開発に加えてコンサルティングサービスなどを展開することにある。
7) 北京気象局
北京気象局(The Beijing Meteorological Bureau)はIBM社のp575を購入した。これにより、2008年の北京オリンピックのための天気予報を改善する計画である。(Phys.org 2007/8/16)次項に示すように、2007年11月のTop500では234位にランクしている。
8) China HPC Top100
6回目となるChina HPC Top100 2007が発表された。10位までを記す。性能の単位はTFlopsである。Top500は2007年11月のTop500での順位を示す。
順位 |
Top500 |
設置場所 |
製造 |
機種 |
Cores |
Rmax |
Rpeak |
1 |
59 |
中国石油化工股份有限公司 勝利油田物探研究院 |
IBM |
IBM BladeCenter HS21 Cluster, Intel Xeon Woodcrest Dual Core 2.33 GHz/Giga-E |
4096 |
18.6 |
38.2239 |
2 |
142 |
中国気象局 |
IBM |
IBM SP Power4+, eServer pSeries 655 (1.7 GHz Power4+) / 3200/ Federation |
3200 |
10.31 |
21.76 |
? |
234 |
北京気象局 |
IBM |
eServer pSeries p5 575 1.9 GHz |
1280 |
8.3491 |
9.728 |
3 |
252 |
上海超級計算中心 |
曙光 |
曙光 4000A/640×4 Opteron 2.2GHz/Myrinet |
2560 |
8.061 |
11.264 |
4 |
|
中国気象局国家衛星気象中心 |
SGI |
Altix 4700/Itanium2 Montecito 1.6GHz/ NUMALink4+Infiniband |
1280 |
7.127 |
8.192 |
5tie |
379tie |
遊戯公司B-上海1 |
HP |
Blade Cluster BL-20P, Pentium4 Xeon 3.2GHz/Giga-E |
1950 |
6.976 |
12.48 |
5tie |
379tie |
遊戯公司B-成都 |
HP |
Blade Cluster BL-20P, Pentium4 Xeon 3.2GHz/Giga-E |
1950 |
6.976 |
12.48 |
5tie |
379tie |
遊戯公司B-上海2 |
HP |
Blade Cluster BL-20P, Pentium4 Xeon 3.2GHz/Giga-E |
1950 |
6.976 |
12.48 |
5tie |
379tie |
遊戯公司B-上海3 |
HP |
Blade Cluster BL-20P, Pentium4 Xeon 3.2GHz/Giga-E |
1950 |
6.976 |
12.48 |
5tie |
379tie |
遊戯公司B-北京 |
HP |
Blade Cluster BL-20P, Pentium4 Xeon 3.2GHz/Giga-E |
1950 |
6.976 |
12.48 |
5tie |
379tie |
遊戯公司B-西安 |
HP |
Blade Cluster BL-20P, Pentium4 Xeon 3.2GHz/Giga-E |
1950 |
6.976 |
12.48 |
China Top10にもゲーム会社が目立つ。
世界の学界の動き
1) PlayStation 3によるFolding@home
Folding@homeは、2000年10月からStanford大学を中心に行われている分散コンピューティングのプロジェクトで、いわゆる「遊休資源グリッド」の代表格である。タンパク質のfolding(折りたたみ)を解析するものであるが、本格的なMD (molecular dynamics, 分子動力学)を数μsの長時間にわたって実行するのではなく、数psのMDを実行して、その結果を非常に多く集めて、統計的にfoldingが起こるまでの緩和時間を予測する計算である。最初はx86のプロセッサであったが,その後GPUも使われるようになった。
Wikipediaによると、2007年3月22日にはソニーのPS3 (PlayStation 3)でも参加ができるようになり、9月16日には67万台で1 PFlopsを達成しギネスブックに登録された。(HPCwire 2007/11/5) PS3で性能が出るような計算に目的を絞っている。具体的には水などの溶媒を連続体近似するImplicit Solvation Modelを使い、メモリを節約し、Cell B.E.の256 KBのローカルメモリで収まるようにして計算を行っているようである。これはGPUの場合と同様であるが、Cell B.E.はGPUより柔軟性があるので、溶媒を直接扱うExplicit Solvation Modelでも扱えるとのことである。
2) PlayStation 3によるクラスタ
2007年1月3日、North Caroline State UniversityのFrank Mueller教授は、8台のPS3をクラスタとして作動させたと報告した。ソフトウェアはFedora Core 5 Linux ppc64、MPICH2、OpenMP v2.5、GNU Compiler Collection、および CellSDK 1.1である。(Wikipedia: PlayStation 3 cluster)
3) 省電力
世界的に省電力への関心が高まっている。これは、運転経費の節減という観点だけでなく、環境への責任という面からも議論されている。昨年からGreen500も始まっている。(HPCwire 2007/6/1)
4) 「超並列は実用になるか?」
HPCの主流が、MPP(Massive Parallel Processor、超並列)に向かう中で、HPCのユーザが超並列を使いこなせるのかと、UC BerkeleyのDavid Pattersonらが問題提起を行った(Stanfor大学での講演スライド)。彼らはまず、従来の常識が通用しなくなったことを指摘した。
古い常識 |
新しい常識 |
1.電力はタダだが、トランジスタは高価 |
1.電力は高価で、トランジスタはタダ(電力の壁) |
2.動的電力だけが問題 |
2.リーク電力が全体の40%を占める |
3.チップ内は信頼性が高く、ピンが問題 |
3. 65nm以下では、チップ内でもソフトエラーやハードエラーが起きる |
4.ハードウェアが微細化するので、どんどん抽象度を上げて複雑なチップを設計すればよい |
4.遅延、雑音、クロストーク、信頼性、クロックのずれ、設計の検証などのため、開発の時間もコストも増大する |
5.研究者は新しいアーキテクチャを、チップを作って実証する |
5. 65nm以下のマスク製造の費用、設計の費用、設計の時間などのため、研究者は簡単にチップを造れない |
6. レイテンシもバンド幅も進歩する |
6.バンド幅は進歩するが、レイテンシはその平方根程度しか進歩しない |
7.乗算は遅いが、ロード/ストアは速い |
7.ロード/ストアは遅いが、乗算は速い(メモリの壁) |
8. コンパイラやアーキテクチャの革新により、ILP(命令レベル並列性)を向上できる |
8.ILPによる性能向上はどんどん少なくなる(ILPの壁) |
9.18か月ごとにCPUの性能は倍増する |
9.レンガの壁=電力の壁+メモリの壁+ILPの壁 |
10.クロック周波数の向上が性能向上のカギ |
10.プロセッサ並列性が性能向上のカギ |
11.アプリの並列化をしなくても、待っていれば速い逐次型のコンピュータが出てくる |
11.チップ当たり1プロセッサのコンピュータなんてもはや誰も作らない |
12.線形にスケールしない並列プロセッサは失敗 |
12.線形にスケールしなくとも有用である |
したがって、並列性の増大は、勝利の前進ではなく、一歩後退であり、ブレークスルーが必要である。これまで、マルチプログラミング(複数の独立な逐次タスクの集合)ではなく、メニーコア上で1個のタスクを走らせるマルチスレッディングが有用である。物理科学における最先端シミュレーションの主要な手法(構造格子、非構造格子、FFT、密行列代数、疎行列代数、粒子径、Monte Carlo)を抽出し、その実装を議論した。万人が超並列を使いこなすには、「人間中心のプログラミングモデル」が必要であると述べている。
これをめぐり、HPCwireはPattersonらにインタビューを行っている(HPCwire 2007/3/2)。
5) TRIPS Processor
Texas大学Austin校のBurger教授等は、2007年4月30日、TRIPS Processor (Tera-op Reliable Intelligently adaptive Processing Systems)のプロトタイプを公開した。TRIPSはEDGE (Explicit Data Graph Execution)というISA(命令セットアーキテクチャ)に基づき、膨大な数の実行ユニットを並列に実行できる。DARPAから$20Mの支援の下、IBM、Intel、Sun Microsystems社と共同研究を行っている。(HPCwire 2007/5/4)
6) SuperPI
SuperPIは、1995年に東京大学金田研究室の金田康正らが公開した、円周率計算プログラムであるが、2007年7月、Intel Core2で104万桁が10秒を切った。1992年に出たベクトルコンピュータ HITAC S-3800/480(1プロセッサ当たり 8GFLOPS)で実行すると,104万桁がCPU時間で約5秒,経過時間で約10秒程度であったが、Intel Core2 は S-3800 を既に上回っているということのようである。金田・高橋らがSuperPI をリリースしたのが,1995年9月(Windows 95が出る前)であったが,当時の標準的な PC だった Pentium 90 MHz では,104万桁の計算に約40分も掛かっていた。
![]() |
|
7) Petascale本
“Petascale Computing: Algorithms and Applications”(Chapman & Hall/CRC Computational Science)という本(616ページ)がCRC Pressから2007年12月22日に出版された。日本からは、MD-Grape関係の話を理研の泰地真弘人他が、またTSUBAMEの話を松岡聡が寄稿している。どういうわけか編集者のDavid A. Bader教授(Georgia工科大学)から頼まれたので、筆者も推薦文の一つを書いた。お礼に1冊いただいた。SC07では出版イベントがあったようである。
2019年にはペーパーバックで再刊されている。
8) Tim Berners-Leeに英王室が功労勲章(The Order of Merit)を授与
WWW (World Wide Web)の発明者であるTim Berners-Lee氏に、イギリス王室は2007年6月13日功労勲章(The Order of Merit)を授与した。この勲章は、芸術や科学に特別な貢献をした人に贈られる同国で最上級の勲章と位置づけられており、同氏にとっては、2004年にナイトの爵位を授与されたのに続く栄誉となった。氏はLondon出身で、CERNにおいて1990年11月12日に”WorldWideWeb: Proposal for a HyperText Project”を提案した。1992年のところに書いたように、筆者は1992年1月中旬に、南仏の保養地コート・ダジュールの一角で開かれたAIHENP 92 (2nd International Workshop on Software Engineering, Artificial Intelligence and Expert Systems, 1/13-18) La Londe Les Maures, Franceに参加したが、ここでTimがデモを行っていた。PCでも、Macでも、X terminalでも、Nextでも、dumb端末でも、どんな端末からでもアクセスできることを強調していた。また1992年9月にはAnnecy(フランス)でのCHEP 92 (Computing in High Energy Physics, 9/20-25) でCP-PACSプロジェクトについて講演したが、この会議でもTimはデモを行い、ヨーロッパとアメリカの10近い高エネルギー用のWWWサーバがすでに存在することを強調していた。しかし筆者は、両方とも見に行ったものの、その意味を全く理解出来なかった。線でつながっているんだから、データが表示されるのは当たり前ではないか、という程度の認識しかなかった。プッシュ型の情報通信しか頭になく、プル型の通信の意味を理解していなかった。
9) Beverly Clayton (PSC)退職
Pittsburgh Supercomputer Centerが1986年に創立された時から20年以上事務局長(Executive Director)を務めてきたBeverly Claytonが、2007年3月末に退職することになった。彼女は半生を語った。「私の最初の仕事はGulf Oil Research and DevelopmentにおいてFortranのプログラマー兼Fortran教師でした。そのころ、プログラムを書ける科学者は非常に少なく、ましてや女性はほとんど皆無でした。」(HPCwire 2007/3/30)
10) Ken Kennedy死去
Rice大学のKen Kennedy教授が2007年2月7日に膵臓がんのために死去した。享年61歳であった。Kennedyは並列処理、特にHPF (High Performance Fortran)、Fortran D、MPIなどについて指導的な立場にあった。1997年から1999年にアメリカ大統領諮問機関PITACの共同議長を務めた。
11) Jim Gray行方不明
Jim Grayは、2007年1月28日に母親の散骨のためにサンフランシスコ近海のファラロン諸島にヨットで向かい、行方不明となった。Microsoft研究所所属。62歳。1998年、「データベースおよびトランザクション処理に関する独創的な研究とシステム実装についての技術的リーダーシップに対して」チューリング賞が贈られた。彼を追悼する論文集 “The Fourth Paradigm: Data-Intensive Scientific Discovery”(2009) において「データ科学(data-intensive science)」を、実験科学、理論科学、計算科学に続く「第4の科学」として提示し、データの収集、管理、解析のツールのために研究資金を投入することと、通信と情報発信のためのインフラストラクチャの整備を求めた。
12) John Backus死去
Fortranの開発者。Backus-Nauer Formの発明者。IBM社員。2007年3月17日にオレゴン州で死去。82歳。1977年「特にFORTRANの研究によって行われた、実用的な高水準プログラミングシステムの設計への深く、影響力のある恒久的貢献に対して。そして、プログラミング言語の仕様記述の形式的手法についての強い影響力のある出版に対して」Turing賞が贈られた。「プログラムを書くのが嫌いだったのでFORTRANを発明した」そうである。「平成や、ふぉーとらんは遠くなりにけり」。New York Times紙の訃報によれば、かれは変わり者で、IBM社の中でもジーンズで通したとか。
13) Gene H. Golub死去
数値解析、とくに行列計算の分野を引っ張って来たStanford大学のGene H. Golub教授は、2007年11月16日Palo Altoで亡くなった。75歳。死因は白血病であった。氏は、1932年2月29日、Chicagoにおいて、Latvia移民とUkraine移民の両親から生まれた。(The New York Times 2007/12/10)
次回は国際会議。Hot Chipsでは、量子コンピュータまで話題に上った。
![]() |
![]() |
![]() |