HPCの歩み50年(第188回)-2010年(n)-
AMD社はAPU (Accelerated Processing Unit)を来年発売する計画であることを発表した。NVIDIA社は、Fermiアーキテクチャを採用したGeForceシリーズの新モデル「GeForce GTX 400シリーズ」を発表した。ヨーロッパでは、PRACE (the Partnership for Advanced Computing in Europe)が4月に正式発足した。
アメリカ企業の動き(続き)
15) AMD社 (Llano)
2010年2月7日~11日にSan FranciscoのMarriott Marquis Hotelで開始されたISSCC会議において、AMD社は2011年に投入する予定の、32 nm SOIプロセスのK10 (Hound)系CPUコアの概要を明らかにした。これはCPUにGPUを統合したもので、これまでFusionと呼ばれていたLianoのコアで使われるものと見られている。LlanoはノートPCとデスクトップPC向けの32nm APUで、1個のダイに2~4個のCPUコアとDirectX 11対応GPUコア、PCI Expressホストなどを統合する。32 nm世代のHPC向けにはBulldozerを投入する。32nm版では以下のようなアーキテクチャ上の拡張が行われる。
・命令ウインドウを拡張し、整数/浮動小数点(FP)の実行スループットを向上
・ハードウェア整数除算
・浮動小数点演算(FP)命令のレイテンシを短縮
・データプリフェッチを拡張
・メモリフィルとキャッシュステイトのトランジションを高速化
・フルのプロセッサステイトのセーブを含めたI/OベースのCステイト
・バーチャライゼーションの高速化のためのTLBの拡張
製造を担当するのはGLOBALFOUNDRIESである。
16) AMD社 (Magny-Cours)
AMD社 は2月22日、サーバ用プロセッサ“Opteron 6100”シリーズの8コアおよび12コアプロセッサ“Magny-Cours”(コード名) の出荷が始まっていることを明らかにした。Magny-Cours は基本的には、6コア“Istanbul”(コード名) 世代のOpteron プロセッサを2基、HyperTransportインターフェイスでつなげて1パッケージとしている。HyperTransportのリンク数が従来の3本から4本へと増加し、4ソケット環境ですべてのCPU同士を直接結合することができるようになった。メモリコントローラはクアッドチャネルのDDR3-1333まで対応する。
ZDNet(3月30日)によると、AMD社は米国時間3月29日、ハイボリューム市場向けの8コアおよび12コアのx86プロセッサを含む、サーバ用プロセッサの新たな製品シリーズAMD Opteron 6000 Seriesを正式発表した。これはIntelが新サーバ用プロセッサ“Intel Xeon Processor 5600”シリーズを発表してから約2週間後の発表となった。一方のIntelは、これに対抗して3月30日に記者会見を開き、サーバ向け製品についてさらなる新情報を明らかにする予定である。両社はデッドヒートを演じているが、どんな競争になるか見ものである。
17) AMD社 (Bulldozer)
2010年4月ごろから、AMD社は新しいマイクロアーキテクチャであるBulldozer(コード名)について情報を流し始めていたが、8月24日、Bulldozerの詳細を明らかにした。Bulldozerベースのプロセッサは多くのコアを搭載することができ、従来のマイクロアーキテクチャのMagny-Coursより50%高速に動作するとのことである。第1弾はサーバ向けのInterlagos(コード名)で、12~16コアを搭載する。2011年11月14日にリリースされた。Bulldozerは2つのコア間で浮動小数点ユニットなどを共有することにより、性能を向上させる。
AMD社は同時に省電力用のBobcatマイクロアーキテクチャも発表した。これはIntelのAtom系のコアに対抗するものであるが、Atomよりパイプの数を増やし、Out-of-Order実行のアーキテクチャである。そのためBobcatコアのCPUは、IntelのAtomとCoreの中間を狙ったものであろう。
18) AMD社 (APU)
AMD社は2006年10月ATI Technologiesを買収して以来、CPUとGPUを統合した製品(コード名AMD Fusion)を開発してきたが、2010年になってAMD APU (Accelerated Processing Unit)を2011年に投入する方針を明かにした。もともと2009年頃を予定していたが、技術的な困難やLehmanショックなどにより遅れている。最初の統合チップは、デスクトップやラップトップで使われるであろうが、科学技術ユーザとしては、統合によりもっと使いやすくCPUと親和性のあるGPUを期待している。
当然Intel社にも同様な構想があり、例えばAtomチップは、2つのprocessing coresとグラフィックス機能を一つのチップ状に統合している。半導体テクノロジの点ではIntel社は2010年に32 nmへ移行したが、AMD社のパートナーであるGLOBALFOUNDRIESは2011年に移行を予定しており、Intel社は一足先にSandy Bridgeでこの取り組みを実現すると予想されている。
課題はいろいろあり、CPUとGPUを命令セットとして統合するのか(統合すると一種のベクトルプロセッサみたいなものができるのか?)、HPCとして使うときのメモリバンド幅の不足をどうするのか、discrete GPUとの差別化をどうするのか、プログラミングをどうするのかなど、議論されている。
OntarioやLlanoなどのAMD APU製品が出荷されたのは2011年になってからである。
19) NVIDIA社 (GeForce)
NVIDIA社は、Fermiアーキテクチャを採用したGeForceシリーズの新モデル「GeForce GTX 400シリーズ」を3月27日(日本時間)に“発表した。今回登場したのは上位モデルのGeForce GTX 480と下位モデルのGeForce GTX 470の2機種である。出荷は4月の予定。
GeForce GTX 400シリーズの内部は、Fermiアーキテクチャの特徴であるCUDAコアと複数のCUDAコアをまとめて機能するStreaming Multiprocessor(SM)を基幹にして構成される。GeForce GTX 480のコアクロックは700MHz、CUDAコアクロックは1401MHz、メモリクロックは1848MHz。内蔵するCUDAコアの数は480基である。また、GeForce GTX 470のコアクロックは607MHz、CUDAコアクロックは1215MHz、メモリクロックは1674MHz。内蔵するCUDAコアの数は448基である。これまでのGTX 285を含めて比較すると表のようになる。
GPU |
GeForce GTX 480 |
GeForce GTX 470 |
GeForce GTX 285 |
製造プロセス |
40nm |
55nm |
|
CUDA Core(SP) |
480基 |
448基 |
240基 |
Texture Unit |
60基 |
56基 |
80基 |
ROPS |
48基 |
40基 |
32基 |
コアクロック |
700MHz |
607MHz |
648MHz |
シェーダクロック |
1401MHz |
1215MHz |
1476MHz |
メモリ
|
GDDR5 1536MB 386bit接続 |
GDDR5 1280MB 320bit接続 |
GDDR3 1024MB 512bit接続 |
メモリクロック (データレート) |
924MHz(3696MHz) |
837MHz(3348MHz) |
1242MHz(2484MHz) |
最大消費電力 |
250W |
215W |
185W |
たしかに電力性能比は上がっているが、200Wを超える消費電力は半端でない。ただ、ちなみにGeForceでは倍精度性能がわざと殺してあるようで、現世代のGeForce程度になっている。倍精度で本格的に計算したい場合はGPGPU専用のTesla(Fermi以降)を買う必要がありそうである。
2010年6月10日のHPCwireにおいて、Michael Feldmanは、メニーコアが本格的に開発されたら、GPUに将来はないのではないか、という意見を載せている。「最近のZDNetブログで、NAGのAndy Jonesは、水晶球を覗いて、GPU型のプロセッサがスーパーコンピュータの次の大きな技術になるかを占った。彼によると、前の転換はRISC CPUからx86への転換であり、これはx86アーキテクチャへの変換をサポートするツールが既にたくさんあったので、比較的苦痛がなかった。しかし、GPU では、違う。Andyはデータ並列アーキテクチャの標準がないことが問題だ、と述べている。」
20) NVIDIA社 (Echelon)
SC10のところに書いたように、NVIDIAのBill Dallyチーフサイエンティストが基調講演を行い、その中でEchelonプロジェクトの計画について公表した。DARPA(Defense Advanced Research Project Agency)は、2010年8月にExtreme-Scale Computing Projectの開始を発表し、2018年に5 0GFlops/W以上の電力効率を持ち、1筐体で1 PFlops以上の処理能力という目標を示した。2018年までの前半の4年間がPhase-1、後半の4年間がPhase-2である。このPhase-1の契約を獲得したのは、それぞれNVIDIA、Intel、MIT、SNLをリーダーとする4つのチームである。なお、DARPAのプロジェクトでは、HPCSのように、Phase-1の成果を審査して、Phase-2では1~2チームに絞り込むのが普通であり、ハードの開発という点ではNVIDIAとIntelの一騎打ちということになりそうである。
NVIDIAのプロジェクトはEchelonと名付けられており、チームにはCRAY、Micron Technology、Lockheed Martin、オークリッジ国立研究所、ユタ大学、ペンシルバニア大学、テキサス大学オースティン校、テネシー大学、ジョージア工科大学が加わっている。Echelonという語は、全世界の通信傍受システムの名前としても有名であるが、フランス語で階段を意味するéchelleに由来するようである。Echelonでは、GPUとCPUを1つのプロセサチップに内蔵しNoCを介してSM群とL2キャッシュを共用する構成となっている。各プロセサチップのピーク演算性能は20 TFlops、 メモリバンド幅は1. 6 TB/s、そしてDRAM Cubeの総メモリ容量は256 GBという夢のようなシステムである。
問題はプログラミングである。消費電力を抑えるためには、信号の伝送距離を短くし、できるだけレジスタ、その次はキャッシュやローカルメモリという風に近くにあるデータを使って演算することが必要である。Echelonシステムの実行モデルでは、全部のメモリは統一されたGlobal Memory Spaceを構成し、そこに処理を行うスレッドや処理されるオブジェクトが存在する。そして、スレッドの実行部分(SM)から階層的にメモリが存在し、実行に必要なスレッドやオブジェクトをできるだけ近くのメモリに持ってきて実行を行う。また、必要な場合にはメモリ間のブロック転送や、メモリ階層を跳ばしたLoad/Store、他のスレッドのメモリへのActive Messageなどの手段を使って消費エネルギーを抑える。このため、1024個に分割されたL2キャッシュを持ち、実行するアプリケーションの特性に対応して、全部をフラットな大きな2次キャッシュにしたり、分割して論理的な各階層のメモリとしたりする再構成可能(Reconfigurable)な構造とするという。こんなことが可能であろうか。
21) Microsoft社
Microsoft社のOSであるWindows 2000は、2000年2月18日に一般にリリースされ、2005年6月30日にサポートを終了したが、企業等で多く利用されていたため、一部延長サポートを行っていた。2010年7月13日に、延長サポートも終了した。
22) Instagram
写真交換SNSであるInstagramは、2010年10月6日、Apple社のApp Storeで正式にリリースされた。たちまち人気を得て、12月までに100万人の登録ユーザを獲得した。2011年1月にハッシュタグが導入された。その後の広がりはご存知の通り。
ヨーロッパの動き
1) ヨーロッパ連合(PRACE)
ヨーロッパのPRACE (the Partnership for Advanced Computing in Europe)は、2010年4月23日に正式発足した。本部はベルギーのBrusselsに置かれ、ベルギー法上の国際NPO (association internationale sans but lucrative - aisbl)である。2004年からEUの支援により準備が進められ、2008年に準備フェーズをスタートさせていた。最初のメンバー国は21か国であったが、2012年には25か国に増加した。最初のホスト国(HPC資源提供国)は4か国(フランス、ドイツ、イタリア、スペイン)で、2010年から2015年までの第1期の予算€400Mを保証した。2016年にはスイスが第5のホスト国として加わり、CSCSの資源の提供を始めた。
PRACEは現在7台の最先端HPCシステムの資源(いわゆるTier-0 systems)を、peer reviewに基づく課題審査により、産学官のユーザに提供している。同時に、ユーザ支援も行い、アプリケーションプログラムの移植、高並列化、最適化を支援している。また、6か所のPRACE Advanced Training Centres (PATC)と、4か所の PRACE Training Centres (PTC)があり、初級から上級までのユーザ育成も行っている。2002年から活動しているDEISA (the Distributed European Infrasturcture for Supercomputing Applications)はTier-1に位置づけられた。
7台の最先端HPCシステムは5か国のホスト国の予算で建設・運転されている。メンバー国は年会費を支払うとともに、各国のHPC資源を現物提供している。現在のHome Page上の7システムは以下の通り。
国 |
組織 |
システム |
ピーク性能 |
運用開始 |
フランス |
GENCI |
CURIE (Xeon, Bull) |
1.7 PFlops |
2012 |
イタリア |
CINECA |
MARCONI (Xeon Phi, Lenovo) |
13 PFlops |
2016/7 |
ドイツ |
HLRS |
Hazel Hen (XC40) |
7.42 PFlops |
2014 |
ドイツ |
FZJ |
JUQUEEN (BG/Q) |
5.87 PFlops |
2012/4 |
スペイン |
BSC |
MareNostrum (Xeon, Lenovo) |
11.14 PFlops |
2017 |
スイス |
CSCS |
Piz Daint (XC50) |
25.33 PFlops |
2017 |
ドイツ |
LRZ |
SuperMUC (Xeon, IBM/Lenovo) |
3.1 PFlops |
2012 |
初期のPRACE News Letterを読み解くと、Tier-0 Systemsは順次導入されたようである。
設置/運用 |
国 |
組織 |
システム |
ピーク性能 |
2007? |
ドイツ |
FZJ |
JUGENE (BG/P) |
|
2011/1 |
フランス |
GENCI |
CURIE (1st phase) Bull |
0.2 PFlops |
2011/10 |
フランス |
GENCI |
CURIE (2nd phase) |
1.6 Pflops |
2011/fall |
ドイツ |
HLRS |
HERMIT (XE6 – Opteron)(1st phase) |
1 Pflops |
2013 |
ドイツ |
HLRS |
HERMIT(GPU)(2nd phase)実現不明 |
4-5 Pflops |
2012/4 |
ドイツ |
RZJ |
JUQUEEN (BG/Q) |
5.87 PFlops |
2012/7/20 |
ドイツ |
LRZ |
SuperMUC (Xeon) |
3 PFlops |
2012? |
スペイン |
BSC |
MareNostrum (Xeon E5) |
0.7 PFlops |
|
イタリア |
|
|
|
2013年初めには、6台のTier-0システムが利用されていた。
PRACEの資源利用にはProject Accessと Preparatory Accessとがある。Project Accessは本格利用で、年2回募集され、PRACEのPeer Review Processにより審査される。課題は、計算機利用の技術面と、科学的意義の両方から審査される。Preparatory Accessは、コード検証や移植のための少量の資源提供であり、「京」のトライアル・ユースのようなものであろう。Project Accessの際には、コードが準備できていることを証明する必要がある。
2) ヨーロッパのExascale
ヨーロッパでもExaFlopsに向けての動きが始まっている。EESI (The European Exascale Software Initiative)は、2008年にFP7 (the Seventh Framework Programmes for Research and Techniological Development)により生まれた。ECは2010年6月1日に18か月のプロジェクトEESI1(第1期)として予算化した。7月2日にはEESI Kick off meeting がParisで開催され、2010年11月8日~9日にEESI Initial WorkshopがAmsterdamで開催された。EESIの重要な活動は、グランドチャレンジアプリケーションに対応する4つのWGと、エクサフロップを実現するコンピュータ技術に関する4つのWGである。各WGは約15名の専門家から構成され、キーとなる科学的・技術的チャレンジを明らかにすることを目指している。特にヨーロッパの強さと弱さ、ヨーロッパにおける現在の協力関係、現在のプロジェクトの分析も行う。(HPCwireの2011年1月6日号掲載のJean-Yves Berthou氏とのインタビューから)
EESI1としては、2011年10月10日~11日にBarcelonaでFinal Conrerenceを開催した。第2期となるEESI2は2012年9月1日~2015年6月30日まで。
3) Jülichスーパーコンピュータセンター
FZJ (Forschungszentrum Jülich)にあるJSC (Jülich supercomputer Centre)は、2010年3月23日、IBM社と協定を結び、共同でExascale Innovation Centerを運営し、エクサスケールのスーパーコンピュータのためのハードウェアおよびソフトウェアについて研究開発を進めると発表した。IBM BöblingenとJSCから5人ずつ人を出し、アメリカのYorktown HeightsのWatson研究所と協力して、2015年にはプロトタイプを、2019年に本物を製作する予定とのことである。
4) LRZ
PRACEの発表によると、München近郊のGarchingにあるLRZ (Leibniz Rechenzentrum)は、2010年12月15日、2012年までにピーク2 PFlopsのマシンSuperMUCをIBMによって建設するとのことである。相互接続網はFDR Infinibandで、冷却はHot Water Coolingである。これは1 PFlopsの”JUGENE” (Jülich Blue Gene/P)や、フランスCEAの1.25 PFLopsのCurieに続くTier-0スーパーコンピュータとなる。SuperMUCはBlueGeneではなく、Powerでもなく、次世代のXeonプロセッサ(おそらくSandy Bridge)を使用する。
Hot water cooling(温水冷却)は、半導体を高温(90℃程度)で動作させると、かなり高温の水でも冷却できるので、チラーを用いず、クーリングタワーで直接放熱させる方式で、サーバなどでは前から用いられていた。HPCではBlueGene/Qでも用いている。接合温度が高いためのリークの増大や速度の低下と、チラーの電力との競争になり、寒いところでは有利である。
中国の動き
1) 中国科学院(龍芯3号)
中国科学院の胡偉武(Weiwu Hu)が、2001年から開発しているMIPSベースのマイクロプロセッサ「龍芯(Loongson)」は、2001年8月に(一説には2002年)龍芯1が、2003年10月に龍芯2号を発表し、龍芯2号の改良版である龍芯2Cや龍芯2Eや龍芯2Fも発表した。
中国科学院計算技術研究所は2009年9月、64ビット4コア高性能汎用プロセッサ龍芯3Aの開発に成功した。65 nmプロセスを用いた。2010年4月22日の人民網日本語版によると、中国科学技術大学と深圳大学は、龍芯3Aおよびその他の国産部品・設備・技術を用いて、スーパーコンピュータ「KD-60」の開発に成功し、2010年4月17日に専門家の検査に合格したとのことである。KD-60は80個以上の龍芯3Aを搭載し、1 TFlopsのピーク性能を持つ。これは中国科学技術大学が2007年末に龍芯2Fを搭載したスパコン「KD-50-I」を開発したのに続くものである。
2009年のところに書いたように、曙光6000に8000超の龍芯3号を載せると胡偉武が語ったとの話もあったが、これは実現しなかった。かつて、曙光5000Aにも龍芯を載せるという計画があったが、結局AMDのOpteronを採用した(上海のMagic Cube)。
2010年8月のHot Chips会議で、龍芯3Bの詳細が発表された。8コアの64-bitチップで、65 nmテクノロジで製造する。クロックは1 GHz。SIMDは256ビットで、クロック当たり64 bitの乗加算を8個実行できる。Nebulaeの次のシステムはさらに次の龍芯3Cを用い、28 nmテクノロジで16コアのチップとのことである。
2) 申威ShenWei SW-3
中国南部江蘇省の無錫市にある江南計算技術研究所は、2010年、申威ShenWei SW-3プロセッサを開発した。SW1600とも言い、65 nmプロセスで製造され、16コアの64-bit RISCである。独自の命令体系ということになっているが、Alpha 21164に基づいていると推測されている。クロックごとにFMAを4命令実行できる。975~1200 MHzで動作し、1100 MHzではチップ全体で140.8 GFlopsのピーク性能を持つ。これを用いて、2011年、ピーク1 PFlopsの神威藍光(Sunway Blue Light)が構築された。
江南計算技術研究所は1951年創立で、正式には中国人民解放軍 戦略支援部隊 網絡系統部第五十六研究所というらしい。2006年には申威(ShenWei, Sunway) SW-1プロセッサを、2008年には第2世代の申威(ShenWei, Sunway) SW-2プロセッサを開発した。SW-3は第3世代である。
3) 新岸線公司(Armプロセッサ)
科技日報によると、2004年に創立された中国チップメーカー新岸線公司(Nufront、北京)は、2010年9月14日北京で、英国Arm社とともに、NuSmart2816と名付けられたプロセッサを発表した。Arm社のCortex-A9アーキテクチャに基づき、中国が独自に設計したdual coreプロセッサである。チップの消費電力は2 Wで、新型のネットブックやタブレットパソコン、スマートテレビなどの新製品だけでなく、デスクトップやノートパソコンにも使われると期待している。
4) 深圳スーパーコンピュータセンター
2010年7月21日の「科学時報」によると、中国科学院深圳先進技術研究院は、中国初のPFlops級のスーパーコンピュータ「星雲(Nebulae)」を深圳の国立スーパーコンピュータ・センター(2009年設立)に設置すると発表した。中国政府から2億元、深圳市から数億元の投資を受けている。今年末から華南地域、香港、マカオをはじめ全中国で計算サービスを提供する。製造は曙光公司(Sugon)の天津産業基地。
「星雲(Nebulae)」は、すでに2010年6月のTop500リストに登場し、コア数120640、Rmax=1271.0 TFlops、Rpeak=2984.3 TFlopsで堂々2位にランクされている。この時点ですでに深圳のセンターにあったのか、まだ工場にあったのかは不明である。
5) 曙光(Sugon)
曙光公司が2010年4月8日に明らかにしたところによると、2008年に発売された、中国初となる100 TFlopsのスーパーコンピュータ曙光5000は これまでに431台売り出されたという。曙光5000の発売により、中国は米国に次いで2番目に100 TFlops以上のスーパーコンピュータを製造・応用できる国となった。曙光公司の歴軍総裁によると、現在すでに431台の「曙光5000」が発売され、上海、成都、甘粛など、さまざまな省・市で使われているという。うち、最も影響力があるのが、上海スーパーコンピュータセンターに2008年に設置された曙光5000A (Magic Cube)である。2010年5月現在、利用率は70%に達しているとのことである。
レコードチャイナによると、2010年9月2日、天津曙光計算機産業有限公司副総裁の裘效柯氏は、同社の第2期工場が完成して生産を始め、アジア最大のスーパーコンピュータ生産基地となったことを明らかにした。新たに建設された工場は、敷地面積40000m2、建物面積は20000m2で、年間設計生産能力はPCサーバ50万台とHRCサーバ2000セットという。
2010年4月24日の新華網によると、聯想(レノボ)社 と曙光社は協力して中国科学院の各分野の研究所に演算速度100 TFlopsのスパコン10台を設置し、合計演算速度が6 PFlops近い(単精度?)GPU搭載の分散スパコンシステムを構築したとのことである。中国政府はトップだけではなく、いわば第二階層のスーパーコンピュータの設置にも予算を投入しているようである。
6) 天河一号
新華網やChina Press(済龍)によると、2010年1月13日、天津濱海新区の天津スーパーコンピュータ・センター(国家超級計算天津中心)は天河一号の一部(1/16)を設置し、重点ユーザによる試験運用を開始したとのことである。2009年のところに書いたように、2010年10月には天河1Aへの改造が終わっているので、どの程度の期間、運用したのかは不明である。
2010年8月5日の新華網によると、「天河1号のキャビネットなど主要設備が天津濱海新区に搬送され、システムの組立てに入った。今月末には組立てを終える。」とのことである。組み立ては9月1日に完了したと発表された。これは実は天河1Aのことではないかと思われる。この推測が正しいとすると、天河一号がフルに天津スーパーコンピュータセンターに設置されたことはないことになる。2009年のところで書いたように、もしかしたら、1月に1/16のシステムが設置されたというのも、NVIDIAに置き換えた1Aのプロトタイプだったのかもしれない。
天河1号は、AMD社のGPUにより2009年11月のTop500で5位を占め、GPUを用いたマシンとしてはトップに立ったわけで、これに対抗心を燃やしたNVIDIA社はかなりの好条件でTesla GPUを提供したようである。その後、天河1Aがトップを取ったとき、NVIDIA社はアメリカ政府に呼び出されて警告を受けたと言われている。いずれも噂であるが、2015年4月にアメリカ商務省が公表した、中国の国防関係の組織への高性能プロセッサの輸出禁止に連なる動きと思われる。
7) 天河1A
2010年10月27日、北京で開催中のHPC China conferenceにおいて、中国Top100の発表の中で、天津スーパーコンピュータセンターは、天河1AがLinpackで2.507 PFlopsの性能を出したと発表した。この時点で世界一である。システムの詳細は発表しなかったが、11月のTop500によれば、CPUはXeon 5670 (6C, 2.93 GHz)を14336個、NVIDIA Tesla M2050 GPU 7168個と、8コアの中国製プロセッサFT-1000(飛騰Feiteng)をサービスプロセッサとして組み込んでいる。コア数186368、Rmax=2.566 TFlops、Rpeak=4701.0 TFlopsである。中国は、CPU総数の1/7は国産チップだと宣伝していたが、演算速度には直接寄与していない。JSTのSPC (Science Portal China)によると、国防科技大学計算機学院「天河1号」工程弁公室の李楠主任は、「すべてのCPUを我々の開発したCPUと交換することも可能だ。しかし現在はアプリケーションソフトの発展が追いつかないため、少しずつ交換していく必要がある。個々の性能で見れば、我々のCPUは世界最先端レベルにはまだ劣るが、現在開発中の次世代CPUでは、世界最先端を目指している」と述べた。
New York Timesは“China Wrests Supercomputer Title From U.S.”(中国はアメリカからスーパーコンピュータのタイトルをもぎ取った)という表題の記事を載せ、2002年に地球シミュレータがトップに躍り出た事件との対比で論じている。ただ、Topというなら、地球シミュレータ以前に、NWTが4回ほど、東大のSR2201、筑波大のcp-pacsが各1回と珍しくもないのだが、忘れているようである。別のメディアは、これを製造したのがNUDT(中国人民解放軍国防科学技術大学)であることに注目している。LBNLのHorst Simon副所長は、「中国の新スパコン生産の方が地球シミュレータよりはるかに重要だ」とコメントしているが、これは天河1Aが、オープンな素子を用いており、ガラバゴスではないということであろうか。NVIDIAの社長兼CEO、黃仁勳(Jen-Hsun Huang)氏は、発表の中で「GPUは、HPCの定義をくつがえしている。Tianhe-1Aの登場により、GPUは現在、今日のスパコンのトップ3の2つに採用されていることになる。GPUスーパーコンピュータは、研究と発見の速度を速めたいと考える科学者にとって欠かせないツールだ」とコメントしている。読売新聞は、「蓮舫さん、2位じゃだめです…中国スパコン1位」という記事を載せた。
8) 国立スーパーコンピュータ長沙センター
新華網によると、2010年11月28日、国立スーパーコンピュータ長沙センターが湘南大学で着工した。このセンターは科学技術部が認定した情報化建設重大プロジェクトで、総投資額7億2千万元、第1期工事の建設面積は30000m2である。2011年末に完成する予定。完成後、天河一号を設置すると報じられていたが、天河1Aはすでに天津に移設したので、実際はそこで天河二号を開発したようである。
ベンチャー企業の終焉
1) Sun Microsystems社
2009年4月20日にOracle社はSun Microsystems社を$7.4Bで買収すると発表したが、6月20日には米国司法省の承認を獲得し、その後欧州の独占禁止法規制当局などからの承認も得て、2010年1月27日吸収合併が完了した。
2) Liquid Computing Corporation
2003年カナダのOttawaで創立されたLiquid Computing Corporationは、米国のDARPAのためのスーパーコンピュータを開発していたが、2010年2月業務を停止した。同社は、2006年、AMDのHyperTransportを使った相互接続網を用いたHPCシステムLiquidIQ 1.0を開発した。
3) Voltaire社
1997年マサチューセッツ州に設立されたInfinibandスイッチメーカーVoltaire社は、2010年11月29日、Mellanox Technologies社に$218Mで買収されると発表された。Voltaire製品ではMellenox社製のチップを採用していた。
次は2011年、「京」コンピュータはTop500の1位を取るとともに、Linpackで10 PFlops越えを実現し、Gordon Bell賞も獲得した。中国では、中国製のプロセッサだけを用いたPFlopsマシンが登場する。
(画像:PRACEロゴ 出典:PRACEホームページ)