世界のスーパーコンピュータとそれを動かす人々


4月 9, 2018

HPCの歩み50年(第158回)-2008年(k)-

小柳 義夫 (高度情報科学技術研究機構)

Cray社がIntel社とHPC製品の開発の提携を結んだことが報道され、9月にはCX1を発表した。Linuxだけではなく、Windows HPC Server 2008も動くとのことである。IBM社は、倍精度演算機能を強化したPowerXCell 8iプロセッサを2個搭載した、IBM BladeCenter QS22を発表した。NVIDIAも倍精度演算機能を強化しつつある。

世界の学界の動き

1) High Performance Linpack
2008年9月23日、Linpack性能評価のための自働チューニングソフトHPL (High Performance Linpack)のVer. 2.0がTennessee大学から公開された。Ver.1は2000年に公開されている。

2) Anton
コンピュータ科学者のD.E. Shaw博士は、1988年にヘッジファンドであるD.E.Shaw & Co.社を立ち上げ、コンピュータを使った資産運用により大きく成長した。2012年現在、運用資産は$26B(約3兆円)といわれる。2001年頃、D.E.Shaw博士は、生物学、化学、コンピュータ科学、工学、数学、物理学等の広い分野の研究者を集めてD.E.Shaw Researchを設立し、MD(分子動力学)専用の超並列計算機の開発を始めた。2008年のCommunication of ACM 7月号に“Anton, A Special-Purpose Machine for Molecular Dynamics Simulation”を発表した。Antonという名前は、顕微鏡の発明者とされるAnton van Leeuwenhoekにちなんだものである。512ノードの初代Antonは10月に稼働開始した。製造は富士通。Shaw博士はさらに多くのマシンを設置し、大学や非営利研究機関に提供するほか、有料で企業にも提供している。

3) Bitcoin
2008年11月1日付けでSatoshi Nakamotoなる著者が“Bitcoin P2P e-cash paper”と題した論文を発表し、P2Pに基づく暗号通貨を提案した。実際の運用開始は2009年1月3日。

欧米の企業の動き

1) Cray (XT5)
2007年11月6日に発表されたAMD Opteron-baseのCray XT5は順調に売れている。2008年11月のTop500の上位にあるのは以下の通り。

順位 設置場所 機種 コア数 Rmax Rpeak
2 ORNL Jaguar – Cray XT5 QC 2.3 GHz 150152 1059.0 1381.4
5 NICS, Tennessee大学 Kraken XT5 – Cray XT5 QC 2.3 GHz 66000 463.3 607.2
27 Naval Oceanographic Office Cray XT5 QC 2.3 GHz 12733 90.84 117.143
31 US Army Research Laboratory (ARL) Cray XT5 QC 2.3 GHz 10400 76.8 95.68
32 CSC (Center for Scientific Computing), Finland Cray XT5/XT4 QC 2.3 GHz 10816 76.51 99.507
109 University of Alaska – Arctic Region Supercomputing Center Cray XT5 QC 2.3 GHz 3456 26.31 31.7952
156 Cray Inc. Cray XT5 QC 2.3 GHz 2816 21.4378 25.9072

 

2) Cray (CX1)
これまでのCrayのMPPのXT3/4/5はAMDのOpteronを搭載していた。2008年4月28日、Cray社がIntel社とHPC製品の開発の提携を結んだことが報道された。2008年9月16日、Cray社はCX1を発表した。Intel社のdual-coreまたはquad-coreのXeon プロセッサを最大16個搭載可能なブレードサーバシステムで、マイクロソフトの Windows HPC Server 2008 か Red Hat Enterprise Linux が動作する。価格も最小構成で200万円からで、売れ筋となる構成でも300万円から600万円程度となる見込み。10月中旬に発売予定。

日本では10月9日(木)に御殿山のホテル・ラフォーレ東京で、Cray Japan主催のCX1の発表会があった。参加者は数十人でこじんまりとした会であった。ベストシステムズの西社長もおられて、代理店になるとのことであった。Cray社の寺西氏は「僕も見るのは初めてです」とか言っていた。見たところかなり長い箱であった。通常のオフィスに置いて利用できるように形状は310.4×904.2×444.5mm(幅×奥行き×高さ)のコンパクトサイズで、電源は100V/240Vで、騒音対策として筐体の下にアクティブノイズキャンセラを搭載。ブレードとしてはCPUブレード2種類、ストレージブレード2種類、ハイエンド3次元グラフィックスブレード1種類が用意されている。Cray Japanの中野社長曰く、「本当に動く実機を持ってきました」。ブレードが最大8枚刺さり、1枚にIntelの3 GHz程度のdual/quadが2個付くので、まあ、ピーク性能は0.7 TFlopsというところ。Wintelで、手頃というところが売りであろう。ところで、クレイらしさはどこにあるの、と聞いても皆もごもご。要は、クレイも大衆化路線に行かざるをえないということであろうか。「Seymourが草場の陰で泣いている」とのヒソヒソ話も。Crayはこれまで,小型機ではほとんど成功していない。

事情通によると、実はCX1はカナダのCiara/VXTECHという会社のOEMだそうであるが、それは極秘らしい。なお、CX1は2012年に販売を終了した。

3) IBM (POWER)
2007年1月31日にIBMがNOAA(米国海洋大気局、National Oceanic and Atmospheric Administration)にスーパーコンピュータ2台を設置したことは述べたが、同年末にIBMはECMWF (ヨーロッパ中期予報センター、the European Centre for Medium-Range Weather Forecasts)にもPOWER6クラスタを設置する契約を結んだ。詳細は「ヨーロッパの動き」参照。

米国IBM社は2008年4月9日、新サーバプラットフォーム“IBM Power Systems”を発表した。日本でも同時発表。従来のサーバ製品“System i”と“System p”の2シリーズを統合したもので、今後は営業面等でも一本化される。IBM Power Systemsは、POWER6プロセッサを搭載したハードウェアと、IBM AIX、IBM i(旧i5/OS)、Linuxの3種のOSで構成される。仮想化技術“PowerVM Edition”を利用して1台のハードウェア上で複数種類のOSを利用することもできる。ハイエンド向けのPower 595、水冷式のPower 575、ミッドレンジ向けのPower 550 Express、ローエンド向けのPower 520 Expressの4機種があり、5月から出荷予定。

4) IBM (Cell)
2008年5月14日、IBM社は、倍精度演算機能を強化したPowerXCell 8iプロセッサを2個搭載した、IBM BladeCenter QS22を発表した。従来のCell B.E.とは動作周波数は変わらない(3.2 GHz)が倍精度演算性能は5倍である。Roadrunnerはもちろんであるが、2008年11月のTop500の上位にもこのボードのクラスタがいくつか登場する。

順位 設置場所 機種 コア数 Rmax Rpeak
1 LANL Roadrunner – BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz 129600 1105.0 1456.7
42tie LANL Cerrillos – BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz 7200 63.25 80.928
42tie IBM Poughkeepsie Benchmarking Center BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz 7200 63.25 80.928
221 Interdisciplinary Centre for Mathematical and Computational Modelling, University of Warsaw BladeCenter QS22 Cluster, PowerXCell 8i 4.0 Ghz 2016 18.57 30.464

 

これらのマシンはGreen500の上位にある。

5) IBM (Cloud)
9月26日付け各紙によると、米IBMは2008年9月24日、San Paulo(ブラジル)、Bangalore(インド)、Seoul(韓国)、HCM City(ベトナム)の新興市場4カ所に、Cloud Computing Centerを開設したと発表した。同社は世界各地で既に開設した自社およびユーザのセンターも含めて現在13のCloud Computing Centerを設置しており、cloud computing分野における世界最大のネットワークを提供している。8月には日本でも開設した。同社は1年近くかけて、cloud computingのinfrastructureを世界中のユーザのために構築し、同社のcloud computing環境でプロジェクトを創り上げてきた。これらのセンタは銀行・通信・政府・教育・ホスティングサービスなど、さまざまな業種のユーザーが利用できる。

6) IBM(Stretch誕生50周年)
米IBMは2008年9月11日夕方、1950年代に登場し、当時世界最高水準のスーパーコンピュータと称されたStretch (IBM 7030)の誕生50周年を、米カリフォルニア州MountainviewにあるComputer History Museumで祝った。このプロジェクトでは、(個別)トランジスタを用いてIBM 704の100倍高速なコンピュータを開発しようとした。1号機は1961年4月LANLに納入された。Wikipediaには9件の設置先が書かれている。Stretchは商業的には成功しなかったが、今日のコンピュータ技術の発展に大きな影響を与えた。例えば、1度に複数のタスクをこなす「マルチプログラミング」、前の処理が終わらないうちに次の命令のプリフェッチやデコードを始める「命令パイプライニング」、許可していないメモリアクセスを防ぐメモリ保護、ブロック分けした複数のメモリバンクに同時並行でアクセスすることでデータ転送速度を上げる「メモリインターリーブ」、割り込み機構、1バイトを8ビットとして普及させたことなど、現在のHPCの基本技術である。

7) AMD (x86)
Intel社がItaniumに精力を取られている間にAMD社はOpteronで躍進した。2008年6月のTop500の上位10件を見ると、KrakenもRangerもJaguarもRoadrunner(のCPU)もOpteronである。XeonはEncantoとEKAだけ。日本のT2KもすべてOpteronであった。2006年頃、Intel社は新たな製品を開発し、市場シェアを奪還しようと奮闘していた。2007年になると形勢は逆転し始めた。ケチがついたのは、初のquad-coreであったコード名BercelonaのチップをAMD社が予定の2007年3月に発売できず、9月10日となったことである。しかも初版発売直後にバグが見つかり一時出荷停止となった。この混乱の背景にはATIの買収に精力をそがれたのではという見方もある。その間、Intel社は着々と売り上げを伸ばした。Quad-coreでも、1つのチップに4コアを搭載するのではなく、2つのdual-core chipをパッケージするという安全策を取り、成功した。

どういうわけかこの頃からAMD社はプロセッサ開発コード名にF1のサーキット名を使っている。おそらく最初は2007年9月10日に発売されたBudapet/Barcelonaであろう。Budapest郊外にはHungaroringサーキットがあり、Barcelonaには廃止されたものを含め3つものコースがある。次のSuzuka/Shanghaiももちろんサーキット名である。ちなみにIstanbulにもサーキット(アジア側らしい)があり、Magny-Cours(マニクール)はF1フランスグランプリを開催したサーキットである。また、Lisbon郊外にはEstoril Circuitがある。Interlagosはブラジルのサンパウロ市のコース、Valenciaはスペインの市街地コースであるが、Zurichにはあるのか?

さて、AMD社は2008年10月2日、当初の予定を前倒しして次世代OpteronのShanghaiを出荷すると発表した。Intel社を追撃するためであろう。これはAMD社初の45 nm quad-core CPUである。実際にはSuzukaとともに2008年11月13日に発売された。Suzuka は 13xx シリーズで、Shanghai は 23xx シリーズと 83xx シリーズである。Intel社は1年前の2007年11月12日に45 nm quad-core CPUであるHarpertownを発売しているので、やっと追いついたことになる。

8) AMD (GPU)
前に述べたとおり、2006年6月6日、AMD社はカナダのATI Technologies社を買収すると発表し、10月25日手続きを完了した。AMD社はワークステーションやHPC用のGPUであるATI FireシリーズをAMD Fireシリーズとして引き継いだ。SC07の展示ですでに紹介していたが、2008年4月、AMD社はFireStreamボードとSDK (Software Development Kit)を発売した。AMDはNVIDIAとGPGPU市場で競争できるか?NVIDIAはすでに2007年にTeslaとCUDA環境とを提供している。

最初に発売するプラットフォームはFireStream 9170ボードで、2 GBのGDDR3オンボードメモリと、1個にATI Radeon 3870 GPUを搭載している。このGPUは320個のstream processors(グラフィック流に言えばshaders)を搭載し、単精度で500 GFlops、倍精度で102 GFlopsのピーク性能を持つ。AMD社は市場初の倍精度GPUであると主張している。このGPUは55 nmプロセスで製造し消費電力は100W以下である。これに対し、現在発売中のNVIDIAのTesla C870は、単精度500 GFlopsのピーク性能でメモリは1.5 GBで170Wである。でも、これは90 nmプロセスなので、65 nmに移ればAMDより良くなるであろう。NVIDIAは2008年初めに次世代GPUを発表し、倍精度演算をサポートする予定であったが、今のところ発表はない。科学技術計算の観点からは倍精度は必須である。

ソフトウェア開発環境としては、AMD社はCUDAに対抗してBrook+という開発言語を提供している。これはStanford大学のBrook言語の拡張である。Brook+はC言語を拡張して、GPU上でのデータ並列演算の機能を持たせたものである。もう一つの要素は、ACML (AMD Core Math Library)である。これはBLASやFFTなどを含む。3つめの要素は、CAL (the Compute Abstraction Layer)で、GPUの低レベルのインタフェースである。AMD社は当初CTM (AMD’s Close to the Metal)を導入したが低レベルすぎて使いにくかった。CALは適度の抽象度を持つ。このようにAMD社はNVIDIA社に追いつこうとしているが、道は遠い。

当時筆者は、AMDのGPUなど悪あがきではないかと思ったが(失礼!)、最近(2018年1月)にIntel社はAMD GPUとCoreプロセッサとをインターポーザで結合したパッケージを発表したとのニュースを見てびっくりした。諸行無常である。

9) NVIDIA
2008年1月8日、NVIDIA社はQuadro FX 3700ボードを出荷した。コア500MHz G92、メモリ512MB/256bit/1600MHz GDDR3。2系統のデュアルリンクDVI。HDCP対応。ソフトはOpenGL 3.3, DirectX 10, ShaderModel 4.0, CUDA対応。CADやDCC Visualization用途向けで、会話型可視化を可能にする高いバンド幅を持つ。

NVIDIA社は2008年2月に、物理シミュレーションエンジンPhysXおよびPanel向け物理シミュレーションチップ(PPU)を開発製造しているAGEIA社を買収した。GeGorce8シリーズ以降のGPUを搭載したすべてのビデオカードでGPUをPPUとして利用できるようになると発表された。

昨年のところに書いたように、2007年6月20日、同社はGeForce 8 (G8x)アーキテクチャのTeslaを発表し、HPCを直接に目指すことを発表した。これまでGeForceやQuadro製品をCUDAによりHPCのために利用することはできたが、本来PCやワークステーション上の可視化を目的としているので、HPCクラスタにスケールできるかは明らかでなかった。これによりNVIDIAは3本の製品ラインをもつことになった。GeForceはコンシューマおよび娯楽の可視化を、Quadroはプロの設計および創作を、そしてTeslaは伝統的なHPC応用を目指している。2007年末までには倍精度演算のハードウェアを組み込むということであった。計画は大きくずれ込んだが、NVIDIAは2008年6月1日発売の“GeForce GTX 280(GT200)”と“Tesla T10P”で、倍精度演算サポート(ただし78 MFlops)と、900GFLOPS台~1TFLOPS超のピーク性能(単精度)のGPUを送り出すことができた。AMD社も1TFLOPSと倍精度を謳っており、競争は熾烈である。

汎用CPUが、GPU統合とデータ演算の強化(AVXやSSE5やmany coreなど)へ向かっているので、NVIDIAとしては可視化だけに頼っていては市場が縮小してしまう。GPUを汎用的なコンピューティングに利用する「GPUコンピューティング」に向かわざるを得ない。

ベストシステムズのメールマガジン2008年11月15日号によると、日本でもエルザジャパンからNvidiaの最新GPGPUカードTesla C1060が発売され、単精度で933 GFlops、倍精度で78 GFlopsのピーク性能だそうである。消費電力は、ピーク225W、通常160Wで、別電源が必要である。この記事によると、倍精度演算の実装法がNVIDIAとATIと異なり、ATIでは単精度演算器5個を使用して計算しているのに対し、NVIDIAでは、独立のDFMA (Double Floating-point Multiply and Add unit)を8個のSPにつき1個搭載している。

次回はIntel社の動きなど

(画像:PowerXCell 8iプロセッサのイラスト 出典:Wikimedia )

left-arrow   50history-bottom   right-arrow