世界のスーパーコンピュータとそれを動かす人々


提 供

7月 30, 2018

HPCの歩み50年(第172回)-2009年(l)-

小柳 義夫 (高度情報科学技術研究機構)

IBM社は、POWER7とBlue GeneとCellを並行して開発して来たが、Cell開発は中止が伝えられた。IntelのNehalem、AMDのIstanbulが登場した。CrayはXT6でGPUをサポートしていくと発表した。

アメリカ企業の動き

1) IBM社(POWER7)
カリフォルニア州Palo AltoのStanford大学で開催されている第22回Hot Chips会議において、IBM社は8月25日に次世代サーバチップであるPOWER7について発表を行った。POWER7は最大8コアまで搭載可能であり、dual-chip moduleでは16個のコアまで対応できる。各コアの処理速度は32 GFlopsで、チップ当たり256 GFlopsの性能である。NCSAのBlue Watersで使用される予定で、このスーパーコンピュータは1 PFlopsの実効性能を実現するとのことである。NCSAによると、POWER7はIBMが設計する強力な新システム設計の第1弾となり、新しいチップ技術や相互接続技術、OS、コンパイラ、プログラミング環境に関する大規模な研究開発が行われる。

また、PERCS (Productive, Easy-to-use, Reliable Computing System)システムのための相互接続のハブとなるチップについても発表した。これは48本の10 Gbps光リンクを含み、全体として1.1 TB/sのバンド幅を持つ。このハブチップは、POWER7を4チップ搭載したモジュール(QCM)をPOWER7 drawer(引き出し)と接続する。各drawerは8個のハブと8個のQCMから構成される。Blue Watersの場合も同様であろう。

2) IBM社 (Blue Gene)
IBM社とUS NNSA (National Nuclear Security Administration)は、2009年2月3日、LLNLは2011年に20 PFlopsのシステムを設置し、核兵器管理のために利用すると発表した。まず、2009年の第1四半期にはDawnと呼ばれる500 TFlops のBlue Gene/Pを設置し、既存のコードの移植を行う。これに続いて2011年にはSequoiaと呼ばれるBlue Gene/Qシステムを設置する。正式な稼動は2012年の予定。BlueGene/Lとは異なり、Blue Gene/PもQもノードレベルのキャッシュ・コヒーレンシを保証しているので、SMPスタイルのプログラミングか可能である。エネルギー効率も大幅に改善される。

Blue Gene/Qアーキテクチャの詳細はまだ発表されていないが、Sequoiaは98304個のノードから構成され、160万個のコアを含む。メモリは1.6 PB。すなわち、ノードあたり16コアで16GBと推定される。

3) IBM社(Cell)
2009年10月6日~10日に幕張メッセでCEATEC JAPAN 2009が開催された。東芝は、55型の液晶テレビ「CELLレグザ(REGZA) 55X1」を発表した。これはCell B.E.を搭載しており、従来のテレビの概念を変える製品と豪語していた。

2009年10月末、LANLはRoadrunnerがshakedown(慣らし運転)のフェーズを完了し、実働段階に入ったと発表した。これまで、宇宙膨張、HIVウィルスの進化、レーザープラズマ相互作用、ナノワイヤの電子状態、磁束の組み替えなどの非軍事計算が行われてきた。これで慣らし運転が終わったので、NNSAは多くのFLOPSを本来の目的である核兵器シミュレーションのために利用することになる。

重要問題はRoadrunnerのようなx86-Cell複合アーキテクチャがHPC分野で将来性があるかどうかである。GPUやFPGAとは異なりCellはそのなかにSPE (Synergistic Processing Element)と呼ばれるCPUコアを有しているが、この長所にもかかわらず汎用HPCとしては限界がある。Cellは汎用CPUにも汎用GPUにもなりきれていない。Mercury Computer Systemsや、FixstarsやSonyはアクセラレータボードを売っており、開発ツールもないわけではないが、Cellのようなヘテロなチップは使い方が難しい。2010年にはNVIDIAが画期的なGPUを出すと予想されるので、IBMはCellの今後をどうするか決断しなくてはならない。IBMの伝統はバイキング形式にCPUを用意して、顧客に選ばせることである。ハイエンドサーバには、x86チップ、Blue Gene、POWER CPU、Cellといろいろ取りそろえている。今後はGPUも用意する必要があろう。もちろん、Cellを高度化して、CPUをしのぐ数百GFlopsのチップを作ることは技術的には可能であるが、IBMとしてそうするモチベーションはない。今後どうなるであろうか。

2009年11月19日、IBM社はCell B.E.の開発を中止すると発表した。当初IBM社は次世代版Cellプロセッサ“PowerXCell 32i”では、2基のdual core PowerPCと32基のSPEコアという組み合わせを計画していた。IBM は、声明のなかでこう述べた。「当社は、Cell によって得た経験に基づき、次世代型コンピューティングがマルチコアとハイブリッド技術の統合に大きく依存することになると考えている。当社は、2010年に登場予定の POWER7 ベースのシステムも含め、このハイブリッドおよびマルチコア戦略の一環として、Cell 技術への投資を続けていく。」ゲーム用のCell B.E.の生産は当面継続するとのことである。

4) Cray社
Cray社は2009年10月1日、Cray XTシリーズにおいて、2010年からアクセラレータとしてGPUをサポートしていくことを発表した。ついにCray社もGPUかとビックリした。また、Tennessee大学のKraken (Cray XT5)を1 PFlopsにアップグレードすると発表した。2009年11月のTop500のところに書いたように、Cray XT5-HE Opteron 6-core 2.6 GHzで、Rpeak=1028.9 TFlops、Rmax=831.7 TFlopsとなった。同じマシーンルームに並んで設置されているJaguarと合わせて2台のPFlops級のシステムとなる。

Cray社は2009年11月17日、同社のスーパーコンピュータCray XTシリーズの最新機種として、ハイエンド品Cray XT6およびXT6と完全互換のミッドレンジ製品Cray XT6mの2機種を発表した。XT6の各計算ノードは、2個のAMD Opteron 6100シリーズプロセッサ(8コアと12コアのMaranelloプラットフォーム)で構成され、各プロセッサには独自のメモリと専用のCray Seastar2+インターコネクトが組み込まれている。各計算ノードは、32GBまたは64GBのDDR3メモリで構成することができる。

2010年11月のTop500から主要なCray XT6の設置を示す。

順位 設置場所 機種 コア数 Rmax Rpeak
25 Edinburgh大学(英) HECToR – Cray XT6 12-core 2.1 GHz 43660 274.7 366.744
29 INPE(ブラジル) Tup – Cray XT6 12-core 2.1 GHz 30720 205.1 258.0
32 NOAA/ORNL Gaea – Cray XT6-HE 12-core 2.1 GHz 30912 194.4 259.661
102 KTH(スエーデン) Cray XT6m 12-core 2.1 GHz 11016 75.12 92.5344
140 Cray社 Tuna – Cray XT6 12 –Core 2.0/2.1/2.2 GHz 8352 53.18 69.4272

 

2009年12月2日、Frankfurtで開催中のCray Executive Forum Europeにおいて、Cray社はExascale Research Initiativeを開始すると発表した。12月3日、英国Edinburgh大学はEPCCにおいてExascale Technology Centreを創立すると発表した。これはCray社とEdingurgh大学からの共同出資によるものであり、設立式典においてCray社CEOのPeter Ungaroが講演する予定である。また、Cray社はスイスのCSCSとも共同してHP2Cプロジェクトを推進する。今後は多くの相手と共同研究を行う予定である。

5) Intel/AMD(半導体)
2009年9月22日、Intel社のCEOのPaul Ottelliniは、San Franciscoで開催中のIntel Developer Forumの基調講演において、22 nm製造プロセスによる次々世代のテクノロジを発表した。講演では364 MbのSRAMのウェハを見せた。2011年度後半の出荷を目指す。Intel社は現在45 nmテクノロジでチップを製造しており、2009年第4四半期までに32 nmに移行し、WestmereやモバイルプロセッサArrandaleを製造する予定。

Westmereはグラフィックス機能をプロセッサに統合した初の製品であり、2009年第4四半期には市場に投入する。また、暗号化/複合化を高速化するAES(Advanced Encryption Standard)命令も組み込まれた。同じく32 nmプロセスを用いたSandy Bridgeでは、多様なビデオや3Dソフトウェアなどのデモが行われた。これは2010年に登場予定。15 nmテクノロジは2013年に量産予定。

他方AMD社は、半導体では若干遅れていて今年前半に初めての45 nmテクノロジのチップを出したところである。9月16日、2.6 GHzで動くAthlon II X4 620を$99で売り出した。2.8 GHzのAthlon II 630は$129の価格である。いずれもコア当たり2 MBのL2キャッシュを持つ。これに対し、Intelの低価格商品である2.33 GHzのCore 2 Quadは4 MBのL2キャッシュを持ち$163である。いずれの価格も1000個単位のものである。

この後の予想としては、2010年後半に32 nm版のNehalem-EXや12コアのWestmere-EXが出現し、その後すぐ32 nmのSandy Bridgeが出てAVXで8 FP/clockの性能を出す。2011には22 nmのIvy Bridgeが予想され、日本の次世代のSpark64 VIIIfx(コード名Venus)は苦戦が予想される。

6) Intel社 (Xeonなど)
半導体回路国際会議ISSCC(International Solid-State Circuits Conference)は、2009年2月8日~12日にSan Franciscoで開催されたが、それに先立ち、Intel社は2月4日、講演内容を公開した。また12日からはIDFにおいて詳細を示した。Xeon関係では、現在発売中の、4コアのNehalem(コンシューマ用)と6コアのDunningtonとともに、次期Xeonに当たる8コアのNehalem-EX(コード名Beckton)について講演する予定である。Nehalem-EXは、45 nmプロセスで23億トランジスタである。hyper-threadingにより16スレッドを同時実行できる。QuickPath Interconnect(QPI)を4リンク備えている。24 MBの共有L3キャッシュを搭載する。Nehalem-EXも、クアッドコアNehalemと同様にパワーゲーティングなどの省電力機能を備えている。QPIは従来のFSB (Front Side Bus)に代わる高速インターコネクトで、AMDのHyperTransportに対抗する技術である。2008年から公表され試験的に実装されているが、本格的に採用されたのはNehalemが最初である。2010年にはItanium 9300 (Tukwila)にも搭載される。

8コアのNehalemについては、1個のCPUダイに統合したシングルダイなのか、2個のCPUダイをパッケージ上で接続したデュアルダイなのかは、まだ明確にされていない。HPCwireの2009年6月18日号において、Advanced Clustering Technologiesという会社が行った、 Nehalem (Xeon 5500)とIstanbul (Opteron 2400)の比較が報告されている。

Intel Nehalem (Xeon X5550) AMD Istanbul (Opteron 2435)
quad core 2.66 GHz with 12GB of 1333MHz DDR3 6 core 2.6 GHz with 16GB of 800MHz DDR2
“hyperthreading” two threads per core  
HPL 74.03 GFlops HPL 99.38 GFlops
Price-performance $52.33/GFlops Price-performance $35.21/GFlop

 

High Performance Linpackの測定に当たって、Opteronを含めてIntelコンパイラとIntel Math Libraryの組み合わせが最も高速で、これを用いた。

HPL性能は6コアのIstanbulの勝ちであるが、peakとの比はNehalemの方がよい。DDR3なので、メモリバンド幅が大きく容量も大きい。またcache snoopingのウェイトも低い。Linpackではhyperthreadingを使うと却って性能が落ちる。価格性能比もIstanbulの勝ち。実際のアプリではどうなるであろうか。

国際会議のところで述べたように、2009年8月23日~25日にStanford大学で開催された第21回Hot Chips会議において、IntelもAMDも今後の方向について語った。Intel社は9月22日~24日に自社のIDF (Intel Developer Forum)を予定していたためあまり多くを開示しなかったが、2009年後半に投入予定(実際には2010年3月1日)のHehalem-EXの概要を明らかにした。AMDのMagny-CoursのL3キャッシュは12 MBなのに対し、Hehalem-EXでは 24 MBとなり、それぞれ前世代のIstanbulとXeon 7400から2倍となっている。両社者ともメモリインタフェースを増強しており、32 GBや64 GBものサーバに対応する予定。Nehalem-EXはダイ上に2つのメモリコントローラを持ち、それぞれが2つのメモリバッファを管理し、各メモリバッファは2つのDDR3をサポートしており、合計8つのメモリチャンネルを利用出来る。

次期Itaniumとなる4コアのTukwilaについては、昨年のISSCCで詳細を示していたが、今回も予定にとどまった。発売されたのは2010年。

Intel社が9月22日~24日にSan Franciscoで開催したIDF (Intel Developer Forum)においては、組み込み向けのquad core Nehalemプロセッサ(Jasper Forest)と32 nmプロセスで製造するWestmereプロセッサを発表した。AMDが独自の32 nmプロセッサを発売するのは2010年後半と見られている。

7) Intel社(Atom)
昨年のところに書いたように、Intel社は2008年3月2日、携帯端末、組み込みシステム、低価格PC向けの低消費電力プロセッサAtomを発表した。Intelとしては、低消費電力用としてマイクロアーキテクチャから新規に開発された初めての製品であった。本当はIntel社がこれまで浸透できなかった携帯機器、家電、各種組み込み機器の新市場を開拓するはずであった。ところが、当初からAtom系のCPUが、IntelのPC向けCPUの市場を侵食して、Intel自身の利益を減らすという事態を引き起こすのではないかと心配されていた。実際に、2009年に入る頃、日本でのAtomは、Intelの思惑を超えて、通常のノートPC市場を食い始めた。まず、携帯ノートPCを購入していたユーザが流れ、続いて、低価格に引かれた初心者ユーザもひきつけた。Intelの既存のPC向けCPUが占めていた市場を、一部Atomが食ってしまった。ここで、汎用CPUと組み込み用CPUとの棲み分けが必要なのであるが、多くのユーザはこれまでの汎用CPUの性能を必要としないことが明らかになった。Atomのような小型コアのCPUが普及するとハイエンド向けCPUの比率はずっと低くなってしまう。

組み込み機器は、現在RISC系アーキテクチャのCPUで占められており、伝統的に、x86は携帯電話のレベルの低消費電力設計には向かないと考えられていた。また、PC向けCPUはダイが大きく製造コストも高いため、数ドルレベルの低コストが要求される市場には適合できないと見られていた。しかし機器の高度化にともなって、この市場でも高度なCPUが必要になると考えられていた。IntelもAMDも、早くからこの市場群に向けた製品計画を立てていた。AMD社もほぼ同時に低消費電力かつ低コストのCPUの開発をスタートさせていた。果たしてx86の低電力チップは商機があるのか?

後のことになるが、2016年5月、Intel社がAtomを終了すると報道された。

8) Intel社(メニーコア)
Intel社のメニーコア戦略はこの年大きく変わった。まず、当時のIntel社の2つのメニーコア開発プロジェクトをおさらいしておこう。2009年12月にどちらも中止されることになる。

(a) Larrabee
 2006年9月下旬、サンフランシスコで開かれた IDF (Intel Developer Forum)において、Intel社のCTOのJustin Rattnerは、テラスケール/プロセッサ開発を含む長期戦略について語った。Intel社はTera-scale Computing Research Programを進めている。これは、商品そのものではないが、80個のRISCコア(x86から大幅に拡張、512 bitのSIMDをもつ)をタイル上に並べ、垂直にメモリチップと直接結合するとのことである。一種のコプロセッサで、他のプロセッサやI/Oとシリコンレーザで結合する可能性もある。GPUとしても機能するようにグラフィック機能も用意している。これはまさにチップ上のスーパーコンピュータである。Intelとしては、核兵器のシミュレーションや気候モデリングは成長産業ではないと考えており、このようなTera-scaleチップは大規模なデータセンターやウェブサービスに使われるであろう。これはRMS (Recognition, Mining and Synthesis)と呼ばれる。このTera-scaleチップは3.1 GHzで動く。このチップはLarrabeeというコード名で開発されている。Larrabeeはワシントン州のLarrabee State Parkにちなんだ名前である。試作品ができたのは2007年2月である。

(b) Polaris(コード名)、Teraflops Research chip、Terascale、Network-on-Chip (NoC)
 2006年9月下旬にSan Franciscoで開催されたIDF (Intel Developer Forum)で予告、2007年2月11日に発表。2007年2月11日~15日にSan Franciscoで開催されたISSCC会議でデモ。最大5.67 GHzで動作。80個のコア(x86とは非互換)をタイル上に並べ、垂直にメモリチップと直接結合する。
ISSCCで発表したところによると、PEは、9ステージの単精度浮動小数点積和演算器(FPMAC)を2つ備え、命令キャッシュを3 KB、データキャッシュを2 KB備える。最大8命令並列の96 bit VLIWアーキテクチャ、6-read、4-write、共用で32エントリのレジスタファイルを備える。ポート数は10で、2つのFPMACに対して4つのリードと2ライト、DMEMからのロードとストア、ネットワークからのパケットのセンド/レシーブを同時にスケジュールできる。チップ全体のトランジスタ数は1億、これに対してPEのトランジスタ数は120万ということなので、1億の全トランジスタのうち、PEだけで9600万トランジスタを使っていることになる。残りはI/OとPLL、TAGとなっている。ダイサイズは275 mm2、PEのダイサイズは3 mm2である。細粒度のクロックゲーティングを実装しているほか、スリープトランジスタ、基板バイアス技術も実装し、省電力性能を高めている。

両者とも同じ80コアであるが、アーキテクチャは全く異なることに注意。

Intel社は当初Larrabeeを2009年内の発売を計画していたたが、開発の遅れから2010年へと目標時期をずらしていた。2009年9月にSan Franciscoで開催されたIntel Developer Forum (IDF)ではLarrabeeを用いた物理シミュレーションデモを初披露、一部ソフトウェア開発者向けにサンプルチップの配布を行ったことを公表していた。

IntelのCTOであるJustin R. Rattnerは、10月に日本で記者会見を行い、LarrabeeとCPUとのメモリ共有をSVM (Shared Virtual Memory)でサポートすると述べた。

SC09のところで述べたように、RattnerはSC09の最中の11月17日に開会講演を行った。壇上にLarrabeeのFlopsメータ(アナログの針のメータ)を置き、SGEMMの性能がオーバークロックによりTFlopsを越えると「実演」した。本当に実測していたかどうかは明らかでない。氏は、「シングルチップでTFlopsを越えた(もちろん単精度)初めての公開デモである」と豪語した。

11月18日には、Intel Labs Europeが、フランスの3機関(フランス原子力庁(CEA)、大型集中計算施設(GENCI)、ベルサイユ・サン・カンタン大学)と協力してExascale Computing Research Centerを新たに設立し、現在最速のスーパーコンピュータに比べて1000倍以上という計算能力をもつマシンを研究すると発表した。Intel社は3年間に数百万ドルの資金を投入する予定。 今回の提携は、司法面で苦しい立場に立たされているIntel社にとって企業イメージを高める機会にもなる。同社は欧州委員会から独占禁止法違反の裁定を受け、$1.58Bもの制裁金を課せられ不服として上訴している。

2009年12月2日、Intel社はIA32ベースのコアを48個集積したSingle-chip Cloud Computer (SCC)を開発していると発表した。今回の試作では、P54C (Pentium)ベースのコア2個を1つのtileと見なし、2個のL2キャッシュと共通のメッセージバッファ/ルータを持つ。24個のtile(48コア)を4×6の2次元メッシュ接続している。Tile間は、独自の高速ネットワークで構築され、256 GB/secの転送速度と、低レイテンシで接続されている。また、コヒーレンシはソフトウェアで制御するようになったため、ハードウェアのキャッシュ・コヒーレンシ機構が省かれた。このほか、4つのDDR3メモリコントローラを内蔵するのも特徴となっている。

2009年12月4日、Intel社は2010年の発売に向けて開発を進めていたLarrabeeの発売を延期し、ソフトウェア開発プラットフォームとしてのみ登場することを発表した。12月6日にはキャンセルしたことを認めた。Intel内外のソフトウェア開発者向けにチップの提供は行うものの、GPUとして一般に流通することはないという。今回の計画キャンセルの理由は不明だが、ソフトウェア開発環境が整っていないこと、性能が当初の想定ほど引き出せなかったことなどが推測される。

直後には早くも、AMDがATIを買収したように、Intel社がNVIDIAを買収するのではという憶測が流れた。ブロガーのロバート・クリングリー氏は12月8日のエントリで、IntelはLarrabeeを中止したことで、NVIDIAを買収するほかなくなったと述べている。「今まさに、IntelとNVIDIAがファンキーなダンスを踊っている。両社が何を言おうと、最終的にNVIDIAはIntelに買収されると断言したい。両社ともそのことを分かっており、決まっていないのは金額だけだ。この駆け引きはすべて金額をめぐってのものだ」。すべての人がこの説を支持しているわけではない。Jon Peddie ResearchのJon Peddieは、「IntelとNVIDIAの文化の違い、とげとげしい関係、紛争は非常に深まっているため、流血沙汰なしで両社を統合するのは不可能だろう」と述べている。(ITmedia 12月11日号)。

9) AMD社
2009年4月23日、AMD社はOpteronの新しい戦略を発表した。2010年から、Opteron系列を2つに分け、ハイエンドの6000シリーズ(G34ソケット)のMaranelloと、廉価版の4000シリーズ(G32ソケット)のSan Marinoである。Marcelloの名前で発売される最初のチップは、2010年に発売される6~8コアのMagny-Coursであり、これに続いて2011年には12~16コアのInterlagosチップが登場する。San Marinoは2010年に出る4~6コアのLisbonと、2011年に出る6~8コアのValenciaである。予定されていた6コアのSao Pauloはロードマップから消えたようである。AMD社によると、Maranelloは「性能と拡張性」を要求するアプリ向きであり、San Marinoは「能力と効率と価値」を選択する。両者ともHPCを目指している。

2009年5月6日、AMD社はIntel社のAVX (Advance Vector Extensions)をサポートすると発表した。

2009年6月1日、AMD社はnativeな6コアをもつOpteron であるIstanbulを発表した。L3キャッシュは6 MB、クロックは2.8~1.8 GHz、メモリはDDR2 800 MHzである。HT Assist (HyperTransport Assist) が追加された。これはL3キャッシュ1MBを使用してCPU間でのキャッシュのプローブトラフィックを軽減し、データベース処理等を高速化する機能である。モデルナンバーは24xx、84xxとなった。前者は2ソケットまで、後者は8ソケットまでである。

2009年11月11日にAMD社はFinancial Analyst Dayを開催し、2010年~2011年のロードマップを明らかにした。2010年早々に45 nmのMagny-CoursプロセッサはMaranelloプラットフォーム(G34ソケット)のOpteron 6000の皮切りとなる。8プロセッサまでのサーバ市場に登場する。低消費電力の1~2プロセッサのOpteron 4000がミドルレンジに登場する。Magny-Coursは8~12コアとなり、ShanghaiやIstanbulの倍の性能を出す。メモリチャンネルも2から4に増えコアとメモリバンド幅のバランスを保つ。DDR3メモリもサポートする。2011年に登場するMagny-CoursであるInterlagosは32 nmプロセスで製造され、12~16コアとなる。コア数だけでなくコアアーキテクチャがBulldozerとなり、各Bulldozer modleは2個の整数コアと128-bit FMACの浮動小数ユニットをもつ。例えば16コアのInterlagosプロセッサは8個のBulldozer modelesからなる。各moduleはソフトからは単一のコアのように見えるが、SMTにより2スレッドを実行する。Cray社はSC09において、XT6でMagny-Coursプロセッサを用いることを発表した。しかし2011年にはIntelに乗り換えるかも知れない。

次はNVIDIAやClearSpeedなど企業の話やヨーロッパの動きや中国の動きが続く。

(画像:LLNL Dawnシステム  出典:ローレンスリバモア国立研究所

left-arrow   50history-bottom   right-arrow