世界のスーパーコンピュータとそれを動かす人々


2月 17, 2020

HPCの歩み50年(第221回)-2012年(o)-

小柳 義夫 (高度情報科学技術研究機構)

Cray社は、DARPAのHPCSプロジェクトの資金を得て、Cascadeを開発してきたが、これをXC30というスーパーコンピュータとして発表した。日本を含め、世界中に売れている。

アメリカの企業の動き

1) Cray社
2012年11月8日、Cray社は次世代のスーパーコンピュータであるXC30を発表した。これはDARPAのHPCSプロジェクトの資金を得て、Cascadeの開発コード名で開発されてきたものである。“C”はこれから来ていると思われる。DARPAのHPCSプロジェクトの成果である。相互結合網はHPC用に改良したAriesチップを用いたDragonflyトポロジであり、CPUはIntel Xeon E5-2600である。将来はIntel Xeon PhiコプロセッサやNVIDIA Tesla GPUを搭載することも考えられる。これまでXT*やXE*やXK*はAMDのOpteronをCPUに採用してきたので大きな転換である。なお、次項に示すようにCray社は5月にGeminiやAries相互接続技術の知的財産をIntel社に売却しているが、自社利用の権利は留保しているようである。

これまでのGeminiはHyperTransportで接続される3次元トーラスであった。Hisa Andoの解説によると、DragonflyトポロジはStanford大学のBill Dalyと共同で開発したもので、シャーシ内の16枚のブレードは完全結合され、グループを構成する6つのシャーシ間の対応するブレードも完全結合する。グループ間は光ファイバでグループ間を完全接続する。CPUとの接続は標準であるPCIeである。新しいトポロジだそうであるが、筑波大学のCP-PACSのハイパークロスバを思わせる。

2014年6月のTop500から、主要な設置先を記す。クロックはいろいろある。

順位

設置場所

システム

cores

Rmax

Rpeak

6

CSCS(スイス)

Piz Daint – Cray XC30, Xeon E5-2670 8C 2.600GHz

115984

6271.0

7788.9

10

米国某政府機関

Cray XC30, Intel Xeon E5-2697v2 12C 2.7GHz

225984

3142.5

4881.3

18

NERSC(米)

Edison – Cray XC30, Intel Xeon E5-2695v2 12C 2.4GHz

133824

1654.7

2569.4

19tie

ECMWF(英)

Cray XC30, Intel Xeon E5-2697v2 12C 2.7GHz,

83160

1552.0

1796.3

19tie

ECMWF(英)

Cray XC30, Intel Xeon E5-2697v2 12C 2.7GHz

83160

1552.0

1796.3

25

Edinburgh大(英)

ARCHER – Cray XC30, Intel Xeon E5 v2 12C 2.700GHz

76192

1367.5

1645.7

90

国立天文台(日)

Aterui – Cray XC30, Xeon E5-2670 8C 2.600GHz

24192

420.4

503.2

101

京都大学(日)

camellia – Cray XC30, Intel Xeon E5-2670v2 10C 2.500GHz

33600

380.5

581.3

149tie

Hannover大(独)

Gottfried – Cray XC30, Intel Xeon E5-2695v2 12C 2.400GHz

17856

295.7

342.8

149tie

Konrad Zuse Zentrum(独)

Konrad – Cray XC30, Intel Xeon E5-2695v2 12C 2.400GHz

17856

295.7

342.8

 

2) Intel社(相互接続)
HPCwireの2012年4月25日付の記事によると、Intel社は米国時間4月24日、Cray社の相互接続ハードウェアの知的財産を買収すると発表した。これにより、Cray社がCascade向けに設計しているAriesとGemini相互接続技術に関する74名の開発チームが移籍し、34個の特許を使用する権利が得られる。価格は$140Mである。買収は6月までに完了する。今回の合意には、Intel社が将来の製品に搭載する重要な差異化機能を活用する機会をCray社が持つことや、Intel社に譲渡される資産をCray社が製品で利用する一定の権利を持つことなども含まれている。この買収から何が生まれたのであろうか?Omni-Pathか?

3) Intel社(Xeon Phi)
Intel社は、2012年6月18日、これまで“Knights Corner”(KNC)の開発コードで開発されてきたx86互換のメニーコアのコプロセッサ“Xeon Phi”(の第1弾)を発表した。MIC (Many Integrated Core)アーキテクチャに基づく最初の製品で、Ivy Bridgeと同じに22nm 3Dトライゲート・トランジスタを採用している。製品はPCI Expressカードの形で提供され、Xeonプロセッサと組み合わせて使用する。Xeonという名前がありながらコプロセッサであり、ホストOSから独立したLinuxベースのOSが動作するが自分でブートは出来ない。コア数は50以上とだけ発表された。8GB以上のGDDR5メモリをオンボード搭載し、512ビットのSIMD命令をサポートしている。これは、16-wayの単精度浮動小数点SIMDユニットとしても、8-wayの倍精度浮動小数点SIMDユニットとしても動作する。コア間の通信はリングバスで、片方向64 B (512 bits)の双方向リングで、アドレスとコヒーレンシのメッセージバスを別に持つ。このリングバスはその後ボトルネックとなることが分かった。

量産は2012年末であるが、すでに稼働したクラスタもあり、2012年6月のTop500の150位は、Rmax=118.6であるが、“Discovery – Intel Cluster, Xeon E5-2670 8C 2.600GHz, Infiniband FDR, Intel MIC”とMICが入っている。

思い起こせば、2006年6月、サンフランシスコで開かれた IDF (Intel Developer Forum)において、CTOのJustin Rattnerは、長期戦略について語り、Tera-scale Computing Research Programを進めていると述べた。当時の説明では80個のRISCコア(x86から大幅に拡張、512 bitのSIMDをもつ)をタイル状に並べ、垂直にメモリチップと直接結合するとのことであった。Larrabeeがコード名であり2007年2月に試作品ができた。

2007年2月11日に発表されたPolaris(コード名)は、Teraflops Research chipとかTerascaleとかNetwork-on-Chip (NoC)ともよばれ、x86とは非互換のコアを80個タイル状に並べるとのことであった。最大8命令並列の96 bit VLIWアーキテクチャであった。テストチップは5.67 GHzで動き、単精度であるが1 TFlopsを出したそうである。これは試作だけで終わった。

2009年11月17日のSC09の開会講演で、IntelのCTOであるJustin R. Rattnerは、壇上にLarrabeeのFlopsメータ(アナログの針のメータ)を置き、SGEMMの性能がオーバークロックによりTFlopsを越えると「実演」した。その舌の根も乾かない12月4日、Intel社は2010年の発売に向けて開発を進めていたLarrabeeの発売を延期し、ソフトウェア開発プラットフォームとしてのみ登場することを発表した。12月6日にはキャンセルしたことを認めた。

2010年5月25日、Intelの広報担当者Bill Kircos氏は「最初の製品は“Knights Corner”というコード名のチップで、22 nmテクノロジで製造され、50以上のIntelコアを含む。XeonプロセッサとMIC製品とは、ツール、ソフトウェア、アルゴリズム、プログラミング技術を共有する。この製品には、これまでIntel社が開発してきたLarrabeeやSCC (Single-chip Cloud Computer)などのメニーコア技術が継承されている。」と連続性を強調した。今度は本命であろうか。

2011年の記事に書いたように、Intel社は、2011年ごろから、Knightsの第1段として“Knights Ferry”と呼ばれる32コアのCPU“Aubrey Isle”を100以上のユーザに提供してきた。これは45nmプロセスであったが、Knights Cornerでは22nmを使い、コア数は50以上とする。後藤弘茂の報告によれば「仕切り直しのLarrabee」である。

4) AMD社
2011年のところに書いたように、最新のBulldozerマイクロアーキテクチャを用いた、Opteron 6200 Series(コード名Interlagos)とOpteron 4200 Series(コード名Valencia)を、SC11の直前に発表した。しかしIPCがIntelのCPUより低く、浮動小数演算ユニットを2つのコアで共有したことにより、浮動小数演算性能は上がっていない。

2012年10月、Bulldozerコアを改良したPiledriverコアを採用したFXシリーズのCPUを発表し、発売した。また8月のHot Chipsでは、第3世代のBulldozerマイクロアーキテクチャであるSteamrollerを予告した。Steamrollerでは、デコーダが2ユニットとなり、2スレッドがそれぞれ専用の命令デコーダを備える。

5) NVIDIA社
Keplerマイクロアーキテクチャを採用した最初の製品であるGK104ベースのK10は2012年5月16日に発表されたが、倍精度のピーク性能が単精度の1/24であり、HPC用には使えながった。同時に発表され、第4四半期に登場したK20は、GK110を搭載した、倍精度が1.17 TFlops、単精度3.52 TFlopsで大幅に改善されている。また、キャッシュにもGPUメモリにもECCが装備されている。メモリバンド幅は208 GB/sである。

6) 半導体ファウンドリ
このころの独立系のファウンドリとしては、

TSMC (台湾積体電路製造) 

台湾新竹

UMC (聯華電子) 

台湾新竹、工場はシンガポールにも

GLOBALFOUNDRIES (グローバルファウンドリーズ) 

本社アメリカ、工場はイツDresden、シンガポールなど。AMDの工場を引き継ぐ。出資も。

SMIC (中芯国際集成電路製造)

上海

GSMC (宏力半導体) 

上海

CSMC (華潤上華技科) 

江蘇省

 

などがあるが、Intelと他の半導体メーカーとのギャップが開きつつあるとの報道があった。これによると、大手のファウンドリは、FinFETタイプの3Dトランジスタの導入を2014年前後に前倒しして、インテルとの差を縮めようという計画である。現在のスケジュールでは、TSMCは16nm FinFETのCLN16FFを2013年末までに立ち上げ、GLOBALFOUNDRIESも14nm FinFETの14nm-XMを2014年頭頃までに立ち上げる。また、UMCもIBMからライセンスを受けた20nmのFinFETを立ち上げる。GLOBALFOUNDRIESはIBMを中心とするプロセス開発連合Common Platformの一員なので、Common Platformのほかのメーカー(Samsungなど)も同じパターンを採ると推測される。

7) Microsoft社
Microsoft社は、2012年10月26日、Windows 8の小売りを開始した。RTM (Release To Manufacturing)は2012年8月1日、VL (Volume Licence)は8月16日である。PCだけでなく、スマートフォンやタブレットにも対応し、タッチ操作が可能になった。しかし寿命は短かった。

次回は2012年の最終回で、ヨーロッパの動き、中国の動き、台湾の動き、インドの動きなど。

(アイキャッチ画像:Cray XC30 出典:Cray XCシリーズカタログより)

left-arrow   50history-bottom   right-arrow