2月 17, 2020

HPCの歩み50年（第221回）－2012年(o)－

小柳義夫 (高度情報科学技術研究機構)

Cray社は、DARPAのHPCSプロジェクトの資金を得て、Cascadeを開発してきたが、これをXC30というスーパーコンピュータとして発表した。日本を含め、世界中に売れている。

アメリカの企業の動き

1) Cray社
2012年11月8日、Cray社は次世代のスーパーコンピュータであるXC30を発表した。これはDARPAのHPCSプロジェクトの資金を得て、Cascadeの開発コード名で開発されてきたものである。“C”はこれから来ていると思われる。DARPAのHPCSプロジェクトの成果である。相互結合網はHPC用に改良したAriesチップを用いたDragonflyトポロジであり、CPUはIntel Xeon E5-2600である。将来はIntel Xeon PhiコプロセッサやNVIDIA Tesla GPUを搭載することも考えられる。これまでXT*やXE*やXK*はAMDのOpteronをCPUに採用してきたので大きな転換である。なお、次項に示すようにCray社は5月にGeminiやAries相互接続技術の知的財産をIntel社に売却しているが、自社利用の権利は留保しているようである。

これまでのGeminiはHyperTransportで接続される3次元トーラスであった。Hisa Andoの解説によると、DragonflyトポロジはStanford大学のBill Dalyと共同で開発したもので、シャーシ内の16枚のブレードは完全結合され、グループを構成する6つのシャーシ間の対応するブレードも完全結合する。グループ間は光ファイバでグループ間を完全接続する。CPUとの接続は標準であるPCIeである。新しいトポロジだそうであるが、筑波大学のCP-PACSのハイパークロスバを思わせる。

2014年6月のTop500から、主要な設置先を記す。クロックはいろいろある。

順位	設置場所	システム	cores	Rmax	Rpeak
6	CSCS（スイス）	Piz Daint – Cray XC30, Xeon E5-2670 8C 2.600GHz	115984	6271.0	7788.9
10	米国某政府機関	Cray XC30, Intel Xeon E5-2697v2 12C 2.7GHz	225984	3142.5	4881.3
18	NERSC（米）	Edison – Cray XC30, Intel Xeon E5-2695v2 12C 2.4GHz	133824	1654.7	2569.4
19tie	ECMWF（英）	Cray XC30, Intel Xeon E5-2697v2 12C 2.7GHz,	83160	1552.0	1796.3
19tie	ECMWF（英）	Cray XC30, Intel Xeon E5-2697v2 12C 2.7GHz	83160	1552.0	1796.3
25	Edinburgh大（英）	ARCHER – Cray XC30, Intel Xeon E5 v2 12C 2.700GHz	76192	1367.5	1645.7
90	国立天文台（日）	Aterui – Cray XC30, Xeon E5-2670 8C 2.600GHz	24192	420.4	503.2
101	京都大学（日）	camellia – Cray XC30, Intel Xeon E5-2670v2 10C 2.500GHz	33600	380.5	581.3
149tie	Hannover大（独）	Gottfried – Cray XC30, Intel Xeon E5-2695v2 12C 2.400GHz	17856	295.7	342.8
149tie	Konrad Zuse Zentrum（独）	Konrad – Cray XC30, Intel Xeon E5-2695v2 12C 2.400GHz	17856	295.7	342.8

2) Intel社（相互接続）
HPCwireの2012年4月25日付の記事によると、Intel社は米国時間4月24日、Cray社の相互接続ハードウェアの知的財産を買収すると発表した。これにより、Cray社がCascade向けに設計しているAriesとGemini相互接続技術に関する74名の開発チームが移籍し、34個の特許を使用する権利が得られる。価格は$140Mである。買収は6月までに完了する。今回の合意には、Intel社が将来の製品に搭載する重要な差異化機能を活用する機会をCray社が持つことや、Intel社に譲渡される資産をCray社が製品で利用する一定の権利を持つことなども含まれている。この買収から何が生まれたのであろうか？Omni-Pathか？

3) Intel社（Xeon Phi）
Intel社は、2012年6月18日、これまで“Knights Corner”(KNC)の開発コードで開発されてきたx86互換のメニーコアのコプロセッサ“Xeon Phi”（の第1弾）を発表した。MIC (Many Integrated Core)アーキテクチャに基づく最初の製品で、Ivy Bridgeと同じに22nm 3Dトライゲート・トランジスタを採用している。製品はPCI Expressカードの形で提供され、Xeonプロセッサと組み合わせて使用する。Xeonという名前がありながらコプロセッサであり、ホストOSから独立したLinuxベースのOSが動作するが自分でブートは出来ない。コア数は50以上とだけ発表された。8GB以上のGDDR5メモリをオンボード搭載し、512ビットのSIMD命令をサポートしている。これは、16-wayの単精度浮動小数点SIMDユニットとしても、8-wayの倍精度浮動小数点SIMDユニットとしても動作する。コア間の通信はリングバスで、片方向64 B (512 bits)の双方向リングで、アドレスとコヒーレンシのメッセージバスを別に持つ。このリングバスはその後ボトルネックとなることが分かった。

量産は2012年末であるが、すでに稼働したクラスタもあり、2012年6月のTop500の150位は、Rmax=118.6であるが、“Discovery – Intel Cluster, Xeon E5-2670 8C 2.600GHz, Infiniband FDR, Intel MIC”とMICが入っている。

思い起こせば、2006年6月、サンフランシスコで開かれた　IDF (Intel Developer Forum)において、CTOのJustin Rattnerは、長期戦略について語り、Tera-scale Computing Research Programを進めていると述べた。当時の説明では80個のRISCコア（x86から大幅に拡張、512 bitのSIMDをもつ）をタイル状に並べ、垂直にメモリチップと直接結合するとのことであった。Larrabeeがコード名であり2007年2月に試作品ができた。

2007年2月11日に発表されたPolaris（コード名）は、Teraflops Research chipとかTerascaleとかNetwork-on-Chip (NoC)ともよばれ、x86とは非互換のコアを80個タイル状に並べるとのことであった。最大8命令並列の96 bit VLIWアーキテクチャであった。テストチップは5.67 GHzで動き、単精度であるが1 TFlopsを出したそうである。これは試作だけで終わった。

2009年11月17日のSC09の開会講演で、IntelのCTOであるJustin R. Rattnerは、壇上にLarrabeeのFlopsメータ（アナログの針のメータ）を置き、SGEMMの性能がオーバークロックによりTFlopsを越えると「実演」した。その舌の根も乾かない12月4日、Intel社は2010年の発売に向けて開発を進めていたLarrabeeの発売を延期し、ソフトウェア開発プラットフォームとしてのみ登場することを発表した。12月6日にはキャンセルしたことを認めた。

2010年5月25日、Intelの広報担当者Bill Kircos氏は「最初の製品は“Knights Corner”というコード名のチップで、22 nmテクノロジで製造され、50以上のIntelコアを含む。XeonプロセッサとMIC製品とは、ツール、ソフトウェア、アルゴリズム、プログラミング技術を共有する。この製品には、これまでIntel社が開発してきたLarrabeeやSCC (Single-chip Cloud Computer)などのメニーコア技術が継承されている。」と連続性を強調した。今度は本命であろうか。

2011年の記事に書いたように、Intel社は、2011年ごろから、Knightsの第1段として“Knights Ferry”と呼ばれる32コアのCPU“Aubrey Isle”を100以上のユーザに提供してきた。これは45nmプロセスであったが、Knights Cornerでは22nmを使い、コア数は50以上とする。後藤弘茂の報告によれば「仕切り直しのLarrabee」である。

4) AMD社
2011年のところに書いたように、最新のBulldozerマイクロアーキテクチャを用いた、Opteron 6200 Series（コード名Interlagos）とOpteron 4200 Series（コード名Valencia）を、SC11の直前に発表した。しかしIPCがIntelのCPUより低く、浮動小数演算ユニットを2つのコアで共有したことにより、浮動小数演算性能は上がっていない。

2012年10月、Bulldozerコアを改良したPiledriverコアを採用したFXシリーズのCPUを発表し、発売した。また8月のHot Chipsでは、第3世代のBulldozerマイクロアーキテクチャであるSteamrollerを予告した。Steamrollerでは、デコーダが2ユニットとなり、2スレッドがそれぞれ専用の命令デコーダを備える。

5) NVIDIA社
Keplerマイクロアーキテクチャを採用した最初の製品であるGK104ベースのK10は2012年5月16日に発表されたが、倍精度のピーク性能が単精度の1/24であり、HPC用には使えながった。同時に発表され、第4四半期に登場したK20は、GK110を搭載した、倍精度が1.17 TFlops、単精度3.52 TFlopsで大幅に改善されている。また、キャッシュにもGPUメモリにもECCが装備されている。メモリバンド幅は208 GB/sである。

6) 半導体ファウンドリ
このころの独立系のファウンドリとしては、

TSMC (台湾積体電路製造)	台湾新竹
UMC (聯華電子)	台湾新竹、工場はシンガポールにも
GLOBALFOUNDRIES (グローバルファウンドリーズ)	本社アメリカ、工場はイツDresden、シンガポールなど。AMDの工場を引き継ぐ。出資も。
SMIC (中芯国際集成電路製造)	上海
GSMC (宏力半導体)	上海
CSMC (華潤上華技科)	江蘇省

などがあるが、Intelと他の半導体メーカーとのギャップが開きつつあるとの報道があった。これによると、大手のファウンドリは、FinFETタイプの3Dトランジスタの導入を2014年前後に前倒しして、インテルとの差を縮めようという計画である。現在のスケジュールでは、TSMCは16nm FinFETのCLN16FFを2013年末までに立ち上げ、GLOBALFOUNDRIESも14nm FinFETの14nm-XMを2014年頭頃までに立ち上げる。また、UMCもIBMからライセンスを受けた20nmのFinFETを立ち上げる。GLOBALFOUNDRIESはIBMを中心とするプロセス開発連合Common Platformの一員なので、Common Platformのほかのメーカー(Samsungなど)も同じパターンを採ると推測される。

7) Microsoft社
Microsoft社は、2012年10月26日、Windows 8の小売りを開始した。RTM (Release To Manufacturing)は2012年8月1日、VL (Volume Licence)は8月16日である。PCだけでなく、スマートフォンやタブレットにも対応し、タッチ操作が可能になった。しかし寿命は短かった。

次回は2012年の最終回で、ヨーロッパの動き、中国の動き、台湾の動き、インドの動きなど。

(アイキャッチ画像：Cray XC30　出典：Cray XCシリーズカタログより）

eNewsletter

検索

HPCの歩み50年（第221回）－2012年(o)－

アメリカの企業の動き

コメントを残すコメントをキャンセル

HPCwire Japan

E-Marketings, Inc.

HPCの歩み50年（第221回）－2012年(o)－

アメリカの企業の動き

コメントを残す コメントをキャンセル

HPCwire Japan

E-Marketings, Inc.

コメントを残すコメントをキャンセル