HPCの歩み50年(第221回)-2012年(o)-
Cray社は、DARPAのHPCSプロジェクトの資金を得て、Cascadeを開発してきたが、これをXC30というスーパーコンピュータとして発表した。日本を含め、世界中に売れている。

アメリカの企業の動き
1) Cray社
2012年11月8日、Cray社は次世代のスーパーコンピュータであるXC30を発表した。これはDARPAのHPCSプロジェクトの資金を得て、Cascadeの開発コード名で開発されてきたものである。“C”はこれから来ていると思われる。DARPAのHPCSプロジェクトの成果である。相互結合網はHPC用に改良したAriesチップを用いたDragonflyトポロジであり、CPUはIntel Xeon E5-2600である。将来はIntel Xeon PhiコプロセッサやNVIDIA Tesla GPUを搭載することも考えられる。これまでXT*やXE*やXK*はAMDのOpteronをCPUに採用してきたので大きな転換である。なお、次項に示すようにCray社は5月にGeminiやAries相互接続技術の知的財産をIntel社に売却しているが、自社利用の権利は留保しているようである。
これまでのGeminiはHyperTransportで接続される3次元トーラスであった。Hisa Andoの解説によると、DragonflyトポロジはStanford大学のBill Dalyと共同で開発したもので、シャーシ内の16枚のブレードは完全結合され、グループを構成する6つのシャーシ間の対応するブレードも完全結合する。グループ間は光ファイバでグループ間を完全接続する。CPUとの接続は標準であるPCIeである。新しいトポロジだそうであるが、筑波大学のCP-PACSのハイパークロスバを思わせる。
2014年6月のTop500から、主要な設置先を記す。クロックはいろいろある。
順位 |
設置場所 |
システム |
cores |
Rmax |
Rpeak |
6 |
CSCS(スイス) |
Piz Daint – Cray XC30, Xeon E5-2670 8C 2.600GHz |
115984 |
6271.0 |
7788.9 |
10 |
米国某政府機関 |
Cray XC30, Intel Xeon E5-2697v2 12C 2.7GHz |
225984 |
3142.5 |
4881.3 |
18 |
NERSC(米) |
Edison – Cray XC30, Intel Xeon E5-2695v2 12C 2.4GHz |
133824 |
1654.7 |
2569.4 |
19tie |
ECMWF(英) |
Cray XC30, Intel Xeon E5-2697v2 12C 2.7GHz, |
83160 |
1552.0 |
1796.3 |
19tie |
ECMWF(英) |
Cray XC30, Intel Xeon E5-2697v2 12C 2.7GHz |
83160 |
1552.0 |
1796.3 |
25 |
Edinburgh大(英) |
ARCHER – Cray XC30, Intel Xeon E5 v2 12C 2.700GHz |
76192 |
1367.5 |
1645.7 |
90 |
国立天文台(日) |
Aterui – Cray XC30, Xeon E5-2670 8C 2.600GHz |
24192 |
420.4 |
503.2 |
101 |
京都大学(日) |
camellia – Cray XC30, Intel Xeon E5-2670v2 10C 2.500GHz |
33600 |
380.5 |
581.3 |
149tie |
Hannover大(独) |
Gottfried – Cray XC30, Intel Xeon E5-2695v2 12C 2.400GHz |
17856 |
295.7 |
342.8 |
149tie |
Konrad Zuse Zentrum(独) |
Konrad – Cray XC30, Intel Xeon E5-2695v2 12C 2.400GHz |
17856 |
295.7 |
342.8 |
2) Intel社(相互接続)
HPCwireの2012年4月25日付の記事によると、Intel社は米国時間4月24日、Cray社の相互接続ハードウェアの知的財産を買収すると発表した。これにより、Cray社がCascade向けに設計しているAriesとGemini相互接続技術に関する74名の開発チームが移籍し、34個の特許を使用する権利が得られる。価格は$140Mである。買収は6月までに完了する。今回の合意には、Intel社が将来の製品に搭載する重要な差異化機能を活用する機会をCray社が持つことや、Intel社に譲渡される資産をCray社が製品で利用する一定の権利を持つことなども含まれている。この買収から何が生まれたのであろうか?Omni-Pathか?
3) Intel社(Xeon Phi)
Intel社は、2012年6月18日、これまで“Knights Corner”(KNC)の開発コードで開発されてきたx86互換のメニーコアのコプロセッサ“Xeon Phi”(の第1弾)を発表した。MIC (Many Integrated Core)アーキテクチャに基づく最初の製品で、Ivy Bridgeと同じに22nm 3Dトライゲート・トランジスタを採用している。製品はPCI Expressカードの形で提供され、Xeonプロセッサと組み合わせて使用する。Xeonという名前がありながらコプロセッサであり、ホストOSから独立したLinuxベースのOSが動作するが自分でブートは出来ない。コア数は50以上とだけ発表された。8GB以上のGDDR5メモリをオンボード搭載し、512ビットのSIMD命令をサポートしている。これは、16-wayの単精度浮動小数点SIMDユニットとしても、8-wayの倍精度浮動小数点SIMDユニットとしても動作する。コア間の通信はリングバスで、片方向64 B (512 bits)の双方向リングで、アドレスとコヒーレンシのメッセージバスを別に持つ。このリングバスはその後ボトルネックとなることが分かった。
量産は2012年末であるが、すでに稼働したクラスタもあり、2012年6月のTop500の150位は、Rmax=118.6であるが、“Discovery – Intel Cluster, Xeon E5-2670 8C 2.600GHz, Infiniband FDR, Intel MIC”とMICが入っている。
思い起こせば、2006年6月、サンフランシスコで開かれた IDF (Intel Developer Forum)において、CTOのJustin Rattnerは、長期戦略について語り、Tera-scale Computing Research Programを進めていると述べた。当時の説明では80個のRISCコア(x86から大幅に拡張、512 bitのSIMDをもつ)をタイル状に並べ、垂直にメモリチップと直接結合するとのことであった。Larrabeeがコード名であり2007年2月に試作品ができた。
2007年2月11日に発表されたPolaris(コード名)は、Teraflops Research chipとかTerascaleとかNetwork-on-Chip (NoC)ともよばれ、x86とは非互換のコアを80個タイル状に並べるとのことであった。最大8命令並列の96 bit VLIWアーキテクチャであった。テストチップは5.67 GHzで動き、単精度であるが1 TFlopsを出したそうである。これは試作だけで終わった。
2009年11月17日のSC09の開会講演で、IntelのCTOであるJustin R. Rattnerは、壇上にLarrabeeのFlopsメータ(アナログの針のメータ)を置き、SGEMMの性能がオーバークロックによりTFlopsを越えると「実演」した。その舌の根も乾かない12月4日、Intel社は2010年の発売に向けて開発を進めていたLarrabeeの発売を延期し、ソフトウェア開発プラットフォームとしてのみ登場することを発表した。12月6日にはキャンセルしたことを認めた。
2010年5月25日、Intelの広報担当者Bill Kircos氏は「最初の製品は“Knights Corner”というコード名のチップで、22 nmテクノロジで製造され、50以上のIntelコアを含む。XeonプロセッサとMIC製品とは、ツール、ソフトウェア、アルゴリズム、プログラミング技術を共有する。この製品には、これまでIntel社が開発してきたLarrabeeやSCC (Single-chip Cloud Computer)などのメニーコア技術が継承されている。」と連続性を強調した。今度は本命であろうか。
2011年の記事に書いたように、Intel社は、2011年ごろから、Knightsの第1段として“Knights Ferry”と呼ばれる32コアのCPU“Aubrey Isle”を100以上のユーザに提供してきた。これは45nmプロセスであったが、Knights Cornerでは22nmを使い、コア数は50以上とする。後藤弘茂の報告によれば「仕切り直しのLarrabee」である。
4) AMD社
2011年のところに書いたように、最新のBulldozerマイクロアーキテクチャを用いた、Opteron 6200 Series(コード名Interlagos)とOpteron 4200 Series(コード名Valencia)を、SC11の直前に発表した。しかしIPCがIntelのCPUより低く、浮動小数演算ユニットを2つのコアで共有したことにより、浮動小数演算性能は上がっていない。
2012年10月、Bulldozerコアを改良したPiledriverコアを採用したFXシリーズのCPUを発表し、発売した。また8月のHot Chipsでは、第3世代のBulldozerマイクロアーキテクチャであるSteamrollerを予告した。Steamrollerでは、デコーダが2ユニットとなり、2スレッドがそれぞれ専用の命令デコーダを備える。
5) NVIDIA社
Keplerマイクロアーキテクチャを採用した最初の製品であるGK104ベースのK10は2012年5月16日に発表されたが、倍精度のピーク性能が単精度の1/24であり、HPC用には使えながった。同時に発表され、第4四半期に登場したK20は、GK110を搭載した、倍精度が1.17 TFlops、単精度3.52 TFlopsで大幅に改善されている。また、キャッシュにもGPUメモリにもECCが装備されている。メモリバンド幅は208 GB/sである。
6) 半導体ファウンドリ
このころの独立系のファウンドリとしては、
TSMC (台湾積体電路製造) |
台湾新竹 |
UMC (聯華電子) |
台湾新竹、工場はシンガポールにも |
GLOBALFOUNDRIES (グローバルファウンドリーズ) |
本社アメリカ、工場はイツDresden、シンガポールなど。AMDの工場を引き継ぐ。出資も。 |
SMIC (中芯国際集成電路製造) |
上海 |
GSMC (宏力半導体) |
上海 |
CSMC (華潤上華技科) |
江蘇省 |
などがあるが、Intelと他の半導体メーカーとのギャップが開きつつあるとの報道があった。これによると、大手のファウンドリは、FinFETタイプの3Dトランジスタの導入を2014年前後に前倒しして、インテルとの差を縮めようという計画である。現在のスケジュールでは、TSMCは16nm FinFETのCLN16FFを2013年末までに立ち上げ、GLOBALFOUNDRIESも14nm FinFETの14nm-XMを2014年頭頃までに立ち上げる。また、UMCもIBMからライセンスを受けた20nmのFinFETを立ち上げる。GLOBALFOUNDRIESはIBMを中心とするプロセス開発連合Common Platformの一員なので、Common Platformのほかのメーカー(Samsungなど)も同じパターンを採ると推測される。
7) Microsoft社
Microsoft社は、2012年10月26日、Windows 8の小売りを開始した。RTM (Release To Manufacturing)は2012年8月1日、VL (Volume Licence)は8月16日である。PCだけでなく、スマートフォンやタブレットにも対応し、タッチ操作が可能になった。しかし寿命は短かった。
次回は2012年の最終回で、ヨーロッパの動き、中国の動き、台湾の動き、インドの動きなど。
(アイキャッチ画像:Cray XC30 出典:Cray XCシリーズカタログより)
![]() |
![]() |
![]() |