提　供

12月 3, 2018

HPCの歩み50年（第187回）－2010年(m)－

小柳義夫 (高度情報科学技術研究機構)

IBM社はPOWER7プロセッサ正式に発表した。Cray社はXT6やXE6を発表した。後者ではGemini接続網を搭載しているが、大域的アドレス空間をサポートするという特徴をもつ。Cray社はまたIntelのx86プロセッサを用いるCascadeについても明らかにした。Intel社は4コアのItanium 9300を発表した。

アメリカ企業の動き

1) IBM社 (Power)
POWER7についてIBM社は、2009年8月のHot Chips会議で詳しい技術的な発表を行っていたが、2010年2月8日（日本では9日）に正式に発表した。45 nmプロセス、12億トランジスタ、クロックは3.0～4.14 GHz、コア数は最大8、L1キャッシュは命令・データ別の32 KB/core、L2キャッシュは256 KB/core、共有L3キャッシュはeDRAMで32 MBなど。十進演算もサポート。DARPAのHPCSプロジェクトのPERCSや、UIUCのNCSAのBlue Watersに使用される予定。同時に、これを用いたサーバPower Systems（Power 750 Express, 755, 770, 780）も発表した。

2) IBM社 (Cell)
IBM社は2009年11月19日、Cell B.E.の開発を中止すると発表したが、現行のQS21ブレードの販売を6月25日で終了すると発表した。部品が必要なら早めに注文せよ、とのことである。2008年5月に発表された2代目のCell B.E.を搭載するQS22ブレードの販売終了も秒読みである。まあ、買い手のいる間は売るようであるが。3代目のCellは2個のPPEと、32個のSPEが組み込まれ、倍精度で500 GFlops出すという触れ込みであったが、これを載せるQSZ2ブレードも中止となった。今後出る、POWER7+やPOWER8にSPEを組み込むとのことだが、本当か？

共同通信によると、12月1日に、アメリカ米軍がPS3を使って”Condor Cluster”を作ったと発表した。各ノードは、

・6コアプロセッサ　2基
・PS3　22台
・GPU　2台

から成るという。しかもPS3そのものでPowerXCellではないとのこと。Fixstars社の発表によると、米国法人Fixstars Solutions, Inc.は、2010年11月16日、US AirForce Research LabsからSONY PS3を用いたクラスタシステム向けLinuxとその管理ツールを受注したとのことである。PS3は合計2016台で、Yellow Dog Enterprise Linuxを活用して、500 TFlops（単精度であろう）の処理速度を実現し、合成開口レーダの画像処理を行う。米国Fixstars社は2013年までOSの保守サービスを提供する。

このころソニーは、PS3からLinuxなどの他のOSを動かす機能を削除したとのことで、空軍は今後PS3を買い足すことはできなくなるようである。

3) IBM社 (GPU)
IBM社はCell B.E.によるHPCに見切りをつけたのか、Intel社とNVIDIA社のチップを混載するスーパーコンピュータを2010年5月18日発表した。“IBM iDataPlex Dx360 M3”は、IntelのCPUであるXeonとNVIDIAのGPUであるTeslaを搭載し、他のDx360 M3モジュラーサーバと共にクラスタ化してスーパーコンピュータを構成できるように設計されている。注目すべき点は、NVIDIAはすでにFermiを出しているのにTeslaを搭載していることである。IBMのTurekによれば、FermiのECC付メモリ、倍精度計算、プログラムの容易性を、市場の要求から見て時期尚早と考えているようである。HPCを舐めているのであろうか？

4) Cray社 (XT6)
Cray社は2009年11月17日、同社のCray XTシリーズの最新機種として、Cray XT6を発表した。XT6の各計算ノードは、12コアのAMD Opteron 6100シリーズプロセッサ（コード名Magny-Cours）で構成されている。最初の（しかも最大の）XT6が2010年8月、EdingburghのEPCCのHECToRのアップグレードとして稼働した。設置は5月末から始まり、6月上旬には完了していた。このXT6は、20個の筐体に収められ、464枚のブレードから構成される。各ブレードは4個の計算ノードを含む。各ノードは、2.1 GHzで作動する12コアAMD Opteron（Magny Cours）プロセッサで構成される。ノード当たりのメモリは16 GBコアである。総コア数は44544、総メモリは59.4 TB。

各12コアソケットはCray社製のSeaStar2の通信制御チップと結合している。2010年末にはGemini相互接続網にアップグレードされる。

2010年6月のTop500では、コア数43660、Rmax=274.7 TFlops、Rpeak=366.7 TFlopsで16位にランクされた。11月には25位。コア数がちょっと少ないのはともかく、12の倍数でないのが気にかかる。既存のXT4システムは縮小されたが、それでも6月のTop500で、コア数22656、Rmax=174.1、Rpeak=208.4で26位にランクされている。その後は登場しないので、撤去されたか？

5) Cray社 (XE6)
Cray XE6はBakerというコード名で開発されていたが、2010年5月25日に正式に発表された。これはCray XT6の強化版であり、XT6と同様なコンピュータブレードを用いる。8コアまたは12コアのOpteron 6100プロセッサ(Magny-Cours)を搭載し、キャビネット当たり最大3072コア搭載できる。相互接続網が特徴で、XT5やXT6で用いられたSeaStar2+の代わりにより高速でスケーラブルやGeminiルータを用いる。これは3次元トーラスのネットワークを提供する。XE6の各ノードは2個のプロセッサソケットと、32 GBまたは64 GBのDDR3 SDRAMメモリを持つ。2個のノードがGeminiルータASICを共有する。OSはCray Linux Environment (CLE) version 3である。6という数字は、XT6と同じく第6世代のOpteronを使用していることを示す。HPCwireによると、Geminiネットワークは、ベクトルプロセッサであるCray X2 (Black Widow)の相互接続から多くを受け継いでいるとのことである。

Geminiの大きな特徴は大域的アドレス空間をサポートすることである。XE6は、大域的アドレスをサポートする初めてのMPPである。これによりアプリケーションは、OSを煩わすことなく他のモードのメモリを参照することができる。もちろん、CAF (Co-Array Fortran)やUPC (Unified Parallel C)や、SHMEMのようなPGAS言語を使って並列アプリケーションを書くことができる。これはメッセージ・パシングより素直に大きなメモリ上のデータを扱うことができる。とくにDARPAのHPCSプログラムでCray社が開発しているChapel言語にも最適である。

またGeminiはリンクの故障を回避して適応的なルーティングを行う機能を持っている。また、システムを停止することなく、ブレードを交換する(warm swapping)こともできる。

GeminiチップはTSMCの90 nmプロセスで製造された。チップのダイ面積はSeaStarより大きいが、1個のチップで2ノードを制御することができる。

最初のCray XE6の1筐体は、CSCS (Swiss National supercomputer Centre)に7月28日に設置された。1筐体には20枚のブレードが収納され、合計160個のソケットがある。各ソケットには、2.1 GHzの12-core AMD Opteron（コード名Magny-Cours）のパッケージが刺されており、合計1920ノードである。このマシンはPiz Paluと命名された。ピークは16 TFlopsである。

2011年11月のTop500から100位以内のXE6を示す。

順位	設置場所	機種	コア数	Rmax	Rpeak
6	LANL/SNL	Cielo – Cray XE6, Opteron 6136 8C 2.40GHz	142272	1110.0	1365.8
8	NERSC	Hopper – Cray XE6, Opteron 6172 12C 2.10GHz	153408	1054.0	1288.6
12	HWW / U Stuttgart（独）	HERMIT – Cray XE6, Opteron 6276 16C 2.30 GHz,	113472	831.4	1043.9
19	U Edinburgh（英）	HECToR – Cray XE6, Opteron 6276 16C 2.30 GHz,	90112	660.2	829.0
20	NOAA/ORNL	Gaea C2 – Cray XE6, Opteron 6276 16C 2.30GHz	77824	565.7	716.0
30	Air force Research Lab（米）	Raptor – Cray XE6 8-core 2.4 GHz	42712	336.3	410.0
31tie	韓国気象庁（2台）	Haedam – Cray XE6 12-core 2.1 GHz	45120	316.4	379.0
34	CSCS（スイス）	Monte Rosa – Cray XE6, Opteron 6272 16C 2.10 GHz,	47872	297.0	402.1
35	米国政府機関	Cray XE6 12-core 2.2 GHz	45504	295.5	400.4
44	KTH – Royal Institute of Technology（スウェーデン）	Lindgren – Cray XE6, Opteron 12 Core 2.10 GHz	36384	237.2	305.6
76	ERDC DSRC（米）	Garnet – Cray XE6 8-core 2.4 GHz	20176	153.0	193.7
80	Cray社内	Hera – Cray XE6, Opteron 6272 16C 2.10 GHz	23104	146.6	167.4
92	Chicago大学	Cray XE6 12-core 2.1 GHz	17856	125.8	150.0

6) Cray社(CX1000)
Cray社は2008年9月にIntel Xeonプロセッサを搭載したエントリマシンCray CX1を発表したが、それとXT/XEとの中間に位置するミッドレンジマシンとして、2010年3月23日Cray CX1000を発表した。ラックマウント型で、Xeonを使うシステム、GPUを使うシステム、QPIを採用したシステムがある。日本でも、伊藤忠テクノソリューションズ（株）は2010年10月ごろ、7UのシャーシにIntel Xeon Processor 2基、NVIDIA Tesla GPUを2基搭載したブレードを9枚搭載し、QDR Infiniband スイッチ、Gigabit Ethernetスイッチ内蔵した、高密度設計のGPU演算処理型システムを売っていた。

7) Cray社 (Cascade)
昔のことになるが、2007年1月25日～26日にみらいCANNホールであったCray HPC ConferenceでSteve ScottはCray社のロードマップについて講演したが、その中でDARPA HPCSの重要候補であるCascadeのアーキテクチャについて述べた（もう一つの候補はIBMのPERCS）。これは以下の3つの要素からなるハイブリッド・システムであった。

(a) スカラプロセッサ（多分x86であろう）
(b) Granite MVP accelerator：ベクトルとMTA, XMTを融合したもののようである。vector modeとmultithreaded modeとで走る。
(c) FPGA

これらが高速のネットワークで接続されている。しかも、一つの箱に、いずれのプロセッサのボードも自由に差してシステムを構成することができる。元々Cray社がSGI社の傘下にいたころ構想されたもののようである。日本の次世代スーパーコンピュータの最初の構想（スカラマシンとベクトルマシンと専用機の3部構成）に何となく似ていたのでビックリした。

2010年6月のISC2010でCray社のSteve ScottはCascadeの全貌を明らかにした。これまでのXT3,4,5がAMD-baseであったのに対し、今度はIntelのXeon-baseで、しかもNVIDIA社のFermi (Tesla-20) やAMD社のFireStreamや、Intel社のMICなどのアクセラレータもつけることができる。しかもAMDも排除したわけではなく、どちらも使えるdual-x86 方式をとるとのことである。

相互接続ネットワークはAriesと呼ばれ、PCI-Expressを用いて相互接続のASICの石とつなぐ。これまでのSeaStarや現在のGeminiはOpteronのHyperTransportにつながっていた。XeonではIntel社のQPIを使うのが自然のようであるが、AMDとInterの両方に使えるようにPCI Expressを使うのだと見られる。Ariesのチップは今年末にはテープアウトできる予定。Cascadeの出荷は2012年の後半で、日本の次世代スーパーコンピュータやIBMのBlueWaterにぶつけるのであろうかと思った。Scottは2018年にはCrah社はエクサフロップスの実効性能を有するマシンを作るであろうと予言した。

現在のXC30/XC40/XC50はこの流れである。CはCascadeであろう。

8) Cray社(XMT)
Cray社はCray MTAおよびCray MTA-2を開発したが、3世代目にあたるCray XMT（コード名Eldorado）の開発も続けている。同時に128スレッドが走るMTAプロセッサはThreadstormというコード名で呼ばれ、Opteronの1207ピンソケットに刺さるようになっている。クロックは220 MHzから500 MHzである。このマシンはアメリカの3文字の情報機関（CIAかNSAか？）や二三のDOEの研究所の外には知られていないが、Crayは知名度を上げようとしている。SC10ではDistruptive Technologies展示やBoFで注目を浴びていたとのことである。XT4/XT5でつかわれた相互接続網SesStar2とThreadstormプロセッサにより、大域アドレスで任意のメモリにアクセスできるのが特徴である。Tera社以来の伝統が脈々と続いている感じである。CUGで報告されているようであるが、詳細は不明である。

9) Cray-1A
これはCray社とは関係なく、Fentonというもの好きがFPGAを使ってCray-1そっくりの1/10スケール版を作ったそうである。2010年9月2日のHPCwireに出ていた。Cray-1全体がXilinx Spartan-3E 1600 開発キット1枚に載ってしまった。ゲートの75%しか使っていない。なにしろ、Cray-1は4ゲートのチップで組み立てた。クロックはどうなのであろうか。当時Cray-1の12.5 ns (80 MHz)のクロックは驚異的に早かったが、今から見ると何だというところである。問題はソフトウェアで、インターネット上にもないし、Computer History Museumにもない。SGIがCrayを放出するとき、ソフトのアーカイブを消去してしまったそうである。しょうがないので、CALアセンブラーを自作するとか。

10) Sun/Oracle社
2009年4月20日、ソフトウェア大手のOracle社がSun Microsystemsを$7.4Bで買収すると突然発表した。2009年8月20日、Oracle社がSun Microsystemsを買収する計画について米司法省が承認したことを明らかにした。残る主要な障害は欧州の独占禁止法規制当局からの承認である。EUの承認を得て、最終的に2010年1月27日、買収が正式に発表された。この日、5時間に及ぶ合併記念パーティが開催されたが、Oracle社の興味はSunのハードを使ってビジネスシステムを構築し、IBMやHPと競争することのようで、HPCは当面の視野には入っていない。

SPARCチップの開発は続ける。UltraSPARC T3チップは、今年の後半に発表する予定である。T2に比べて、コア数を倍増し、キャッシュを大きくし、メモリも高速化する。また、新しいSPARC64チップが12～15か月のうちに発表されるであろう。しかし両者ともビジネス用でHPCではない。

Oracle社は、Lustreファイルシステムソフトウェアについては、少なくとも当分保持し続ける予定のようである。しかし、例のパーティではほとんど話は出なかった。ある日Lustreが誰かに売られても驚かない。

OracleがHPCにコミットするとは考えられない。HPCサーバはOracleが好きなマージンの大きいビジネスではない。

11) Intel社 (x86)
Intel社は、2010年1月25日、東京都内でIntel Forum 2010を開催し、Core Processor familyとして、ハイエンドのCore i7プロセッサ、標準のCore i5プロセッサ、廉価版のCore i3プロセッサを発表した。これらは32 nmプロセスで製造されたものである。Core i7とCore i5では、Intel turbo boost technologyが搭載され、自動的に処理速度や電力を制御できる。

2010年3月17日（16日との報道もある）には、高性能デスクトップPC向けの“Intel Core i7-980X Extreme Edition”（コード名Gulftown）、サーバ/ワークステーション向けの“Intel Xeon 5600/3600シリーズ”（コード名をWestmere-EP）発表した。最大で6基のCPUコアを内蔵し、Hyper-Threading技術で最大12スレッドを同時処理できる。Core i7-980X Extreme Editionは、クロックは定格3.33GHzで、Turbo Boost時の最大動作クロックは3.6GHz(単一コア動作時)。キャッシュは、L1が64KB (date32KB + inst32KB)×6コア分、L2が256KB×6コア分、L3が共有12MBである。

2010年3月31日には、“Intel Xeon 7500 series”（コード名Nehalem-EX）を発表した。Xeon 7500シリーズは、Nehalemアーキテクチャに基づいたXeonであり、最大8コア/16スレッドのプロセッサを、最大6.4 GT/sのQuickPath Interconnect(QPI)×4を用いてプロセッサ間およびチップセット間接続でき、QPIのみで8ソケット、さらにノードコントローラを介することにより最大256ソケットの構成をとることも可能である。QPIはAMDのHypertransportに対抗するものであろう。対応メモリはRegistered DDR3-1066 DIMM (QPI仕様により1066/978/800動作)で、プロセッサあたり最大16個のDIMM（最大256 GB）を搭載できる。きわめて高性能であり、ここまでくるとItaniumの出番がなくなるのではと心配になる。

12) Intel社 (Itanium)
さて多少影が薄くなったとは言え、2010年2月9日にItanium 9300（コード名Tukwila）が発表された。4コアで、コアごとに6 MBのL3キャッシュを搭載し、QPIと2個のDDR3メモリコントローラを装備している。コア当たり2スレッド。定格周波数は1.33～1.73 GHz。Nehalemと同様にIntel Turbo Boost Technologyにより自動的に定格の周波数より高速で動作させる機能を持つ。製造プロセスは65 nm、Transistor数は2.05 Bで、ダイサイズは700mm2と巨大なチップである。

4コアのItaniumが発表されたばかりというのに、Microsoft社は2010年4月2日（米国時間）にWindows ServerのItaniumサポートを中止することを発表した。すなわち、Windows Serverの現行版“Windows Server 2008 R2”が、Itaniumをサポートする最後のバージョンになる。この版のサポートは継続するが、次期バージョンでは対応しない。Windows Server 2008 R2の場合、メインストリームサポートは2013年7月9日、延長サポートは2018年7月10日までとなる。Red Hatは2009年12月に、Enterprise Linux 6のItaniumサポートを終了する計画を発表していた。

同社はまた、“SQL Server 2008 R2”および“Visual Studio 2010”が、Itaniumに対応するデータベースおよび開発者ツールの最終版になることも明らかにした。Windows ServerのSenior Technical Product ManagerであるDan Reger氏は、今回の決定に関して、一般的なx86プロセッサの64ビット版が、よりハイエンドな作業を処理可能であるという現実を反映したものであると語った。ただ、メインストリームでのサポートが弱まっているにもかかわらず、Itaniumは引き続き重要なプロセッサとなっており、Hewlett-Packard社のハイエンドサーバモデルに採用されている。

実際Itaniumのメモリ能力は顕著で、Itaniumを搭載したSGI Altix 4700は128 TBものRAMを載せることができるが、Nehalem-EXを搭載したAltix UVは最大16 TBしか載せらない。これは、16 TB以上のin-memory databaseには重要であるが、このようない巨大メモリを必要とするケースはまれであろう。特にHPC分野ではまれで、Itaniumを搭載したスーパーコンピュータはSGIのAltix 4700が最後になるのではないか。SEIのCEOであるMark Barrenechea氏は2009年7月に「わが社は100% Itaniumにコミットしている」と豪語したが、Itanium 9300（コード名Tukwila）の発表にもかかわらず、Altix 4700の後継機は出ていない。

Intelプロセッサの最近の移り変わりをたどると以下の通り。

発表	製品名	コード名	アーキテクチャ	最大コア／スレッド
2008年9月	Xeon 7400	Dunnington	Core	6/6
2009年3月	Xeon 5500	Nehalem-EP	Nehalem	4/8
2010年2月	Itanium 9300	Tukwila-MC	IA-64	4/8
2010年3月	Xeon 5600	Westmere-EP	Nehalem	6/12
	Xeon 7500	Nehalem-EX	Nehalem	8/16

13) Intel社 (AVX)
Intel社は2010年7月にSan Franciscoで開催されたIDF San Francisco 2010において、SSE 4.2の後継となるAVX (Advanced Vector Extensions)の詳細を発表した。AVXでは演算幅256-bitのSIMDであり、12個の新しい命令を含む。1命令で8個の単精度浮動小数演算または4個の倍精度浮動小数演算を実行できる。2011年に発売予定のSandy Bridgeから搭載される。

昨年のところに書いたように、2009年5月6日、AMD社は当初予定していたSSE5拡張命令を止め、Intel社のAVXをサポートすると発表している。

14) Intel社 (MIC)
Intel社は2009年12月にLarrabeeグラフィックスチップのプロジェクトを中止したが、2010年4月13日～14日に北京で開催されたIDF2010北京において、SCCC (Single Chip Cloud Computer、SCCと略されることが多い)のデモを行った。これはPentiumコアを48個搭載したプロセッサで、デモは金融工学でオプション取引の価値計算に使われるBlack–Scholes方程式の解を求める計算を行い、コア数に比例したスケーラビリティを示した。NVIDIAと競合するグラフィックスプロセッサではないことを強調した。SCCは24個のタイルからなり、各タイルは2個のx86 coreを含む。タイル毎にL2キャッシュを持ち、違うOSを走らせることもできる。SCCは4個のDDR3メモリコントローラを内蔵している。

Intel社は、2010年5月25日（米国時間）、メニーコアチップ計画について、より具体的な情報を5月30日からHamburgで開催されるISC10で発表すると述べた。

ISC10の項で書いたように、期間中にIntel社は、MIC (Many Integrated Core)アーキテクチャに基づく新しい製品を発表した。「最初の製品は“Knights Corner”というコード名のチップで、22 nmテクノロジで製造され、50以上のIntelコアを含む。XeonプロセッサとMIC製品とは、ツール、ソフトウェア、アルゴリズム、プログラミング技術を共有する。この製品には、これまでIntel社が開発してきたLarrabeeやSCC (Single-chip Cloud Computer)などのメニーコア技術が継承されている。」と連続性を強調した。

続いて2010年6月15日～17日に米国ハワイ州で開催された半導体デバイスに関する国際会議“2010 Symposia on VLSI Technology and Circuits”で、「テラスケール」のプロセッサの研究開発の成果を披露した。発表した論文によると、Intel社はSingle-chip Cloud Computerのタイル間の通信速度を40％改善したという。エネルギー効率は、1ワット当たり7.2Tビット/秒。動作周波数は60 MHz～2.35 GHzで、動作電圧は550 mV～1.25 Vだという。

次回は2010年の最後の回である。アメリカ企業の動きの第2部、ヨーロッパの動き、中国の動きなど。

(画像：Cray XE6　出典：Cray社HPより　）

eNewsletter

検索

提　供

HPCの歩み50年（第187回）－2010年(m)－

アメリカ企業の動き

コメントを残すコメントをキャンセル

HPCwire Japan

E-Marketings, Inc.

提 供

HPCの歩み50年（第187回）－2010年(m)－

アメリカ企業の動き

コメントを残す コメントをキャンセル

HPCwire Japan

E-Marketings, Inc.

提　供

コメントを残すコメントをキャンセル