HPCの歩み50年(第186回)-2010年(l)-
11月のTop500では、中国の天河1Aが1位、星雲が3位を占めただけでなく、東工大のTSUBAME 2.0が4位を占め、トップ4件のうち3件をアジア勢が占めた。「京」コンピュータの4ラックが174位に顔を出し、Green500でも4位となった。Bill Dallyは総合講演でTop500のトップ5件のうち3件がGPUを使っていることを指摘した。

SC10(続き)
11) Top500(世界)
恒例により、16日の5:15からTop500のBoFがあった。今年は例年と異なり、会場は基調講演を行った大講堂が使われた。しかし参加者はそれほど多くはなかった。いつも発表するHorst Simon (NERSC, LBNL)は欠席であった(彼は、木曜日になってGordon Bell賞のためだけにやって来たようだ)。
今年のニュースは、中国の天河1Aがトップに躍り出たことである。2002年6月に日本の地球シミュレータが直前のトップであるASCI Whiteを5倍も凌駕したことが言及された。そのとき、地球シミュレータの性能は、2番から20番までの性能の合計にも匹敵したそうである。今年の中国は1位のみならず3位も占めているところがすごい。
日本の「TSUBAME 2.0」(東工大)が4位に入ったことを含め、アジア勢がトップ4のうち3つを占めることになった。しかもその3つがいずれもNVIDIAのGPGPUを利用している。
2010年11月のTop500(第36回)の上位20位までを示す。
順位 |
前回 |
設置場所 |
機種名 |
cores |
Rmax |
Rpeak |
1 |
- |
国家超級計算天津中心 |
Tianhe-1A – NUDT TH MPP, X5670 2.93Ghz 6C, NVIDIA GPU, FT-1000 8C |
186368 |
2566.0 |
4701.0 |
2 |
1 |
ORNL |
Jaguar – Cray XT5-HE 6-core 2.6 GHz |
224162 |
1759.0 |
2331.0 |
3 |
2 |
国家超級計算深圳中心 |
Nebulae – Dawning TC3600 Blade System, Xeon X5650 6C 2.66GHz, Infiniband QDR, NVIDIA 2050 |
120640 |
1271.0 |
2984.3 |
4 |
- |
東京工業大学 |
TSUBAME 2.0 – HP ProLiant SL390s G7 Xeon 6C X5670, NVIDIA GPU, Linux/Windows |
73278 |
1192.0 |
2287.6 |
5 |
- |
NERSC |
Hopper – Cray XE6 12-core 2.1 GHz |
153408 |
1054.0 |
1288.6 |
6 |
- |
CEA(仏) |
Tera-100 – Bull bullx super-node S6010/S6030 |
138368 |
1050.0 |
1254.5 |
7 |
3 |
LANL |
Roadrunner-QW22/LS21, Cell 8i 3.2 GHz |
122400 |
1042.0 |
1375.78 |
8 |
4 |
NICS, Tennessee |
Kraken Cray XT5-HE – 6-core 2.6 GHz |
98928 |
831.7 |
1028.85 |
9 |
5 |
FZJ |
JUGENE – Blue Gene/P |
294912 |
825.5 |
1002.7 |
10 |
- |
SNL |
Cielo – Cray XE6 8-core 2.4 GHz |
107152 |
816.6 |
1028.7 |
11 |
6 |
NASA/Ames |
Pleiades – SGI Altix ICE 8200EX, Xeon QC 3.0/Hehalem EP 2.93 GHz |
81920 |
772.7 |
973.291 |
12 |
8 |
LLNL |
BlueGene/L |
212992 |
478.2 |
596.378 |
13 |
9 |
ANL |
Intrepid – Blue Gene/P |
163840 |
458.611 |
557.056 |
14 |
10 |
SNL |
Red Sky – Sun Blade x6275 |
42440 |
433.5 |
497.396 |
15 |
11 |
TACC, Texas |
Ranger – SunBlade x6420, Opteron QC |
62976 |
433.2 |
579.379 |
16 |
12 |
LLNL |
Dawn – Blue Gene/P |
147456 |
415.7 |
501.35 |
17 |
13 |
Moscow State U. |
Kinibisiv – T-Platforms Xeon 5570 |
35360 |
350.1 |
414.419 |
18 |
- |
Air Force Research Lab.(米) |
Raptor – Cray XE6 8-core 2.4 GHz |
42712 |
336.3 |
410.0 |
19tie |
- |
韓国気象庁 |
Haedam – Cray XE6 12-core 2.1 GHz |
45120 |
316.4 |
379.008 |
19tie |
- |
韓国気象庁 |
Haeon – Cray XE6 12-core 2.1 GHz |
45120 |
316.4 |
379.008 |
7位までは1 PFlops を超えている。順位1, 4, 5, 6, 10の5件は、新登場である。上位10件のうち、アメリカ5件、中国2件、日本、フランス、ドイツ各1件となった。韓国気象庁の2台のCray XE6は、Haeonが主機で、Haedamが予備機である。
表彰式が行われた。世界1位ではNUDTのLiuが賞状を受け取った。中国のカメラマンが盛んに写真を撮っていた。Liuは挨拶の中で、「所詮LINPACK専用machineではないか?」という影の声に答えてか、「次はGordon Bell賞を取りたい」と述べた。中国がGordon Bell賞を取ったのは、神威太湖之光になってからである。
世界2位はJaguarで、ORNLの他、CrayのP. Ungaroも挨拶した。
世界3位はShenzhen (深圳)のNational Supercomputing Centre in Shenzhen (NSCS)の人が受け取った。
ヨーロッパ1位としては、CEAの人が受け取り、Bullの女性の役員も挨拶した。
12) Top500(日本)
ちなみに、Top500のうち日本にあるコンピュータは下表のとおりたった26台である。172位のK computer, SPARC64 VIIIfx 2.0GHz, Tofu interconnectは、10 PFlopsを目標とする「スーパーコンピュータ京」の現在稼働している408ノード分である。 383位はGrape-DRの旧型のようである(削除すべきものかどうかは不明)。89位は、TSUBAMEの旧版で、すでに廃棄したものではないか。いずれにせよかつては100台を超えていたことを考えると寂しい限りである。性能の単位はTFlops。
順位 |
前回 |
設置場所 |
機種 |
コア数 |
Rmax |
Rpeak |
4 |
- |
東京工業大学 |
TSUBAME 2.0 – HP ProLiant SL390s G7 Xeon 6C X5670, Nvidia GPU, Linux/Windows |
73278 |
1192.0 |
2287.63 |
33 |
22 |
日本原子力研究開発機構 |
BX900 Xeon X5570 2.93 GHz, Infiniband QDR |
17072 |
191.4 |
200.08 |
42 |
- |
東大物性研 |
SGI Altix ICE 8400EX Xeon X5570 4-core 2.93 GHz, Infiniband |
15360 |
161.8 |
180.019 |
55 |
37 |
JAMSTEC |
Earth Simulator 2 – SX-9/E/1280M160 |
1280 |
122.4 |
131.072 |
60 |
42 |
JAXA |
FX-1 |
12032 |
110.6 |
121.282 |
71 |
53 |
東京大学 |
T2K Open Supercomputer (Todai Combined Cluster) |
15104 |
101.7 |
139.0 |
75 |
56 |
理研 |
PRIMERGY RX200S5 |
9048 |
97.94 |
106.042 |
89 |
64 |
東京工業大学 |
TSUBAME Grid Cluster with CompView TSUBASA |
31024 |
87.01 |
163.188 |
97 |
71 |
筑波大学 |
T2K Open Supercomputer – Appro Xtreme-X3 Server |
10369 |
77.28 |
95.385 |
103 |
- |
国立環境研 |
GOSAT Research Computation Facility – Asterism ID318, Intel Xeon E5530, NVIDIA C2050 |
5760 |
74.8 |
177.1 |
132 |
91 |
核融合科学研 |
Plasma Simulator – SR16000 |
4096 |
77.0 |
645.00 |
135 |
- |
サービスプロバイダ |
xSeries x3650M2 Cluster, Xeon QC E55xx 2.26 Ghz, GigE |
11640 |
55.9447 |
105.552 |
139 |
96 |
東大医科研 |
SHIROKANE – SunBlade x6250 |
5760 |
54.21 |
69.12 |
155 |
107 |
気象研究所 |
Hitachi SR16000 L2/121 |
3871 |
51.21 |
72.7936 |
160 |
111 |
京都大学 |
T2K Open Supercomputer/Kyodai |
6656 |
50.51 |
61.235 |
172 |
- |
理研AICS |
K computer, SPARC64 VIIIfx 2.0 GHz, Tofu interconnect |
3264 |
48.03 |
52.22 |
221 |
137 |
電力中央研究所 |
SGI Altix ICE 8200EX, Xeon X5560 quad core 2.8 GHz |
4096 |
42.69 |
45.8752 |
222 |
138 |
物材機構 |
Altix ICE 8200EX |
4096 |
42.69 |
45.8752 |
281 |
- |
国立天文台 |
GRAPE-DR cluster 100 node – GRAPE-DR accelerator Cluster |
6400 |
38.9 |
81.9 |
284 |
- |
金融機関 |
xSeries x3650M2 Cluster Xeon QC GT 2.66 GHz |
7056 |
38.78 |
75.2452 |
312 |
189 |
自動車会社 |
Cluster Platform DL4x170h |
4592 |
37.39 |
48.858 |
379 |
- |
東京大学先端科学技術研究センター |
PRIMERGY BX922 S2, Xeon X5650 2.66 GHz, Infiniband QDR |
3552 |
34.67 |
37.793 |
380tie |
229tie |
サービスプロバイダ |
xSeries x3650M2 Cluster, Xeon QC E55xx 2.26 Ghz, GigE IBM |
7216 |
34.65 |
65.4347 |
380tie |
229tie |
サービスプロバイダ |
xSeries x3650M2 Cluster, Xeon QC E55xx 2.26 Ghz, GigE IBM |
7216 |
34.65 |
65.4347 |
385 |
- |
国立天文台 |
GRAPE-DR cluster 81 node – GRAPE-DR accelerator Cluster, |
5184 |
34.4 |
64.6 |
495 |
301 |
統計数理研究所 |
PRIMERGY RX200S5 Cluster |
2880 |
31.18 |
33.753 |
13) Green500
Green500の提唱者であるWu Feng (Virginia Institute of Technology) が登場。グリーンを測るメトリックには2つある。PUEはデータセンターの電力効率の議論に使われる。もう一つはWorkload/Productivity metricである。Workloadといってもいろいろあり、Linpack (HPL)かRandom Accessか何かによっても違う。測定の方法論の議論が必要である、などと述べた。Green500の上位には小規模なシステムが多く、Top500とGreen500の双方で10位以内に入っているのは東京工業大学のTSUBAME2.0だけであった。
以下の称号が与えられた。
・IBM Blue Gene/Q — the Greenest Supercomputer in the World
・GRAPE-DR — the Greenest Exotic Supercomputer in the World
・TSUBAME2.0 — the Greenest Production Supercomputer in the World
・EcoG — the Greenest Self-Built Supercomputer in the World
詳しいことは日本の学界のGRAPE-DRのところで述べた。
14) Bill Dally, NVIDIA/Stanford University (8:30) “GPU Computing: To Exascale and Beyond”
2日目(17日)の総合講演は、今をときめくNVIDIAのBill Dallyであった。
かれはまず天津の天河1Aをはじめトップ5のうち3つがGPUを使っていることを指摘し、GPUの優位性、とくに省電力性を強調した。2位のJaguarの電力は極めて大きい。また、Green500のうち128台はGPUを用いている。この講演の詳細はマイコミジャーナルのHisa Andoの記事を参考にした。
GPUの特徴はエネルギー効率である。CPUは1命令の実行に2 nJ消費するが、GPUでは1/10の200 pJである。CPUは、レイテンシに対して最適化された設計になっていて、キャッシュを用いるが、GPUはスループットに対して最適化され、オンチップ・メモリを持っている。GPUを使った最大の実用マシンは「TSUBAME2.0」である。
今後の製品計画としては、2011年にKepler(Fermiの4倍)を、2013年にMaxwell(10倍)を出す予定である[物理学者の名前をコード名にしている]。
プログラミングが難しいと言われるが、CUDAにより易しくなった、といってsaxpyの例を示した[易しそうには見えなかったが]。
これまでに実績として、CUDAの動くGPUは2億台売れた。ツールキットのダウンロードは60万件、アクティブなGPUの開発者は1万人、CUDAを教えている大学は362校、CUDAセンターは11ある。
マラリア撲滅のために蚊を検知してレーザーで殺すための画像処理にはGPUが必要である。軍用のコンピュータビジョンでは、CPUを使ったのでは12 mphの速度までしか対応できないが、GPUなら77 mphまで対応できる。CTスキャンの計算はCPUなら2時間掛かるが、GPUなら2分でできる。あとシャンプーのシミュレーションについて何か言っていたようであるが理解できず。
さてエクサスケールやそれ以降について述べたい。科学者はいつも今の1000倍の性能が必要だという。しかし、エクサスケールにはいろいろなチャンレジがある。
第一は電力である。今のままではGPUを使ってもGWの電力が必要である。エクサフロップスを20MWで実現するには50 GF/Wの性能電力比が必要で、今の10倍である。GPUの技術によってそのギャップが埋められるであろう。2018年に登場するEchelonではFermiの100倍にもなる。
実行モデルも重要である。Global Address Spaceを基本とする。メモリ階層を抽象化することが必要である。バルク転送(gather-scatterを含む)をサポートする。
データ移動には演算よりコストがかかる。例えば、28 nmテクノロジなら64 bit倍精度演算には20 pJしかかからないが、256ビット幅のバスで数mm程度の距離を信号伝送するには26 pJ、10mmの伝送には256 pJ、チップの対角線のもっとも遠いところまでの伝送は1 nJを必要とする。また、8 KBのSRAMから256バイトを読み出すのは50 pJ、DRAMのRead/Writeには16nJ、他のチップへの信号伝送には500pJを必要とする。
データの管理が問題である。データをどう再利用するか。DGEMMには深いメモリ階層が必要であるが、プラトー[?]があれば浅い階層でもよい。両方をサポートするにはreconfigurable memory がよい。距離とエネルギーを減少することができる[このあたりは十分理解せず]。
NVIDIAのエクサフロップス・マシンのコンセプトは以下の通りである。DARPAのプロジェクトにNVIDIAはEchelonを提案し、2018年にエクサフロップスを実現しようとしている。
最小単位のコア[laneと呼んでいたような気がする]は4個のFMA (fused Multiply and Add)[倍精度乗加算器]と2個のLoad/Store unitsとL0キャッシュを持ち20 GFである[2.5 GHzということか]。SM (Streaming Multiprocessor)は8つのコアからなり160 GF。1 chipは128個のSMを含み20.48 TFの性能。これに加えて8個の汎用CPUコアがある。これら全体はNoC (Network on Chip)で結合されている。同時に、1024個に分かれたL2キャッシュとMC(Memory Controller)、NIC(Network Interface Controller)が配置されている。メモリバンド幅は1.6 TB/sで合計256GBのDRAM Cubeに接続されている。NICのバンド幅は150 GB/sである。これらで一つのノードが構成される。[L0とL2はあるがL1が見あたらない。]
ノード8個がモジュールを構成する。1つのキャビネットは16モジュール(128チップ)からなり2.56 PFで38 KWである。キャビネット内の128チップのNICからの接続はHigh Radix Router Moduleに接続されている。キャビネット間は光ファイバーのDragonfly Interconnectで接続する。これはDallyの技術のようである。このマシンはグローバルなルータは持たない[と聞いたような気がする]。
Echelonシステムの実行モデルでは、全部のメモリは統一されたGlobal Memory Spaceを構成し、そこに処理を行うスレッドや処理されるオブジェクトが存在する。スレッドの実行部分(SM)から階層的にメモリが存在し、実行に必要なスレッドやオブジェクトをできるだけ近くのメモリに持ってきて実行を行う。また、必要な場合にはメモリ間のブロック転送や、メモリ階層を跳ばしたLoad/Store、他のスレッドのメモリへのActive Messageなどの手段を使って消費エネルギーを抑える。
L2キャッシュは1024個に分割され、実行するアプリケーションの特性に対応して、全部をフラットな大きな2次キャッシュにしたり、分割して論理的な各階層のメモリとしたりする再構成可能(Reconfigurable)な構造とする。
結論として、”GPU is the computer, not just an accelerater.” 真のチャレンジはソフトウェアである。ローカリティをどう生かすかが重要で、それを知っているのはプログラマである[localityをプログラマが記述するようなプログラミングモデルを考えているのか?]
この時のスライドは今でも見ることができる。ただし、アプリの話などは削除されているようである。
[質疑応答](一部)
Burton Smith:ローカリティはon-the-flyに[実行時にということか]捕まえることはできるのではないか。
Dally:(聞き取れず。でもBurtonはthroughput computingがわかっていないのでは?)
誰か:あなたの講演ではグラフィックの話が全然出てこなかった。
Dally:グラフィックの市場は巨大である。ここはSCでSIGGRAPHではない。
15) Ken Kennedy Award
Bill Dallyの講演に続いてKen Kennedy Awardの発表があった。
Ken Kennedy Awardは2007年2月7日に亡くなったRice Universityの教授であり、Center for High Performance Software Research (HiPerSoft)の所長でもあったKen Kennedy教授を記念して、ACMとIEEE/CSが共同で設立した賞である。HPCのプログラマビリティや生産性の分野での貢献に対して贈られる。賞金は5000ドル。第1回は2009年にRensselaer Polytechnic Institute副学長のFrancine Bermanに贈られた。彼女はSan Diego Supercomputer Centerの前所長であった。
Bill Dallyの講演が終わるとかなりの人が出て行ってしまった。
選考委員長のJack Dongarraが司会した。まず、ACMとIEEE/CSの代表が出てスピーチをおこなった。
第2回目となる今年の賞はDavid J. Kuck (Intel, Software Service Group)に与えられた。授賞理由はコンパイラ技術と並列計算に対する貢献。
Kuck博士は、現在の最適化コンパイラの基礎を築いた先駆者であり、何十年にもわたって、Illiac IV, BSP, Alliant FX, Ceder projectなどにも大きな影響を与えた。博士は1979年にKuck & Associates Inc. (KAI)を創立し並列性を最大限に利用する業界標準のコンパイラを作り出した。2000年にKAIがIntelに買収されると、かれはKAI Software Lab.の所長となり並列コンパイラの開発を進めた。
続いてKuckが受賞講演をおこなった。Hardware/Software Codesignの重要性を強調した。
16) SC10 Awards Session (10:30~12:00)
休憩を挟んで恒例のSeymour Cray Computer Engineering AwardおよびSidney Ferbach Awardの受賞セッションが開かれた。両者ともIEEE/CSが授与する賞である。SeymourCray賞はスーパーコンピュータの太祖であり1996年10月に自動車事故で亡くなったSeymour Crayを記念して1997年に創設されたもので、HPCのアーキテクチャやハードウェアの分野に貢献した人に贈られる。昨年は三浦謙一が、2006年には渡辺貞が受賞した。今年はBlueGeneシリーズのチーフ・システム・アーキテクトであるAlan Gara (IBM, Watson Research)が受賞した。
The Sydney Fernbach Awardは、LLNL (Lawrence Livermore National Laboratory)のComputation Division、Theoretical Divisionを経てDeputy Associate Director for Scientific Support を務めたSidney Fernbach博士を記念して1992年に創設された。昨年は密度汎関数分子動力学法のCarとParrinelloが受賞している。今年はLAPACKやScaLAPACKなど線形代数ソフトウェアに貢献したJames W. Demmel (University of California, Berkelay) が受賞した。
受賞者はそれぞれ受賞講演を行ったが私は所用のため途中で退出した。
17) 18日(木)午前
木曜日の8:30からは二つの招待講演があった。招待講演の前に2011年の11月12日から18日にSeattleで開催されるSC11の紹介があった。SC11のテーマは”Connecting communities through HPC”である。
シアトルを紹介するかなり長いビデオが流れた。そのなかで、街のいろんな人にインタビューするショットがたくさんあった。そのなかにはかなりおちゃらけたものがあり、街角でカップから何か飲んでいる人に、「シアトルでベストなコーヒーは何ですか?」と聞いていた。言うまでもなくシアトルはスターバックスやタリーズの発祥の地である。答えは「これはティーです」。また日本語のインタビューもあり、「スーパーコンピュータって何ですか?」「すごいコンピュータでしょうね」とか。
18) Terry Davies, UK Meteorological Office (8:30) “Climate Prediction and Research: The Next 20 years”
まず2005年8月に当地を襲ったハリケーンKatrinaから話を始めた。60 Kmのメッシュでは、最大風速46ノット、最低気圧976 hPであるが、17 Kmメッシュでは62ノット、958 hPとなる。モデルによって全然違う。
気候モデルについての入門のあと、様々な物理過程(大気、土地、海、氷、雲、など)をどうパラメータ化するかが問題である都市的。気候の変化は統計的なものであり不定性があるが、「もし、自然の要素だけを考慮に入れると、1850年から2000年までの温暖化をシミュレートできない」ことは確かである。人間活動の要素としては、温暖化ガスの問題もあるが、エアロゾルのように温度を下げる効果のあるものもある。気候システムの温暖化は明白である。CO2の放出は1950年以降急激に増加している。21世紀の気候の予言はいろいろあるが、現在から2080年までの年間の温度の変化は、大部分の場所で5度以上である。降水のパターンも大きく変わるが詳しくは不明である。
北極の夏季の海氷は2080年代までに消失するであろう。海水面の全世界的上昇は、気温による膨張、氷の溶解などの効果を合わせて2100年には20から80 cmになるであろう。ここニューオーリンズを含めて多くのところが危ない。
ハリケーンの数は減るが強大なものが増えるであろう。従って被害はかえって大きくなる。
このような気候の変化のインパクトとしては、危険性、対応策、コスト、食糧などいろいろある。
気候モデルでは、水平の精度を倍に上げると、コストは8倍になる。今まで9年で倍になってきている。
モデルは、最初(1975)には大気だけだった。次第に多くの要素を加えるようになり、化学過程、カーボン、エアロゾル、硫黄など。現在は、プロセスを増やし複雑化している。解像度を8倍にすると計算量は500倍になる。現在のコードはスケールしない。海のモデルはもっと悪い。特にデータ同化(assimilation)がスケールしない。
地球上にどうグリッドを張るかが大きな問題で、スケーラビリティにも関係がある。従来からの経度・緯度グリッド[極の特異性の問題がある]、縮小経度・緯度グリッド、skipped grid、イコサヘドラル[正20面体]、cubed sphere、Yin-Yang[陰陽]グリッドなど。leading NWPモデルは経度・緯度モデルに基づいている。
今後の20年には、世界中の協力が必要である。
19) Bob Jones, CERN (9:25-10:00) “Building Cyber-Infrastructure for Data Intensive Science”
18日(木)2つめの総合講演は、thrust areasの一つであるdata intensive computingの分野から企画された。Bob JonesはCERN(ヨーロッパ共同原子核研究機構)でオンライン実験の研究者であり、CERNから見たデータ・インテンシブの概要を話した。
高エネルギー物理でのData Intensive Scienceの一例として、LHCを取り上げる。LHCは全周27 Kmの加速器に4つの測定器(ATLAS, LHCb、CMS, ALICE)が設置されている。1年間に15 PBのデータが生まれる。各測定器からは3×105 MB/sのデータが生まれるが、これをフィルターして300MB/sに落とす。4つの測定器から700 MB/s以上が集まる。これをTier 0 (CERN)→Tier 1 (FNALなど世界11箇所)→Tier 2 (世界130箇所)と分散して処理する。それらの間は10 Gb/sのリンクでつながれている。
LHCは現在7 TeVで運転されていて6ヶ月稼働し。70 TB/dayのデータ(70 tapes/day)が生産され今年は5 PBになった。
ライフサイエンスのdata intensive scienceとしてhuman genome projectを紹介した。ヒトのゲノムは、2000年まで10年掛かって$3B(3000億円)の費用で読み終えた。しかし、現在なら13時間のうちに1万ドルで読めるし、2015年になれば15分で1000ドルの費用で読めるであろう。次世代シークエンシング・マシンは、安くなって小さな研究所でも買えるようになる。
昔の研究協力は中心の拠点に集めることであったが、将来の研究協力はfederated accessが重要になる。なぜcyberinfrastructure ecosystemが必要か。バイオインフォーマティックは、ゲノムからタンパク質、組織、から人体までつなげなければならず、virtual physiological humanが中心になる。
Cyber-infrastructureの将来要求は、grid, supercomputer, cloud, volunteer computingなどいろいろなものがあり、正しい答えというものはない。ESFPIロードマップによれば、EUには44箇所のresearch infrastructureが存在し、EEF – European E-infrastructure Forumを構成している。これは、single sign-onやvirtual organizationやdata managementや標準化などをサポートしている。
クラウドの問題は信用できるかどうかということである。また、インターオペラビリティに課題がある。
20) Award Session
18日(木)12:30からのセッションにおいて、SC10の様々な賞の発表が行われるというのでその部屋に行ってみたら”Invitation Only”と書かれていたのですごすご帰ってきた。後で聞くと、参加者制限は12時からの昼食会だけで、アワードの部分は一般公開ということだった。しまった。SC10のAwards web pageは今でも残っているのでそちらを見てください。一部だけ紹介する。
(a) Gordon Bell Prize winners:
Best performance: “Petascale Direct Numerical Simulation of Blood Flow on 200K Cores and Heterogeneous Architectures,” Abtin Rahimian, Ilya Lashuk, Shravan Veerapaneni, Aparna Chandramowlishwaran, Dhairya Malhotra, Logan Moon, Rahul Sampath, Aashay Shringarpure, Jeffrey Vetter, Richard Vuduc, Denis Zorin, George Biros.
Honorable mention performance: “Toward First Principles Electronic Structure Simulations of Excited States and Strong Correlations in Nano- and Materials Science,” Anton Kozhevnikov, Adolfo G. Eguiluz, Thomas C. Schulthess. A second honorable mentionwent to “190 TFlops Astrophysical N-body Simulation on a Cluster of GPUs,” Tsuyoshi Hamada, Keigo Nitadori. (濱田らは、昨年は本賞を受賞した)
(b) Best Technical Paper:
・ “Characterizing the Influence of System Noise on Large-Scale Applications by Simulation,” Torsten Hoefler, Timo Schneider, and Andrew Lumsdaine.
(c) Best Student Paper:
・ “OpenMPC: Extended OpenMP Programming and Tuning for GPUs,” by Seyong Lee and Rudolf Eigenmann.
(d) Best Research Poster:
・ “Characterizing the Impact of Soft Errors on Sparse Linear Solvers,” by Sowmyalatha Srinivasmurthy, Manu Shantharam, Padma Raghavan, Mahmut Kandemir.
前に書いたように、“A 80-Fold Speedup, 15.0 TFlops, Full GPU Acceleration of Non-Hydrostatic Weather Model ASUCA Production Code” (T. SHIMOKAWABE et al.) がfinalistに入っていたが入賞を逃した。
(e) Storage Challenge
Storage Challengeは、HPCにおけるストレージサブシステムを効果的に使ったアプリケーションや環境に対して与えられるもので、2010年の受賞者は、“Scaling Highly-Parallel Data-Intensive Supercomputing Applications on a Parallel Clustered File system” Karan Gupta, Reshu Jain, Himabindu Pucha, Prasenjit Sarkar, Dinesh Subhraveti, IBM Almaden Research Center.であった。
長崎大学先端計算研究センターの浜田剛准教授らは、11月25日(木)に文部科学省記者クラブにおいて、Gordon Bell賞を2年連続で受賞したと発表した。発表資料には、「ACM正式賞(2006年~)としてゴードンベル賞を日本から2年連続で受賞した」のは史上初と書いてあった。読売新聞28日付などいくつかの新聞はこの発表をうのみにして、長崎大グループが「スーパーコンピュータ分野のノーベル賞」を2年連続で受賞したという記事を出した。低価格で高速計算が可能なスーパーコンピュータDEGIMAを開発し、多方面の利用を進めていることはもちろん評価できるが、Gordon Bell賞をノーベル賞に例えるのはいかがなものか?また、今年はGordon Bell賞と言っても2nd honrable mention、つまり佳作ないし選外賞であり、2年連続受賞とは言い過ぎではないか。それに2006年以前を含めれば、複数回しかも本賞を受賞した日本のグループはたくさんいる。「HPC関係者は大言壮語する」などと言われても困るので、筆者も文部科学省関係者に耳打ちしたが、記者会見をセットしたのは長崎大学であって、文部科学省は関与していない、とのことであった。
21) 19日(金)
SC10は金曜日の昼まで(一部のワークショップは夕方まで)であるが、金曜日の朝帰ってしまう人が多い。そのため、客寄せのために面白そうなパネルなどを金曜日に用意している。私は、通常金曜日まで出席するが、今回諸般の事情で金曜日の早朝の飛行機で帰国した。
次回はアメリカ企業の動き。
(画像:TSUBAME2.5 出典:東京工業大学HPより )
![]() |
![]() |
![]() |