世界のスーパーコンピュータとそれを動かす人々


10月 14, 2016

AWS、K80の一般公開でAzureを撃退する

HPCwire Japan

Tiffany Trader

アマゾン・ウェブサービスは、ますます多様なワークロードに渡る増大する需要に応えるため、Nvidia Tesla K80 GPUをクラウドに搭載した。P2インスタンス・ファミリーは、3年落ちのNvidia GRID K520カードが付いたアマゾンのG2インスタンスの性能の限界にイライラしている演算およびデータ重視のユーザを惹き付けるものだ。

NvidiaのKepler世代のTesla K80はほぼ2年前に発売されたものであり、それ以来MaxwellとPascalアーキテクチャの登場を見てきたが、いまだK80は強く、複数のアプリケーション分野を同時に処理する能力を備えている。

これは確かにクラウド・プロバイダーにとってはポピュラーなGPUだ。マイクロソフトAzureのK80ベースのNシリーズ仮想マシンは数ヶ月遅れていたが8月上旬以来、現在はプレビューモードとなっている。IBMのSoftlayerおよびCirrascaleは両者とも提供しており、中国の地域アリババ・クラウド
も同様のTesla K40部品を利用している。

クラウドは本質的には汎用である。スケール効率を掘り起こすために、クラウド・プロバイダーはますアピールのためにこれらの製品を選択している。そのため、Tesla K80 GPUは、モデリングからシミュレーション、CFDからディープラーニングやデータおよびビデオ処理までの幅広いワークロードに利益のある単精度および倍精度浮動小数点演算の適度な混成、十分なメモリとメモリ帯域幅を提供している。

「K80はTesla製品ラインにおける当社の主力GPUです。」と、NVIDIAの高速データセンター・コンピューティングのディレクターであるRoy KimはHPCwireとのインタビューにおいて述べている。「Teslaの歴史の中でボリュームにおいて最大の出荷数を誇っています。これは実績があるもので、HPCおよびハイパースケールの両方の最大規模のデータセンターに入っているのです。私共は長期間出荷をすることになるでしょう。」

「私は5つの事例をカバーしたアマゾンの発表が非常に興味深いと思います;HPCシミュレーション、Matlabを使ったHPC開発者、AI、そして次の2つはあまり聞いたことがないかもしれませんが、エンタープライズSQLとビデオ・トランスコード用クラウドです。」とKimは続けた。「K80は5つの全ての事例をカバーする完全なGPUになるでしょう。これは汎用プロセッサなのです。」

巨大なコア数、そして非常に高い単精度および半精度性能(多くの機械学習ワークロードにとっての利益)を可能とする混合精度機能を持つPascalが様々な事例に対してもっと柔軟なのではないかという議論がある。しかし、クラウドサービスの提供者は現在はディープラーニングの流れを捉えたいと考えており、K80は適正な価格の適正なGPU(プレミアム部品はもちろんだが、Tesla P100s程のプレミアムではなく)であることを証明しているのだ。プラス、納期に関する小さな問題もある。現在は大量のPascalの注文で埋め尽くされているとNvidiaは述べている。「クラウド領域から関心が寄せられていますが、一言あります:私共はできるだけ早く製造しております。」とKimは述べた。

HPCの多くだけでなくNetflixのようないくつかのアマゾンのハイパースケールのクライアントは、AWSがより性能の高いGPUを採用するのに時間が掛かったことを疑問に感じている。この抜群のクラウド・プロバイダーはK80の採用に2年、K40にさらに長時間を要した。アマゾンはHPCクラウドを売りさばくことを好んでいるが、明らかにHPC市場は支出を動機づける程には魅力的ではないのだ。しかし、機械学習、データベース処理、リアルタイム・ビデオ処理、プラスエンタープライズのHPCワークロードを追加することで、突然より巨大な対処可能な市場が現れたのだ。

Intersect360リサーチのCEOであるAddison Snellは次のように同意している。「人工知能とディープラーニングは次の数年間に渡って主要なアプリケーション成長分野になり、それらは主にパブリッククラウドのリソース上で実行されるでしょう。」さらに、「それをHPCアプリケーションもしくはハイパースケール・アプリケーションのどちらとして見ても、正味の効果はクラウドサービス・プロバイダーにとってより大きなビジネスとなるのです。」

アナリスト企業であるIDCは、8個のHPCを実装したパブリッククラウドサイトの内7つはAWS上にあると報告している。

「なのでHPCにおける選択はAWSとなるのです。」とIDC のハイパフォーマンス・コンピューティンググループのリサーチ副社長であるSetev Conwayは述べている。「逆に、HPCサイトで処理される7-8パーセントの作業がパブリッククラウドで行われているということです。なので深さよりもさらに幅広く、パブリッククラウドで実行する意味のあるアプリケーションのサブセットを使って実行する必要があるのです。」

「パブリッククラウドにおいて意味をなすのは、いまだ驚異的並列なジョブなので、それらは効率的にこの種のワークロードを実行するように設計されているのです。GPUの恩恵を受ける機械学習やディープラーニングのような種類のアプリケーションははるかに人気が高まっているので、これは理にかなっています。ビッグデータを行う際には、その殆どはまだCPU上で行われていますが、GPUの利用はますますかなり早くなっています。」

P2性能

K520からK80に移行することで、FLOPSとメモリの面において飛躍的に上限を上げることになる。カード間では、ピークの単精度テラフロップスは4.9から8.73に増加する。倍精度浮動小数点はK520では無視することができるが、K80では2.91倍精度テラフロップスの仕様となっている。さらにほとんどのユーザにとってより重要なのは、GPUスライス(AWSがバンドルする方法)毎のGDDR5メモリは4倍となり4GBから12GBとなる。

アマゾンはGPUよりはむしろインスタンスの世代と比較することでスピードアップをより魅力的に見せている。「P2インスタンスは最大のG2インスタンスと比べて、単精度浮動小数点演算で7倍の演算性能があり、倍精度浮動小数点演算では60倍もあるのです。」と公式声明の中でアマゾンEC2の副社長であるMatt Garmanは述べている。

当然のことながら、これらの性能強化は大幅なコストアップを招く。最大のP2インスタンスであるp2.16xlargeは16個の物理GPU(8個のK80カード)を提供し、時間当たり14.40ドル(オンデマンド)および6.80ドル(リザーブド・インスタンス)となる予定だ。Azureにおいて提供される最大のマシン構成であるNC24では、4個の物理GPU(2個のK80カード)を装備しているが、価格はまだ公開されていない。

20160930-F1-AWS-P2-Instance-details-1200x

16GPUのP2インスタンスは20Gbpsのネットワークが付いて来る、これはRMDA InfiniBandのスピードで恩恵を受けるワークロードを持った一部のユーザには残念なことだ。競合であるマイクロソフトAzureはK80ノード間でInfiniBandによるRDMAを提供すると述べている。

アマゾンはK80をカスタムのIntel Xeon E5-2686 v4チップと組み合わせ、インスタンスは4、32または64個のvCPUで構成されている。AzureのNCシリーズ仮想マシンはIntel Xeon E5−2690 v3プロセッサを搭載し、マシン当たり6、12、または24コアを提供している。

3つのK80に担保されたAWSインスタンス(16CPUのp2.16xlarge、8CPUのp2.8xlarge、1CPUのp2.xlarge)は現在アマゾン米国東部(N. Virginia)、米国西部(Oregon)、およびEU(アイルランド)リージョンで利用可能だ。

アマゾンはまた、MXNet、Caffe、Theano、TensorFlow、Torchなどを含むすべての主要な機械学習フレームワークを包含したディープラーニングAPIを発表している。CUDAドライバとツールキットを持つアマゾンAPIはアマゾンマーケットプレイズから取得可能だ。