世界のスーパーコンピュータとそれを動かす人々


1月 7, 2016

新しいNVIDIAのGPUがFacebookのディープラーニング用プラットフォーム「Big Sur」を後押し

HPCwire Japan

Doug Black

FacebookはディープラーニングとAIにインターネット規模の資金を投入し続けており、2倍サイズのニューラルネットワークの学習速度を倍増するように設計されている新「Big Sur」コンピューティング・プラットフォームを発表している。

11月に発表されたNVIDIAの新Tesla M40 GPUが、より洗練されたモデルの開発と新しい高度なアプリケーションのクラスをサポートするために2014年半ばから開始されたFacebook AIリサーチ(FAIR)によって設計されたこのBig Surシステムを駆動する最適のチップである。このシステムは8個のTesla M40を含んでおり、ほぼ60 TFLOPSの総合スループットと96GBのメモリを搭載している。

「私達はFacebookと昨年中頃からBig Surにつ取り組んでいます。」とNVIDIAの高速化計算担当の副社長であるIan BuckがEnterpriseTechに語った。「彼らにM40へ早期にアクセスをしてもらい、我々のシステムエンジニアが彼らのプラットフォームの内部にM40が合うように支援しています。単一サーバにこれ程の馬力を置くことは困難な作業なのです。彼らはGPU数をフルパワーで動かし、冷却し、そして最大性能をだすことができる非常にエレガントなソリューションを設計しました。」

Facebookは新しいNVIDIAアクセラレータを採用する最初の企業となり、特定のオブジェクト、ドキュメント、イメージおよびビデオを見て、読んで、聞いて、そして理解するためのディープなニューラルネットワークの学習の非常に計算集約型のタスクをこなすために利用される。

「それはちょうど機械学習に必要な種類の数値演算を行うための最適化、性能、および効率化の全体層のようなものです。」とBuckがTesla 40について語った。「これはフルパフォーマンスなGPUで、最速の独立GPUであり、これらのワークロードに必要なメモリサイズを持っています。」

究極の目的はGoogle NowやApppleのSiriのようにパーソナル・アシスタントとして人々を理解し、対話するための計算機の能力を向上する、もしくは、FacebookのメンバーやAmazonの買い物客が買いたいと思うように製品やサービスを前面に押し出すことである。Buckによれば、猫か犬かを90から95パーセントの確度で認識するくらいにシンプルなタスクを掴むことができる以前に、約1億のイメージをネットワークに供給しなければならいのだ。

20151211-E1-nvidia_ian_buck
Ian Buck

「多くの場合において、最初は学習はうまく行きません。」と彼は述べた。「ネットワークは約70パーセントの精度になると、平坦域になります。そして、データ科学者は何故思ったよりうまく行かないか理解し、神経経路の一部を変更して、再度学習させ、そして90から95パーセントの運用精度に到達するまで行うのです。」

ディープラーニング・ネットワークがさらに拡大し、複雑になるにつれて、FacebookのようなビッグプレーヤーはNVIDIAのようなベンダー・パートナーとのパートナーシップで自分独自のシステム設計に頼ってきた。

「Facebookにおいては、我々はオフザシェルフの基盤部品と設計と使って大きく進展してきました。」とBig Surについてブログに投稿したFacebookのエンジニアであるSerkan PiantinoとKevin Leeは語っている。「我々はストーリーを読むことができ、シーンに関する質問に答え、ゲームをし、さらにはいくつかの例を観察することで不特定のタスを学習することができるソフトウェアを開発しました。しかし、これらの問題にスケールで本当に立ち向かうには我々独自のシステムを設計する必要があると分かったのです。」

彼らは新システムを単に「性能向上」を提供するだけでなく、Big Surは我々の以前の世代の既製のソリューションよりもはるかに多目的に利用可能で効率的なのだ。

「多くのハイパフォーマンス・コンピューティング・システムが特殊な冷却とユニークなインフラを要求する一方で、我々はこれらの新サーバを熱と電力効率において最適化しており、オープンな標準計算データセンターのように独自のフリー空冷で運用できるようにしているのです。」

Big Surの発表では、R&Dの取り組みへの支援におけるニューラルネットワークの利用のためのGPUハードウェアへの投資は3倍以上であるとFacebookは述べている。

Big Surは、FidelityやCitibankのようなメジャーな金融サービス企業と共にApple、Microsoft、HPや他のベンダーからの支援を引き付けている2011年にFacebookが始めたオープンソース・ハードウェア・コンソーシアムであるオープン・コンピュート・プロジェクトの規格で製作されている。これはBig Sur用のハードウェア設計仕様がアカデミアやビジネスにおけるAI開発者に開放されていることを意味している。Big Surは処理エンジンとしてTesla M40を活用するように製作されているが、システムは様々なPCI-eカードをサポートするようにできていると、Facebookは述べている。

「これは、サーバ・コミュニテイがこのサーバ・アーキテクチャ用に彼らのソフトウェアを最適化することを奨励するためにオープンソース化している初めてのプロジェクトなのです。」とBuckは語っている。「誰もがイノベーションのための好ましいプラットフォームとなれるように競合していることがAIにおいて見られる傾向です。そして我々にとって良いニュースは彼らがすべてNVIDIA GPUを使っていることなのです。」

ET_LOGO_w_tagline3 この記事はEnterpriseTechの記事を翻訳したものです。