Nvidia、クラウド用HGX-1を発売し、富士通のAI案件を発表
John Russell

Nvidiaは、24台のDGX-1サーバーを使用して理研のAIスーパーコンピュータを構築するために、富士通との提携を発表した。さらにこのGPUテクノロジー・リーダーは、プロジェクト・オリンパスの下でMicrosoftとのクラウドのために開発された新しいオープンソースTesla P100ベースのアクセラレータHGX-1の設計図を、カリフォルニア州サンタクララで開催されたOCP(Open Compute Project)サミットで発表した。(DGX-1のDはDeep Learningの略、HGX-1のとHはHyperscaleの略と推測される。)Facebookは、ほぼ同時に、Big Sur GPUサーバーの後継機種であるBig Basinを導入した。これはNvidia P100も使用している(同様に8-way構成で、既にそれに取り掛かっている)。そして、組み込みの世界では、NvidiaはPascalグラフィックスをサポートするARMベースのCPUを搭載した「ドロップイン(交換部品)・スーパーコンピュータ」と請求書に記載されるJetson TX2を発表した。
この一週間は盛りだくさんの週であり、複数のスレッドが続く。この活動の大部分は、人工知能/深層学習により引き起こされ、HPCとクラウドを継続的に後押ししている。NVIDIAは従来の計算科学分野と低精度(32ビット、16ビット、さらには8ビット)の計算が必要になるAI / DL分野の双方でGPUの強みを活用しようと努力してきた。
![]() |
|
HGX-1、プロジェクト・オリンパスのAI用ハイパースケールGPUアクセラレータ・シャーシ | |
Teslaプロダクト・マネージメント・ディレクターであるRoy Kim氏は、AI / DLの採用はスピードを手早くかき集める大変革だ、と説明した。 「深層学習とAI革命は、巨大ではあるが、まだ若い。数年前、人々はまだ『深層学習って何?』という質問をしていた。現在、どのクラウドベンダーも、どうすればAI対応済みになるかを模索しています。」標準化されたHGX-1デザインがその答えになると、彼は主張している。
OCPとオリンパスによるクラウド向けのオープンソース・ハードウェアの登場は、PC用のATX「標準」の登場を思い起こさせるものだ。 Kim氏は、HGX-1は標準のAI / DL基準プラットフォームの一部として使用され、クラウド・プロバイダーがAI / DL関連製品を迅速に開発できるようになるだろう、と述べた。
Nvidiaの盛りだくさんな一週間の簡単なニュース概要は以下の通りである。
- HGX-1。 CPUなしのDGX-1を考える。これは8つのTesla P100を搭載したアクセラレータ・ボックスで、DGX-1と同じハイパーキューブメッシュで接続され、NVLinkインターコネクトを活用している。 HGX-1は、PCIeインターフェイスを介してサーバーに接続される。プロジェクト・オリンパスのプログラムガイドラインに基づいて開発されたこのデザインは、オープンソースであり、ユーザーは好みのODMにファイルを送り簡単に製造することができる。クラウド・プロバイダーがどのように反応し、特定のAI / DL作業負荷のHGX設計を最適化するために重要な調整が行われるか否かは興味深い所であろう。
- Big Basin。FacebookはBig Basinのスループットが向上し、メモリが12 GBから16 GBに増加したために30%も大きいモデルを学習させている、とFacebookは語っている。 「ResNet-50のような一般的な画像分類モデルのテストでは、Big Surに比べてスループットがほぼ100%向上しました。 」と、Arnene Gabriana Murillo氏のFBブログは語っている。GPOからの計算を完全に分解するためのJBOG(単なるGPU群)として設計されている。計算とネットワーク機能が組み込まれていないので、外部サーバノードが必要である。「このようにBig Basinを設計することで、Big Basinとは別のビルディングブロックとしてOpen Computeサーバーを接続することができます。そして新しいCPUやGPUがリリースされるたびにブロックごとに独立してスケールアップすることができます。 」と、ODMであるQuanta Cloud Technologyとの協働のブログに記されている。Big BasinシステムもTesla P100 GPUアクセラレータを搭載している。
理研の新しいDGX-1スーパーコンピュータ(画像提供:富士通)
- 富士通AIスーパーコンピュータ。新しい理研マシンには24台のDGX-1システムと32台の富士通PRIMERGYサーバーで構成され、半精度の浮動小数点計算の4ペタフロップのピーク性能に達することが予想される。新しいスーパーコンピュータは来月に稼働する予定で、医学、製造、医療、災害準備のAI研究を進展させるために使用される予定だ。
- Jetson TX2。 Jetson TX1の後継品であり、組み込みモジュール(SoC)は、256個のCUDAコアのPascalグラフィックスを搭載し、CPUはHMP(異機種マルチプロセッサ・アーキテクチャ)Dual Denverと4つのARM Cortex-A57から構成されている。Nvidiaは、他社と同様、ARMと多くの取り組みをしているように見えるが、組み込み機器やモバイルの分野で強いARMも、データセンターへの侵入には苦労しているようだ。しかし状況は変わりつつある。 Microsoftは今週、クラウドのワークフローに関するARMとのイニシアチブを発表した。 「我々は、実際のワークロードで種々の評価を実施しており、われわれが目にしている結果は非常に魅力的です。高いサイクル当たりの実行命令数(IPC)、多数のコアとスレッド数、接続オプションそしてインテグレーション機能など、ARMエコシステム全体で見られるものは非常にエキサイティングであり、継続的に改善されている。」と、マイクロソフトのLeendert van Doorn氏はブログに書いている。
FBのBig BasinとMicrosoftがHGX-1を採用したことで、クラウドベンダーによって導入されるNvidia GPUテクノロジーにいくつかの異なる方法が見受けられようになった。 Ingrasys(Foxconnの子会社)によって製造されたMicrosoft HGX-1は、種々のAI / DLワークロードに対応できるよう意図的に設計されているという意味で非常に柔軟性があります。
「(Facebookのために)、それは本当に彼らの特定のワークロードに関するものです。彼らは自然言語処理、画像処理について話しており、これらはユーザーに提供するサービスの核心です。そこで彼らはそのワークロードに最も適したシステムを構築しました。そのトポロジーは、HGX-1と非常に似ています。同じハイパーキューブメッシュを持ち、NVLinkのボックスに同じ様に8個のTesla P100があります。唯一の違いは、DLトレーニングのために最適化されており、柔軟な構成を取る事のできるHGX-1とは対照的に、DLトレーニング強化されています。」とKim氏は語っている。
面白いことに、マイクロソフトがオリンパスの哲学について次のように述べている。「オリンパス・プロジェクトは、ソフトウェアに採用されてきたオープンソースのコラボレーションをモデルとしていますが、歴史的にはハードウェア開発の実際の要求では対立してきました。私たちは、次世代のクラウド・ハードウェア設計が約50%完了すると、非常に異なるアプローチをとっています。これまでのOCPプロジェクトよりも、はるかに早い段階です。オリンパス・プ ロジェクトでは、開発中のデザインを共有することによって、オープンソース・ソフトウェアの開発と同じように、ハードウェア・デザインをダウンロードし、修正し、フォークすることで、コミュニティがこのエコシステムに貢献できるようになるでしょう。」と、Azureハードウェア・インフラストラクチャのGMであるKushagra Vaid氏は、2016年秋のブログに記述している。
HGX-1の設計は完成しているが、しかしそれは最適化を排除するものではない、とKim氏は言う。 「デザイン自体は完成しているので、Foxconnに行って、デザインファイルを提供して、製造を依頼することはできます。それは試験済みで、問題無く動作します。確かにそれはオープンソースであるために、他のクラウドベンダーが参入して、特定の市場のためにそれを微調整するようなこともあり得るでしょう。それもオープンソースの効用です。私はそれが起こっても驚かないでしょう。私は、クラウド・プロバイダー各々が、特定のワークロードのためにシステムを最適化する能力を得るようになると思います。」
HGX-2があるのか? 「いい質問ですね。発展するワークロードのニーズを満たすために標準が進化していくという考え方です。私たちはクラウドベンダーと協力して最善の答えを提供していくつもりです。ロードマップを提供すること無く、我々は製品が進化していけると考えています。」とKim氏は答えた。