世界のスーパーコンピュータとそれを動かす人々


10月 17, 2019

Xilinx vs. Intel:FPGAマーケットリーダーがサーバ・アクセラレータカードを発売

HPCwire Japan

Doug Black

FPGA市場の2つのリーダーであるIntelとXilinxは、データセンターサーバの特殊な計算集約型のワークロードと過負荷のCPUを処理するように設計された新しいアクセラレータカードを発表した。

XilinxはAlveo U50アクセラレータカードを発表。同社によると、コンピューティング、ネットワーク、ストレージのワークロードの「ドメイン固有の高速化」により、スループット、レイテンシ、電力効率が10〜20倍向上するとのことである。

U50は、XilinxのUltraScale+アーキテクチャを採用しており、ハーフハイト、ハーフレングスのフォームファクタ、75ワットのパワーエンベロープで提供される最初のAlveo製品ということだ。注目すべきことに、これは競合であるNvidiaのT4 GPUカードと同じフォームファクタである。XilinxのU50製品には、8 GBの高帯域幅メモリ(HBM2)、400 GBpsを超えるデータ転送速度、100ギガビット/秒のネットワーク接続、PCIe Gen 4およびCCIXインターコネクトのサポートを備えている。

「標準のPCIeサーバースロットに装着し、3分の1の電力を使用することで、Alveo U50は高速化適応可能な領域を大幅に拡大します。」とXilinxは説明する。 「高速ネットワークI / Oは、NVMe-oFソリューション(NVM Express over Fabrics)、分散型計算ストレージ、電子取引や金融リスクモデリングなどの専門金融サービスアプリケーション、機械学習推論などの高度なアプリケーションもサポートします。」

 
   

XilinxのデータセンターグループのEVP / GMであるSalil Rajeは、「データセンターに対する需要の高まりにより、既存のインフラストラクチャは限界に押し上げられているため、幅広いワークロードにわたってパフォーマンスを最適化し、既存のインフラストラクチャのライフサイクルを延ばし、最終的にTCOを削減できる、適応ソリューションの必要性が高まっています。」と述べている。

ディープラーニングの音声翻訳推論についてXilinxは、Alveo U50はGPUのみのパフォーマンスと比較して、ノードあたり最大25倍のレイテンシ、10倍のスループット、および低消費電力を実現する、と説明した。データベースクエリのTPC-Hクエリベンチマークを実行すると、U50はメモリあたりのCPUパフォーマンスと比較して、1時間あたり4倍のスループットを実現し、運用コストを3倍削減する、とも述べた。

また、計算ストレージにおいて、この製品は、CPUのみのノードと比較して、20倍以上の圧縮/解凍スループットを提供、ノードあたりのコストを30%以上削減し、電子取引のネットワーク高速化のために、U50は10μsのCPUのみの遅延と比較して、20倍低い遅延と500ナノ秒未満のトレーディング時間を実現する、と述べている。モンテカルロ金融モデリンググリッドコンピューティングシミュレーションを実行した場合においては、Alveo U50はGPUのみのパフォーマンスと比較して7倍の電力効率を実現すことができる。

「Xilinxは、Alveo U50のより小さな設計と高度な機能により、設定可能なロジックで高速化の市場を拡大するための優位な立場に立っています。」 Moor Insights & StrategyのHPCおよびディープラーニングのシニアアナリストであるKarl Freundは述べた。「新しいAlveo U50を使用することで、高成長のユースケースで実証済みの劇的なパフォーマンスを活用し、市場からの騒音をはねのけることができるでしょう。」

Xilinxの業界パートナーであるAMD、IBM、Western Digitalは、製品のサポートを発表した。Xilinx によると、OEMがU50をサンプリングしており、一般公開はこの秋に予定されている。

 
   

一方、Intelはプログラマブル・アクセラレーションカードポートフォリオの2番目のカードであるFPGA PAC D5005を追加し、HPEが、ProLiant DL3809 Gen 10サーバがこのカードを事前に認定した最初のOEMであると発表した。このカードはIntel Stratix 10 SX FPGAに基づいており、アクセラレーションライブラリと開発ツールを含むIntel Acceleration Stackを使用して、Intel Xeonスケーラブルプロセッサに基づくサーバーにワークロードアクセラレーションを提供するように設計されている。

Intelによると、FPGA PAC D5005は、Intel Arria 10 GX FPGAと比較して、3倍のプログラマブルロジック、最大32GBのDDR4メモリ(4倍の増加)、高速イーサネットポート(2つの100GEポート対1つの40GEポート)を提供する。 「より小さな物理的および電力フットプリントで、Intel Arria 10 GX FPGAを搭載したIntel PACはより広範なサーバに適合し、Intel PAC D5005はより高いレベルの加速を提供することに焦点を当てています」と同社は述べた。

それを実現するために、IntelはFPGA PAC D5005のパワーとフォームファクターを強化する必要があった。シングルスロットのArria 10 GX FPGAはフルハイト/ハーフレングスでピーク電力定格は70ワットだが、デュアルスロットPAC D5005はフルハイト/ 4分の3の長さで最大215ワットの電力を消費することができる。

FPGA PAC D5005は、ストリーミング分析、人工知能(音声からテキストへの変換を含む)、メディアトランスコーディングなどの計算集約型アプリケーションを対象としている。 「データセンターのお客様は、FPGAベースのハードウェアアクセラレーションの恩恵を最大限に受けられる特定のワークロードにハードウェアアクセラレータを使用しています。」と同社は述べた。「このようなタスクをカスタマイズされたハードウェアアクセラレータに転用すると、適切なワークロードがオフロードされ、サーバのCPUサイクルが解放されて、より価値の高いワークロードが得られます。適切なワークロードをオフロードすることで、データセンターのオペレータの総所有コストが削減されるのです。」

Xilinxは、Intelよりも約60-40のFPGA市場シェアをリードしていると推定されているが、業界ウォッチャーのMarket Research Futureによると、昨年の市場全体の規模は18億ドルで、2025年までに11%近くのCAGRで上昇すると予測されている。