Xeon Phiでのメニータスクコンピューティングへの道
Tiffany Trader

Intel Xeon PhiコプロセッサがSC12でデビューしてからほぼ1年となり、その際にはコミュニティからの強い支持を受けていた。しかし、これは比較的新しい技術であるため、その有用性の研究は依然未知なるものである。
Phiについての研究内容の発展を高めるのは、イリノイ州を拠点とする科学者によって書かれ、2013年5月に開かれた第2回偉大なシカゴ地域システム研究ワークショップ(GCASR)で発表された「Intel Xeon Phiコプロセッサ上のメニータスクコンピューティングワークロードのコストを理解する」だ。
その論文は、Intel Xeon Phiアーキテクチャを利用したメニータスクコンピューティング(MTC)の可能性に焦点を当てている。メニータスクコンピューティング(MTC)のプログラミングパラダイムは、高性能コンピューティング(HPC)と高スループットコンピューティング(HTC)との間のブリッジとして機能する。名前が示すように、メニータスクコンピューティングは、短時間に多くの計算タスク(従属または独立)が実行される行為を映している。MTCでのメトリックは、月あたりのオペレーション(つまりジョブ)とは対照的に殆ど秒単位(すなわち、FLOPS、タスク/秒、MB/秒のI/Oレート)で測定される。
試行の推進力は、研究チームが次のように説明した:「MTCは、よくクラウド、グリッドおよび伝統的なコンピューティングアーキテクチャ上のスーパーコンピュータでサポートされていますが、アクセラレータを用いたハイブリッド型の大規模システムの豊富さが、新しいIntel Xeon Phiアクセラレータ上でのMTCのサポートを模索する私たちを動機づけています。」
研究者の提案の核心は、「大規模計算クラスタを横断してMTCアプリケーションの細粒度実行を可能する」新たな枠組みを作り出す事である。彼らの既存のグラフィックスカード向けフレームワーク、GeMTCにこの機能を統合することにより「エクサスケールコンピューティングへのギャップを埋める手助けをするためにGPU、Xeon Phiおよび将来世代のアクセラレータへ透過的なアクセスを提供する」だろう。
高次並列数値演算に向けたIntel Xeon Phiチップは、IntelのMany Integrated Core(MIC)アーキテクチャの最初の製品である。簡単に言えばPhiコプロセッサは、PCIe 8x拡張カード上にx86ベースのプロセッサを貼付けたものである。チップは60コアを詰め込み、4倍のハイパースレッド機能で合計240のハードウェアスレッドをサポートし、単一のアクセラレータで倍精度性能1 Teraflops弱の能力を持つ。
Intel Xeon Phiコプロセッサの最初のペタスケールへの採用は、ピーク計算性能で7.4 Petaflops以上に到達するために6,880個のチップを利用したテキサス先端計算センターのStampedeシステムである。世界で最も強力なスーパーコンピュータのひとつ、Stampedeは、9.6ペタフロップスの総合最高性能に達する。
その論文は、Intel Xeon PhiアーキテクチャにMTCの深い理解を与えることを目的とする。研究者は、PCI-Expressバスを介して通信するためにIntelが提供するSCIFプロトコルと量産試作のIntel Xeon Phiハードウェアを使用して、幾つかの異なるワークロードの性能をテストする。このセットアップで、300μ秒以上かかるオフロードタスクのためにOpenMPを使うよりも同等か優れている結果、彼らは、90%以上の効率を達成する。
![]() |
図 1:Xeon Phiに128タスクをオフロードした際の効率。 個別オフロードとバッチオフロードでのOpenMPとSCIF間の比較 |
「この性能は、MTCアプリケーション向けのグラフィックスカードを含む、他の潜在的なアクセラレータと一緒にXeon Phi上で異種のタスクを実行するためのフレームワークの開発のための可能性を開きます。」と彼らは書いている。
Intel Xeon Phiコプロセッサは、汎用のGPU(GPGPUs)のような他のハードウェアアクセラレータに似ているが、しかし重大な違いもある。グラフィックスカード、特にGPGPUは、HPCアプリケーションのために並列処理を提供する一般的な手段になっている。しかし、GPUから性能向上を引き出すには、時間の消費とかなりの専門知識を必要とするコードの再編を意味する。Intelの主張は、Phiはプログラムすることが簡単で、より親しみ易い環境を提供することである。
実験では、量産試作のXeon Phiを採用 – PCI Expressバスを介してホストに接続される8GBのGDDR5を搭載した61コア版。これらのコアのひとつは、Linux OS用に確保されている。著者は、このプラットフォームで「アクセラレータでアプリケーションを開発し、オフロードするためにOpenMP、POSIXスレッド、OpenCL、Intel基本算術演算ライブラリ、MPI、または他の人気のライブラリを使用することが可能です。」と語る。
研究者が個別オフロードとバッチオフロードでOpenMPとSCIF間でのXeon Phiへの128タスクのオフロードの効率を比較した場合、OpenMPを僅かに超えた性能でバッチのこの長さで送った時、彼らはジョブがSCIFフレームワークから320μ秒以上の恩恵があることを見つけた。
実験は、PCI Expressバス全体でSCIFを介してホストとアクセラレータ間で直接通信することによって、Xeon Phiは最小オーバーヘッドを実現することが可能なことが示されている。予備的な結果は、著者らの提案した枠組みの下で、「Xeon Phiのリソースは、特殊なマイクロカーネルを使用することによって、高い性能を維持しながら大規模なコンピューティング環境における複数プロセスとユーザの間で共有することができる。」ことを示唆している。
ちょうどGeMTCのように、新しいフレームワークは3タイプのオペレーションを含むだろう;ジョブを送受信するためのプッシュ/ポーリング、デバイスメモリを準備するためのMalloc/Free、アクセラレータから、またはヘのデータをコピーするメモリコピー操作。Swift/Tへの結合には、マルチノード構成を使う事ができる。
将来的には、研究チームは、分子動力学アプリケーション、タンパク質シミュレータなどを含む他の科学コードのためにPhiを使用することに注目するだろう。
この論文の著者は、イリノイ工科大学からJeffrey Johnson、Scott J. Krieder、Benjamin GrimmerとJustin M. Wozniaky(アルゴンヌ国立研究所から)、Michael Wilde(アルゴンヌ国立研究所とシカゴ大学)とIoan Raicu(イリノイ工科大学とシカゴ大学)を含む。