Xeon Phiへの移植 − その障害と結果
Nicole Hemsoth
Intel Xeon Phiコプロセッサの発表以来、我々は、特にGPUに関連するものとして、ベンチマーク、ユースケースおよび移植性に関する主張をより良い比較コンテキストに入れる努力を行ってきた。
その目的に向けて、今週、我々はTACC(Texas Advanced Computing Centre)のパフォーマンス&アーキテクチャグループの研究科学者で、センターのGPU/CPU/コプロセッサの複合システム、Stampedeで仕事をしていたCarlos Rosales-Fernandezとの懇談に続けて、音声ベースの綿密なインタビュー・シリーズを追加した。我々は、他の加速アプローチが適合する中で、科学的なコードを移植し、最適化し、実行するのに何が重要な挑戦なのか、Intel Xeon Phiの移植と最適化の実践的課題と機会について長時間、話をした。
Rosales-Fernandezは、そこに言語とアーキテクチャの違いがないため、科学的なコードをXeon Phi上で実行する相対的な容易さを指摘する。しかし、彼は満足するレベルに最適化コードを取り組ませることに関連した課題について詳細に述べた。
かなりの詳細をここで説明した彼の研究では、チームは、性能と移植性を同時に強調するXeon Phiへの移植の具体的な利点と課題の幾つかをハイライトするために、マイクロベンチマーク、コードセグメント、機械語リストとアプリケーションレベルの結果を使用した。 性能のために彼らのコードを移植し、最適化した彼のチームの経験の貴重な要素のひとつは、混成コードに彼らのGPUで得た洞察を持ち込む事が出来るということだ。
Rosales-Fernandezは、GPUへの移植は、現在の技術では、MICアーキテクチャに移植するよりも時間がかかる傾向にあるが、上位製品ラインのGPUはMICよりFLOPS性能がより高いため、ユーザーはより高い浮動小数点演算性能のためGPUへの移植に費やす時間が、結果的に価値があるかどうかに関して決定する必要がある、と指摘する。
より一般的には、Rosales-Fernandezと彼のチームは、ネイティブモードのPhi上でコードを実行することは極めて単純だが、本当の目的である最終性能へは依然満足からはほど遠い、と言う。 彼は、特にオフロードと対称実行が導入される時、幾つかのネイティブモード固有の問題について説明する。彼はまた、既知のPCIeの帯域ボトルネックに対処する方法の分かり易い概要を用意している。
Rosales-Fernandezと彼のチームは、最近、彼らの調査結果についての詳細な論文を公開し、それはここにある。