インテル幹部: APXとAVX10はアプリケーションのパフォーマンスに幅広い影響を与えると説明
Agam Shah オリジナル記事

APXとAVX10(よりHPCをターゲットにしたもの)と呼ばれる、チップ性能を向上させるためのインテルの最新のアンダーザフッドの改良は、先月末に発表された際にチップとシステム愛好家の間で興奮を呼んだ。
APXはx86命令セットを大きく変更するもので、チップのパフォーマンスとセキュリティを向上させることを目的としている。
この技術はすべてのインテル・チップに適用され、汎用コンピューティングをより高速に、より電力効率よくするために、より多くのオンチップ並列性をもたらす、とインテル幹部は述べている。
インテルのXeon担当シニアフェロー兼チーフアーキテクトであるロナック・シンハル氏は、「APXは新しいレジスタで性能を向上させ、事実上すべてのアプリケーションの処理とメモリの要件を満たすために、段階的なブーストを提供します」と述べた。
「ほとんどの場合、開発者は再コンパイルして終わりです」とシンガル氏は言い、「既存のソフトウェアの構造の中で、さらなる性能を発揮するために、新しいプリミティブを作成するだけです」と付け加えた。
コンパイラーは通常、ローカル変数をレジスタに格納するが、以前は16個で使い切っていた。そのため、コンパイラーは変数管理のためにメモリにアクセスし、パフォーマンスに影響を与えていた。32本のレジスタにジャンプすることで、コンパイラが最適化できる領域が増え、より高速なパフォーマンスが得られるようになる。
新しい命令はXsaveをサポートしており、これはプロセッサ・レジスタの保存と復元ができる命令である。これは、計算スレッドの状態を保存して再開するコンテキスト・スイッチングに使用できる。この機能は、プロセッサー上で複数のスレッド・アプリケーションを実行し、並列処理を実現するために重要である。
「その結果、APXコンパイルされたコードは、インテル64ベースライン用にコンパイルされた同じコードに比べて、ロードが10%少なく、ストアが20%以上少なくなり、効率が向上し、動的な消費電力が減少しました」とインテルはリリースで述べている。
また、製造の進歩に伴いトランジスタのバジェットが大きくなり、ソフトウェアの最適化だけにとどまらない変化が必要になりました。 チップがより多くのトランジスタを持つようになると、より多くのレジスタを持つことで、より多くの並列性も提供される。
「APXの良いところは、狭いニッチにならないことです。流体力学のアルゴリズムや圧縮をやっているユーザーのことではなく、本質的にすべてのユーザーにわたって幅広くなることです」とシンガル氏は述べる。
APXはまた、違反の回避など、他のケースで役立つ新しい命令で小さな機能を追加している。
「ターゲット暗号のような命令を追加すると、暗号アルゴリズムが大幅に改善されることがありますが、それは小さなスライスにしか役立ちません。これは、すべての人を助けようとするものですが、その量はより少なくなります。APXによって10倍の効果が得られるわけではありませんが、段階的な効果が得られ、すべてのワークロードに役立ちます」とシンガル氏は言う。
インテルはここ数世代のサーバー用チップで、命令を強化するためにさらに多くの命令を追加してきた。その最たるものがAMX命令で、AI推論の性能向上をターゲットとしている。 APXは、AMXのような命令によってすでにブーストされているアプリケーションにブーストを提供する。
シンガル氏によると、今重点を置いているのは、ソフトウェア開発者を含むエコシステムを新機能に対応させることだという。
インテルのシニアフェローであるアルジャン・ヴァン・デ・ヴェン氏は、「開発者はコンパイルし直す以外に何もする必要はありません」と語った。
「それは、私たちにとって使いやすいことです。アプリケーションを再コード化しなければならない場合、普通はそんなことはしません。これはボタンを押すだけで完了します。アプリケーションはとても速くなりました。これは、既存のソフトウェアに適合させるという設計目標のひとつです」とヴァン・デ・ヴェン氏は語った。
シンガル氏によれば、さらに多くの改良が予定されているという。
「ある人に訊かれたん ですよ……社内で『これ以上のパフォーマンスが必要になることはないのか』と。もちろん、これで終わりではありません。」
APXは、将来のチップの性能向上に関するインテルの通常の会話には組み込まれていない。この機能のサプライズ的な実装は、何年もかけて行われたものであり、多くの熟考を要した。
「それは常に、一連のアイデアから始まり、時間とともに様々に変化し、進化していきます。しかし、”今が、私たちが知っているすべてにおいて、これをシリコンに焼き付けるのに適切な時期なのか “と言うときが来るのです」とシンガル氏は語った。
APXがメインストリーム・コンピューティングをターゲットにしているのに対し、インテルはAVX10(バックグラウンド・ペーパー)と呼ばれる、よりハイパフォーマンス・コンピューティングをターゲットにした新機能も発表した。AVX10は従来のAVX-512を継承し、従来の128ビットと256ビットのベクトル命令を統合する。
「AVX10は、すでに一部のプロセッサーに搭載されている優れた機能を、電力効率やコスト効率などを維持したまま、すべてのプロセッサーに提供するにはどうすればいいか、というものです。これらはすべて、過去10年間にソフトウェアが使いこなすようになった機能です」とシンガル氏。
![]() |
Intel AVX10ロードマップ(出典:Intel – 拡大画像は背景紙を参照) |
AVX10の最大の改良点は、パフォーマンス機能ではなく、ユーザビリティ機能である。インテルは、以前は混乱を引き起こしていた、異なるバージョンの機能セットの一覧表示を合理化した。チップメーカーは列挙システムを構築し、コーダーがCPUの種類と機能を確認するプロセスを簡素化した。
「機能を追加するたびに、世代を重ねるごとに、積み重ねのようなものが出てきます。これは、……『よし、これまで積み重ねてきたものを1つにまとめよう、そうすれば1つ1つチェックする必要はない』と言うチャンスでした」とシンガル氏は言う。
AVX10命令セットは、まずGranite Rapidsと呼ばれるサーバーチップに搭載される。
インテルのパット・ゲルシンガー最高経営責任者(CEO)は決算説明会で、「我々は2024年前半にSierra Forestを発売し、その後すぐにGranite Rapidsを発売する」と述べた。
Granite Rapidsと低消費電力のSierra Forestサーバーチップは、EUVを使用してチップ上に微細な特徴をエッチングする次世代製造プロセスであるインテル3で製造される。EUVの使用は、チップの性能向上を測定する一つの方法であり、インテルはまた、新しいタイプのトランジスタと電力供給メカニズムを新しいノードに搭載している。
インテルは、ライバルの台湾積体電路製造(Taiwan Semiconductor Manufacturing Co., Ltd.)から製造におけるリードを取り戻すべく、4年間で5つのノードを導入する計画を持っている。ゲルシンガー氏は、インテルのサーバーCPUロードマップを安定させることを優先し、同社は予定通りに次期サーバーチップを提供する予定だ。
インテルは、Optaneやネットワーク・ストレージ事業など、資金を浪費する多くの付属事業を削減した。また、Rialto Bridgeと名付けられた高性能グラフィックスチップを中止し、Falcon Shoresと呼ばれるCPUとGPUを組み合わせたチップを延期することで、GPUロードマップを再編成した。
インテルは、APXがいつチップに搭載されるかは明らかにしていない。しかしインテルは、ソフトウェア開発者が性能向上を反映した新しい命令で作業できるよう、透明性を高めようとしている。
「我々は常に、消費電力であれ、性能であれ、何であれ、改善方法に関するさまざまなアイデアを集めています。それらを評価し、シミュレーションしなければなりません。それはメリットがあるのか?そして、我々のソフトウェア・ツールはそれを活用できるのか?プロトタイピングはどのように行うのか?この種の機能には長い道のりが必要です」とシンガル氏は語った。
詳細については、インテルのデベロッパー向けウェブサイトを参照されたい。