HPCとAI:二つのコミュニティの同じ未来
Rob Farber

Rob Farberは、現在進行中のHPCの 「3本の柱」の統一に関するインテル社のフェローAl Garaのビジョンを掲げている。
Al Gara(IntelのData Center Groupのフェロー)によれば、新コンピューティング、ストレージ、通信技術、ならびにニューロモルフィックおよび量子コンピューティング・チップを使用して、エクサスケールの未来に移行するにつれて、ハイパフォーマンス・コンピューティングと人工知能はますます絡み合うことになりそうだ。 Garaは、「AIとデータ解析および従来のなシミュレーションとの融合は、より広い機能と構成可能性、相互受粉性を持つシステムにつながる。」と評価している。
GaraはHPCとAIの未来に向けて、ハードウェアが利用可能な性能として倍精度で1エクサフロップス(より低精度の場合にはもっと高い)を超えるような非常に積極的なハードウェア・ターゲットを設定していると見ている。彼は、メモリ容量あたりの演算に重点をおくユーザはアーキテクチャ全体に大きな配当を払い、エクサスケールの先まで、以下の性能表に示す指数関数的な性能の成長曲線を維持する機会をシステムソフトウェアとユーザ・アプリケーションにもたらすと考えている。
図1:HPCとAIの両方をサポートする将来のシステムのアーキテクチャ目標 注:PiBは1ペタバイトのメモリ容量。
「3つの柱」の統一
Garaが提示したビジョンは、HPCの「3つの柱」(人工知能(AI)と機械学習(ML));データ分析とビッグデータ;ハイパフォーマンス・コンピューティング(HPC))の統一に基づいている。つまり、将来のユーザは、お互いを活用し、メモリを介して相互作用するモデルを使用してプログラムを作成するということだ。
図2:「3つの柱」の統一(出典:インテル)
より具体的にインテルは、スケーラブル・プロセッサ、アクセラレータ、ニューラルネットワーク・プロセッサ、ニューロモルフィックチップ、FPGA、インテルの永続メモリ、3D NAND、カスタムハードウェアなど、基本的に新しいテクノロジへのアップグレードをサポートする、高度に構成可能なエクサスケール・システムに向けて、取り組んでいる。
図3:高度に構成可能な未来への取り組み(出典:インテル)
Garaのビジョンの共通点は、構成を通して同じアーキテクチャがHPC、AI、およびデータ分析をカバーすることである。つまり、HPCとAIのワークロードに対応するために、異なるハードウェアバックエンド間で一貫したソフトウェアストーリーが必要だということだ。
現在TensorFlowなどの一般的な機械学習パッケージの中でインテルのnGraphライブラリを使用することで、Garaのビジョンの現在の非常に実際的なインスタンス化が行われている。基本的に、インテルの nGraphライブラリは、CPUからFPGA、専用ニューラルネットワークプロセッサなど、さまざまなハードウェアプラットフォームで最適化されたパフォーマンスを実現できる中間言語(LLVMに類似した方法)として使用されている。
Jason Knight(インテルの人工知能製品グループのCTO事務所)は、「インテルのnGraphライブラリは、最適化パス、ハードウェアバックエンド、および一般的な深層学習フレームワークへのフロントエンドコネクタのエコシステムの始まりであると認識しています。」と書いている。
図4:TensorFlowのXLAサポート
全体的には、HPCのプログラマ、研究者、領域の科学者たちは、「HPCは本当に多くのアーキテクチャの発祥の地であり、テストの土台である。」と指摘している。
- データレベルの並列(細粒度から粗粒度へ)
- エネルギー効率の高いアクセラレータ(計算密度とエネルギー効率はしばしば相関する)
- すべてのレベルで予測可能な実行を活用する(キャッシュを粗粒度にする)
- 統合された固定機能データフローアクセラレータ
- 汎用データフローアクセラレータ
技術の機会
HPCとAIの科学者は、数多くの新しいネットワーク、ストレージ、コンピューティング・アーキテクチャのパフォーマンス機能を利用してアクセスできるようになる。
特に、HPCは、スーパーコンピュータの最も困難で高価な要素の1つを表すファブリックとして、光学技術の大きな推進力となっている。この理由から、Garaは、複数の波長の光を用いて通信するリニアやリングデバイスおよび光デバイスに移行する際の成長する余地(具術的な意味で)を含む経済的およびパフォーマンス上の大きなメリットをもたらすため、シリコンフォトニクスはゲームを変えると考えている。
インテルの永続メモリなどの新しい不揮発性ストレージ技術は、メモリとストレージの境界を曖昧にしている。 Garaはエクサスケール・スーパーコンピュータ用の新しいストレージスタックについて説明しているが、もちろんこのスタックは一般的な計算クラスタ上でも実装できる。
Garaによると、このスタックは、NVMストレージを使用するように設計されているということが鍵のようだ。その結果、アプリケーションが新しいユーザスペースのNVMe/pmemソフトウェア・スタックを介した超細粒度のIOを行うことができるようになるため、任意のアラインメントとトランザクション・サイズにおいて高スループットのIO操作が可能になってくる。システムレベルでは、ソフトウェアに管理された冗長性のある自己修復環境において、同種で非共有サーバ全体にわたって、スケーラブルな通信とIO操作を利用する超分散NVMストレージをユーザが管理できるようになるということだ。言い換えれば、ログ・ランタイム・アルゴリズムやまばらで非構造なデータ・セットにおけるデータ分析などのビッグデータやイン・コア・アルゴリズムをサポートするための高性能で大容量のスケーラブルなストレージということだ。
研究者達は、AIとHPCの問題にアプローチする方法を変えるために、メモリの性能と容量の進歩を利用している。そのような仕事の例としては、ユタ大学からサウジアラビアのAbdullah科学技術大学(KAUST)に至るものがある。
例えば、Aaron Knoll博士(ユタ大学のサイエンティフィック・コンピューティングとイメージング研究所の研究科学者)は、Osprayビジュアライゼーション・パッケージにおける対数ランタイム・アルゴリズムの重要性を強調している。対数ランタイムアルゴリズムは、大規模なビジュアライゼーションやエクサスケール・コンピューティングにとって重要である。基本的には、データサイズが増加するにつれてランタイムが徐々に増加する。データサイズが桁違いに増加しても、ランタイムがゆっくりと増加するため、対数的な増加が重要だ。さもなければ、ランタイムの成長は、適当な時間内に計算が終了するのを妨げ、大容量のメモリを持つコンピュータの利点を取り除くことになってしまうのだ。
結果として、データに対する低レイテンシ・アクセスを提供する大容量メモリ(例えば、「ファット」)の演算ノードは、独自のゲームにおいて大規模な並列アクセラレータと競合し、打ち負かす可能性のある技術である。ユタ大学の研究[PDF]は、1つの大容量メモリ(3テラバイト)ワークステーションが、128ノードのGPUクラスタと比較して、競争力のあるインタラクティブなレンダリング性能を提供できることを示している。ユタ大学のグループでは、P-k-dツリーや他の高速なインコア・アプローチ[PDF]を使用したリアルタイムな視覚化を探究し、従来のHPC視覚化手法に代わる大きな「直接的」インコア・テクニックが実用的であることを示している。
第2の例では、KAUSTはインテルや東京工業大学と共同して、マルチコアおよびメニーコアプロセッサの数値ツールのエコシステムを強化してきた。数十億個のサイズの行列を実際に処理するには、数学的かつ計算的に効率的な方法でCPUテクノロジを使用するのだ。
数学的線形代数は、工学、物理学、データサイエンス、機械学習のほぼすべてのアプリケーションの根幹であるため、HPC以外の科学者は、線形代数と高速多重極法(FMM)でのこれらの貢献の重要性を認識することができている。 FMM法は、20世紀のトップ10アルゴリズムの1つとして挙げられています。
その結果、HPCの科学者は、同じハードウェア上で動作するIntel Math Kernel Library(Intel MKL)など、現在最適化されているライブラリを使用するよりも、より高速かつ高密度な線形代数問題やFMM関連の数値問題を解決できるようになった。これらの方法は、ExaFMMおよびHiCMAの名称を有する高度に最適化されたライブラリとして利用可能になっている。
未来への展望:ニューロモルフィックと量子コンピューティング
Loihiというコードネームの新しいニューロモルフィックテストチップは、AIが自己学習するので、AIの位相変化を表しているかもしれない。現在、データ科学者は、複雑な問題を解決するためのニューラルネットワークを学習させるために使うトレーニングセットを作成するのに、かなりの時間を費やしている。ニューロモルフィックチップは、人間が学習セットを作成する必要性を排除するものだ(例えば、ループ内に人間がいない)。代わりに、人間は、ニューロモルフィックハードウェアが解決策を見つけたら、精度を検証する必要があるのだ。
簡潔に言えば、ニューロモルフィックコンピューティングは、機械学習および深層学習に使用される伝統的なニューラルネットワークとは全く異なる計算モデルを利用する。このモデルは、生物学的脳がどのように作用するかをより正確に模倣しており、ニューロモルフィックチップは、環境を観察するだけでイベント駆動型の要領で「学習」することができる。さらに、それらは著しくエネルギー効率の良い方法で動作する。これがアドバンテージとなるかどうかは、時間が決めることだ。良いニュースは、ニューロモルフィックハードウェアが現在利用可能になっているということだ。
Garaは、現在のアーキテクチャより100倍以上のエネルギー効率を実現し、ハードなAI問題を効率的に解決するプログラム可能なアーキテクチャを作成することを目標としている。彼はスパースコーディング、辞書学習、制約充足、パターンマッチング、動的学習と適応などの例を提供している。
最終的に、Garaは、より良いキュービット(量子ビット)を作り、キュービット間の接続性を改善し、スケーラブルなIOを開発するために、デルフト大学との共同研究を通じて可能となっている量子コンピューティングの進歩について説明している。量子コンピューティングは直感的ではない。なぜなら、ほとんどの人は、同時にエンタングルメントや複数の状態にあるものを直感的に把握していないからだ。それでもWebには、ウォータールー大学の量子コンピューティング101などの優れたリソースが含まれている。これは人々がこの技術を理解しやすくすることをサポートし、実現すればコンピューティングの世界を永遠に変えるものだ。
量子コンピューティングは、汎用コンピュータを使用して、現在扱いにくい問題を解決する可能性を秘めている。 Garaは、量子化学、マイクロアーキテクチャとアルゴリズムの共同設計、ポスト量子暗号での現在のインテルの量子コンピューティングの取り組みを強調している。
要約
AIやHPCコミュニティに従来のアプローチを再考させて、これまで以上にパフォーマンスの高いスケーラブルで設定可能なアーキテクチャを使用できるようにする新しいコンピューティング、ストレージ、製造テクノロジの導入を検討している。 Al Garaは、テクノロジーは「3つの柱」の統一を引き起こしており、その結果、データセンター内のAIとHPCの未来が互いに区別できなくなると指摘している。
Rob Farberは、HPCの広範な経歴と、国立ラボや商業団体に適用する機械学習技術の開発を担当する世界的なテクノロジーコンサルタントおよび著者でである。 Robにはinfo@techenablement.comでアクセスできる。