TPC26:HPC施設における科学AIプラットフォームの構築に向けて
オリジナル記事「TPC26: Toward Scientific AI Platforms at HPC Facilities」
AIは、HPCセンターに対して新たな一連の要求を生み出している。研究者たちはもはや、モデルのトレーニングだけに注力しているわけではない。現在では、多くの研究者が、日々の研究活動の一環として活用できる推論サービスやAIエージェントを求めている。HPCセンターにとって、これは、こうしたサービスを大規模に提供し、既存のHPCインフラと連携させて機能させる方法を模索することを意味する。
これらの課題は、TPC26のセッション「科学AIプラットフォームに向けて:HPC施設における推論、エージェント、およびAIサービス」の主要な焦点となった。このディスカッションには、国立研究所、スーパーコンピューティングセンター、産業界、研究機関からの講演者が一堂に会し、研究者向けのAIサービスをどのように構築・運用しているかを共有した。
参加者には、サンディエゴ・スーパーコンピューティング・センターの最高データサイエンス責任者であり、ナショナル・データ・プラットフォームの主任研究員であるイルカイ・アルティンタシュ博士、アルゴンヌ・リーダーシップ・コンピューティング・ファシリティのAI責任者であるヴェンカット・ヴィシュワナート博士、日本の産業技術総合研究所(AIST)のジェイソン・ハガ博士、 HPEのサマンサ・サリー氏、ピッツバーグ・スーパーコンピューティング・センターのパオラ・ブイトラゴ博士、ファン・ショアジャ博士、そしてテキサス・アドバンスト・コンピューティング・センター(TACC)のエグゼクティブ・ディレクターであるダン・スタンツィオーネ博士が参加した。
![]() |
|
イルカイ・アルティンタシュ博士が、TPC26においてAI推論サービスと国家研究プラットフォームについて講演を行った。 |
アルティンタシュ博士は、共有サービスを通じて研究者にAIモデルへのアクセスを提供する「ナショナル・リサーチ・プラットフォーム」の概要を説明し、議論の口火を切りました。
「これを3つの異なる層として考える必要があります」とアルティンタシュ博士は述べました。「ここには間違いなくインフラ層があり、コンピューティング、ストレージ、そしてそれらを取り巻くあらゆる要素が含まれます。これはHPCサービスに少し似ていますが、コア時間ではなく『トークン』という概念を採用しています。」
「ナショナル・リサーチ・プラットフォーム」は現在、9つのオープンモデルを提供しており、研究者が独自のインフラを構築・管理することなくAI機能を利用できるように設計されてる。セッションを通じて、HPCセンターが推論サービスやAIツールに対する需要の高まりにどのように対応しているかについて登壇者たちが議論する中で、この話題が繰り返し取り上げられた。
こうしたサービスを構築するには、推論用に特別に設計されたインフラも必要だ。これがハガ博士のプレゼンテーションの焦点であり、同博士は、国家テストベッド・イニシアチブを通じて、さまざまなAIアクセラレータや推論技術を評価する日本の取り組みについて概説した。
「私たちが目指しているのは、多様で最先端のAIアクセラレータを評価し、高性能な推論サービスを実現するための技術や、これらの異なるコンピューティングリソースに実際にアクセスする方法を開発することです」とハガ博士は述べた。
研究者にとって、ハードウェアそのものは多くの場合、二次的な問題である。重要なのは、サービスが利用可能かどうか、パフォーマンスが良好かどうか、そして基盤となるインフラの専門家になる必要なく、自身の研究に統合できるかどうかである。
このプロジェクトは、研究者がさまざまなAIハードウェアプラットフォームを実験できるように支援するとともに、推論サービスを展開するためのフレームワークを提供することを目的としている。この取り組みでは、より幅広いアクセラレータの組み合わせが、将来の科学分野におけるAIワークロードをどのようにサポートできるかを模索している。
このプレゼンテーションでは、多くのHPC施設が直面している課題が浮き彫りにされた。すなわち、研究者はその基盤となるハードウェアには関心を示さないかもしれないが、必要な時にAIサービスをすぐに利用できることをますます期待しているという点だ。
![]() |
|
| ジェイソン・ハガ博士がTPC26で、AI推論インフラとアクセラレータの研究について論じた。 | |
議論の多くはインフラや技術に焦点を当てていたが、スタンツィオーネ博士は、最終的には経済的な側面がより大きな課題となる可能性があると主張した。
「私たちにとって厄介な問題となるのは、結局のところ、トークンにはコストがかかるという点だと思います」とスタンツィオーネ氏は述べた。「ユーザーがトークンを積極的に使用すると、ここ数ヶ月で多くの研究機関が利用機会の喪失について言及しているのを目にしてきました。」
AIサービスの利用が広まるにつれ、その使用量は急速に増加している。これにより、従来のHPCワークロードとは異なる一連のプレッシャーが生じている。特に、各機関が限られた予算の中で増大する需要とのバランスを取ろうとしている状況では、その傾向が顕著だ。スタンツィオーネ氏によれば、長期的な課題は推論プラットフォームの構築そのものではなく、それらを持続可能な形で運用する方法を見出すことにあるかもしれない。
「数ある技術的課題の中でも、長期的には、おそらく財務面が他のどの要素よりも私たちの取り組みを左右することにでしょう」と彼は述べた。
この議論からは、HPC施設がAI導入の次の段階にどのように適応しつつあるのかが垣間見えた。業界の関心の多くは依然としてモデルやハードウェアに集中しているが、登壇者たちは、AIをサービスとして提供するという現実的かつ避けられない課題に繰り返し言及していた。
共有推論プラットフォームやアクセラレータ・テストベッドから、トークン消費の経済性に至るまで、このプレゼンテーションで議論された課題は、科学分野におけるAIの未来が、モデル自体の進歩と同様に、運用やインフラにも大きく依存する可能性があることを示唆している。








