Nvidia、H100を段階的に展開する中、ジェネレーティブAIスーパーコンピュータ「Tokyo-1」を発表
Oliver Peckham オリジナル記事

NvidiaのHopper世代GPU「H100」は、「現世代 」に向けてゆっくりとした歩みを続けている。Nvidiaが昨年9月にH100を「フル生産」していると発表した後、このチップは11月にGreen500トップのHenriシステムで正式デビューを果たした。そして今、今年最初のGTCで、Nvidiaは市場におけるH100のリーチが拡大したことをアピールしている。フラッグシップ・カスタマーのひとつ: 三井物産は、Nvidiaと共同で、創薬のためのジェネレーティブAIモデルを目指す「Tokyo-1」と呼ばれるH100搭載システムを開発中だ。
Tokyo-1
Tokyo-1は、当初16台のDGX H100システムで構成され、各システムには8基のH100 GPUが搭載される予定だ。NvidiaのAIフロップス計算では、これはエクサフロップスの半分程度のAIパワーに相当する。H100(当初は128台)はそれぞれ30テラフロップスのピークFP64パワーを発揮するため、ピークペタフロップスは約3.84ペタフロップスとなるはずだ。このシステムは、Xeureka(三井物産の子会社でAI創薬に特化している)が運用する予定。Nvidiaは、このシステムが今年中に運用開始されることを期待しており、さらにノードを追加してシステムを拡張する計画もある。
ハードウェアよりも重要なのは、その目的である。以前であれば、同じようなターゲットとなるシステムでニューラルネットワークに関する言及があったかもしれないが、NvidiaのTokyo-1の発表では、代わりに「(製薬業界向けの)初のジェネレーティブAIスーパーコンピュータ」とうたわれており、ChatGPTやその他のジェネレーティブAIツールが主流となっている時代の流れに乗じている。
このシステムは、日本の巨大な製薬産業(Nvidiaは世界第3位と表現している)のために、AIを活用した創薬をサポートするものである。例えば、Nvidiaは、新規分子構造のためのジェネレーティブAIモデルや、タンパク質やDNAデータを分析するための大規模言語モデル(Nvidiaの創薬ソフトウェアBioNeMoで駆動)について言及した。もちろん、このスーパーコンピュータが役立つのはこれだけでは無い。Nvidiaは、高解像度分子動力学シミュレーションや量子化学などのタスクに使用されると述べており、このシステムは医療機器企業のサポートにも使用される予定である。
![]() |
|
Tokyo-1のレンダリング。画像提供:Nvidia | |
三井物産のデジタルヘルスケア事業部長の阿部雄飛氏は、「日本の製薬会社はウェットラボ研究のエキスパートですが、ハイパフォーマンスコンピューティングとAIを大規模に活用するには至っていません」と述べている。「Tokyo-1により、製薬業界がAIで加速する創薬のための最先端ツールで状況を一変させることができるイノベーションハブを構築します。」
このプロジェクトはすでに、Tokyo-1を創薬プロジェクトに利用する予定の日本の大手製薬会社数社から賛同を得ている。小野薬品工業の創薬技術部創薬DX室長の江頭啓氏は、「AIモデルのトレーニングには大きな計算能力が必要ですが、Tokyo-1の巨大なGPUリソースがこの問題を解決してくれると考えています」と述べている。「DGXスパコンの利用は、高品質なシミュレーション、画像解析、動画解析、言語モデルなど、非常に広い範囲を想定しています。」
…といった具合だ!
現在、H100の最大の可用性ベンチマークは、クラウドの可用性だ:Amazon、Microsoft、Oracle(他のクラウドプロバイダーも含む)は、それぞれのクラウドプラットフォームでH100をデビューさせており、NvidiaはAWSの「UltraClusters」が最大20,000個のH100 GPUを拡張できることをアピールしている。Nvidiaは、早期アクセスのクラウド顧客も共有した: Stability.aiは、AWSがホストするH100を使用して、テキストから画像へのジェネレーティブAIを高速化し、AnlatanはCoreWeaveがホストするH100を使用して、テキストから画像へのジェネレーティブAIとNovelAIアプリのAI支援ストーリー作成を高速化する予定だ。
初期のクラウド顧客で最も注目された ChatGPTの開発元であるOpenAIだ。Nvidiaは、OpenAIがAzureホストのH100sを使用して、現在進行中のジェネレーティブAI作業を強化する計画をアピールしている(同社は現在A100sを使用)。「NvidiaのH100 Tensor Core GPUの計算能力は、AIのトレーニングと推論の最前線を押し上げる我々の努力を可能にするために不可欠です」とOpenAIの社長兼共同設立者のグレッグ・ブロックマン氏は述べている。「Nvidiaの進歩は、GPT-4のようなシステムでの私たちの研究と整列作業のロックを解除します。」
![]() |
|
Metaの「Grand Teton」サーバーデザイン。画像提供:Meta | |
クラウド以外では、NvidiaはMetaのH100の採用を強調した。これは、昨年10月のOCP Summitで、Metaのスーパーコンピューティングプラットフォーム設計「Grand Teton」を発表することで予告されていた。各8UのGrand Tetonシャーシには最大8台のH100が搭載され、OCPラックにはそのうちの2台のシャーシが搭載さ れる。Metaは、Grand Tetonラックを「アーリーアダプター」向けのAIトレーニングクラスタに実際に導入し、この設計が数千の相互接続GPUにスケールアウトできることを強調した。
DGX H100は、その構成GPUから「本格的な生産開始」のバトンを受け取り、Nvidia CEOのジェンセン・フアン氏は、システムがまもなく到着することを発表している。DGX H100の最初の納入先は、三井物産、KTH王立工科大学(大規模言語モデルのトレーニング用)、ジョンズ・ホプキンス大学応用物理大学(同じく大規模言語モデルのトレーニング用)といった顧客であり、その広範な利用可能性に先立ち、DGX H100の最初の波が来ることになる。
今日の主要な発表の中で、Hopper世代のハードウェアを使用することが予想される主要なシステムについてのアップデートがなかったことが特筆さ れる。Venado(ロスアラモス国立研究所)のようにGrace Hopper Superchipsを使用するシステムについては、今回のGTCではあまり話題にならなかったが、明日にはGrace Hopper Superchipsを活用するAlpsのインフラに関するGTCセッションが予定されている。これは非常に理解できる。とはいえ、Hopper GPUを多用するMareNostrum 5や、最も驚いたのは、ほぼ1年前に発表されたNvidia自身のEosシステムについての最新情報がなかったことだ。このシステムは、合計576基のDGX H100システム(4,608基のH100 GPU、約138ピークFP64ペタフロップス)を搭載し、2022年3月の発表から「数ヶ月後」のデビューを当初目標としていましたが、それ以来、何のアップデートもない。