世界のスーパーコンピュータとそれを動かす人々


2月 3, 2025

DeepSeekウィーク:誰もが見逃したこと

HPCwire Japan

Doug Eadline オリジナル記事「DeepSeek Week: What (Almost) Everyone Missed

今週初め、DeepSeek GPTのニュースがメディアを駆け巡った。市場は反応し、多くのハードウェア企業(例えば、エヌビディア、ASML、ブロードコム、マーベル)の市場価値が下落した。おそらく、DeepSeekが「ビッグ・キッズ」に匹敵する基礎モデルを1/50のコストで提供したため、トラック一杯分のGPUに対する需要が減少するだろう。しかし、この分析は的外れであった。パット・ゲルシンガー氏のような古株を除いては

はっきりさせておきたいが、私は投資アドバイスを提供しているわけではない。私は、いくつかの事柄を見てきたHPCのベテランなのだ。AI、あるいはAGIを本当に構成するものは何か、誰も知らないため、HAL 9000を再現するために必要なハードウェアやソフトウェアは、まだ少し宙に浮いた状態にある。

 
   

DeepSeekのトレーニング費用は500万ドルと見積もられているが、これは最先端のモデルを構築するために必要な2億5000万ドルという見積もりの約50分の1である。この価格については、ハードウェアのトレーニング費用のみを含み、人件費や開発費、その他のインフラ費用を含んでいないことについて、多くの異論がある。DeepSeekがコストを10分の1に削減したと仮定し、つまり2,500万ドルを費やしたとしよう。それでも、私たちが常に耳にするデータセンターモデルと比較すると、まだ安い。

ここで一度立ち止まって、過去のことを考えてみよう。コンピューティングへの参入コストが10分の1に下がった時代があっただろうか? 1990年代初頭のスーパーコンピュータを考えてみよう。 それは高価なゲームであり、通常は7桁の金額が必要で、その世界はかなり排他的だった。 そんな中、トーマス・スターリングとドン・ベッカーがジム・フィッシャーから5万ドルの資金提供を受け、この汎用ハードウェアベースの「Beowulf」クラスタコンピュータを構築した。

その後は周知の歴史である。スーパーコンピュータへの参入コストは少なくとも10分の1に削減された。その結果、より多くの人々が、より安価な費用で、研究やエンジニアリングの質の高いスーパーコンピュータを利用できるようになった。既存のスーパーコンピュータシステムのメモリーアップグレードや年間サポート契約の費用で、高速なBeowulfクラスタを導入できるという話も出回っていた。

このBeowulfによるコモディティ・コンピューティングの出現は、市場にとって転換点となった。 ほぼ誰もがこの市場に参入することができ、実際に参入した。 参入コストの低下により、新しい市場であるコモディティベースのHPCへのハードウェア販売が増加した。 集中型機能マシンの他に、ユーザが必要とする特定のパフォーマンスを実現するローカルマシンも登場した。

今日に戻ろう。もし他者によって再現可能であるならば、DeepSeekのニュースは生成AI市場における「Beowulf」の瞬間である。このクラブは、これまでコスト面で参加できなかった多くの組織にも開かれるようになった。実際、マシュー・キャリガンによる最近のX/Twitter投稿では、

Deepseek-R1をローカルで実行するためのハードウェアとソフトウェアの完全なセットアップ。実際のモデル、抽出なし、フルクオリティのQ8量子化。総費用は6,000ドル。

はっきりさせておくと、これはフルモデルであり、サイズは650GBである。さて、肝心なのはここからだ。フルモデルは、24のRAMチャネルに768GB(モデルに適合する)を搭載した2つのAMD EPYCプロセッサ(9004または9005)で実行される。ケース、電源、SSDを追加すると、マシューが報告した「毎秒6~8トークン」で動作するローカルマシンがほぼ完成する。驚くべきことに、ハードウェアのマニフェストにはGPUが含まれていない。フルモデルの実行における制限要因は、メモリサイズとメモリ帯域幅である。このケースでは、大量のメモリがCPUに有利なプラットフォームを構築する。もちろん、より多くのメモリを搭載したGPUも入手可能だが、その場合は6,000ドルより「少し」高くなる。 注記:モデルのトレーニングには依然としてGPUが必要であるため、トレーニングやモデルの実行コストが下がればハードウェアの販売数が増える可能性があるため、エヌビディアの株をすぐに売却するのは待った方が良い。

DeepSeek-R1のリリースには、GitHububでの詳細なプロジェクトリリースと、プロジェクトの主要ステップを概説した技術論文が添付されている。また、「Open-R1:DeepSeek-R1の完全なオープンソース版」がHuggingfaceで開始されている。

最後に、DeepSeekチームがモデルを最適化した方法についても、彼らの論文で報告されている。これらの最適化により、モデルは極めて高速に実行されるようになった。これは、DeepSeekチームが利用可能なハードウェアを最大限に活用しようとした結果である可能性がある。驚くべきことに、DeepSeekは、わずか2,048個の不具合のあるエヌビディアH800 GPUでV3モデルを事前学習したと主張している。より多くのハードウェアを問題に投げ込む(あるいは、より正確に言えば「データセンターを問題に投げ込む」)という「安価な」方法とは異なり、DeepSeekはソフトウェアの最適化に取り組んだ。このモデルのテストと研究を継続すれば、さらに詳細が明らかになることは間違いない。

マーク・トウェインの有名な言葉に「歴史は繰り返すことはないが、韻を踏むことは多い」というものがある。実際、技術計算への参入障壁が低下した過去を振り返ると、大手の老舗企業は眉をひそめる傾向にある。