世界のスーパーコンピュータとそれを動かす人々


3月 11, 2024

生成AIによるデータセンター・スクイーズが始まった

HPCwire Japan

Doug Eadline オリジナル記事 「The GenAI Data Center Squeeze Is Here

生成AI GPUスクイーズの直接的な影響は、直接購入またはクラウドアクセスのいずれかの可用性を低下させ、コストを増加させ、需要を一気に押し上げることだった。

ここ数年、二次的な問題が発生している。GPUが搭載されたラックをいくつ確保しても、その電源をどうするのか、どこに置くのか。

例えば、多くの大学は以前、キャンパス内のデータセンターに新しい機器を設置した。これらのデータセンターの多くは、現在「使い果たされ」、スペースも電力もない。現在の「GPUラック」の試算では、1ラックあたり50~100KW(キロワット)である(以前の「CPUラック」の試算では、1ラックあたり10~17KW)。GPUラックを4台並べたい場合、400KWの電力を供給できるデータセンターを見つけるのは難しいかもしれない。

HPCコロケーションサービスを提供する中小企業も同様だ。彼らは、現在のデータセンターが手狭になり、スペースと電力を探さなければならないことに気づいている。このような企業は、データセンター・キャンパス全体を立ち上げることができない非ハイパースケーラーである。

不動産投資・管理会社JLLの最新レポート「Data Centers 2024 Global Outlook」(同レポートはメールアドレスを入力することで入手可能)では、興味深いトレンドが紹介されている。同レポートは、グローバル経済の進化するニーズ、特にGPUを多用する生成AIクラスタに必要な電力増加を満たすために、データセンターがどのように設計、運用、調達される必要があるかを探っている。

AIによる成長は近い将来も続くと予想される。消費者と企業は今後5年間で、過去10年間に作成された全データの2倍のデータを生成すると予想されている。

GPUコンピューティングのニーズに加え、生成AIの需要の高まりにより、データセンターのストレージ容量は、2023年の10.1ゼタバイト(ZB)から2027年には21.0ゼタバイトに増加し、5年間の複合年間成長率は18.5%になると予想されている[1]。このようなストレージの増加は、より多くのデータセンターの必要性を生み出し、生成AIのより大きなエネルギー要件(キャンパスあたり300~500メガワット以上)も、よりエネルギー効率の高い設計とロケーションを必要とする。より多くの電力を必要とするため、データセンター事業者は効率を高め、地方自治体と協力してデータセンターのニーズを支える持続可能なエネルギー源を見つける必要がある。

報告書によると、AIに特化したデータセンターは従来の施設とは異なる様相を呈し、事業者は処理するデータの種類や生成AIの開発段階に応じて電力リソースの計画、設計、割り当てを行う必要があるかもしれない。熱除去に関しては、GPUの大幅な増加は現在の基準を上回るだろう。一般的なデータセンターでは、空冷が電力使用量の約40%を占めるのが普通だ。ユーザー、特にハイパースケーラーやオペレーターは、従来の空冷方式から液冷方式やリアドア式熱交換器に移行しつつある。ケーススタディによると、液冷は90%もの大幅な電力削減を実現する一方で、能力を向上させ、より高密度のシステムを可能にするため、ラックの電力使用量が増加することが示されている。

AIとハイパフォーマンス・コンピューティング(HPC)導入の最前線にいるハイパースケーラは、高密度インフラに対する最大のニーズを持っている(図参照)。現在、ハイパースケーラの大規模施設では、1ラックあたりの平均密度が36kWと推定されているが、液冷密度とGPUハードウェアの増加により、今後数年間で年平均成長率7.8%で成長し、2027年には1ラックあたり50kWに近づくとIDCは予測している[2]。

(出典:JLL:データセンター2024グローバルアウトルック)

 

HPCwireは、JLLの米国データセンター市場担当マネージング・ディレクター、アンディ・クヴェングロス氏とのインタビューで、データセンター展開が直面する多くの問題を学んだ。

彼が示唆する最初の、そして最も重要な問題は、計画である。例えば、クヴェングロス氏は、電力網が事実上枯渇しつつあり、変圧器のリードタイムが3年以上あるため、事業者はイノベーションを起こす必要があると述べた。

ハイパースケーラーがデータセンター・キャンパス全体を要求しているため、4〜5ラックの小規模なコロケーション展開ではデータセンターを見つけるのが難しくなるだろう。

クヴェングロス氏によると、主要都市圏は基本的にすべて埋まりつつあり、リノ(ネバダ州)やコロンバス(オハイオ州)のような二次的な地域が、データセンター新設の一等地となっている。需要は今後も続くと予想され、新しいデータセンターは3.5年先となる。同氏は、「計画が重要だ」と繰り返した。

同氏は、小規模なHPC GPUクラスタのコロケーション(すなわち、電力とスペースが完全に枯渇している大学)向けの高性能システムを専門とする会社と協力することを勧めている。彼の経験では、データセンタープロバイダーは、グローバルな機会に対して、利用状況と可用性を積極的に追跡しなければ、近い将来のコロケーション能力を提供することはできない。

データセンターの逼迫は世界的な問題である

JLLの報告書では、電力使用量の増加に対応するために世界中で必要とされる重要な変化も挙げている。

  • 欧州では、送電網インフラの3分の1が40年以上経過しており、EUのグリーン目標を達成するためには、2030年までに5,840億ユーロの投資が必要と見積もられている。
  • 米国では、送電網をアップグレードし、より多くの再生可能エネルギーを電力供給に投入するためのエネルギー転換目標を達成するには、推定2兆ドルが必要となる。
  • データセンターの急成長も、多くの国々で限られたエネルギー資源を圧迫している。例えばシンガポールでは、政府は新しいデータセンターの提案を慎重に検討し、国の持続可能性目標との整合性を確保するため、特定の地域での建設を一時的に停止するモラトリアムを制定した。

世界的な生成AIのエネルギー「要求」(または需要)は、データセンター部門にチャンスと課題をもたらしている。生成AIは過去にない規模の電力を必要としている。HPC用のGPUを見つけることは問題の半分でしかない。

[1] 2023年7月、IDC, Revelations in the Global StorageSphere

[2] 2023年7月、IDC #AP50326223、アジア太平洋地域(日本を除く)のDC導入モデルと支出予測、下半期:2022-20a27