AI時代の真のボトルネックはGPUではなく送電網である 韓国の26万台GPU計画と日本の電力認識の差異を中心に AIインフラ競争を語るとき、私たちは通常、まずGPUの数量に注目する。どの国がNVIDIAのGPUを何枚確保したか、どの企業がBlackwellをどれだけ導入するか、何EFLOPS規模のAIスーパーコンピューターを構築するかがニュースの中心になる。 しかし、最近の状況を見ると、本当のボトルネックはGPU自体ではないかもしれない。GPUを確保しても、それを装着するデータセンター、そのデータセンターに供給する電力、そしてその電力を実際の場所まで送る送電網が準備されていなければ、GPUを稼働させることはできない。 韓国がNVIDIAから26万台以上の規模のGPUインフラを確保することに合意したという発表は、この問題を非常に鮮明に示している。NVIDIAの公式発表によると、韓国政府、サムスン電子、SKグループ、現代自動車グループ、NAVER Cloudなどが合わせて25万台を超えるNVIDIA GPUインフラを構築する予定である。具体的には、政府とクラウド事業者に5万台以上、サムスン電子に5万台以上、SKグループに5万台以上、現代自動車グループに5万台、NAVER Cloudに6万台以上という構成が提示されている。 この数字は、韓国のAI産業にとって非常に大きなチャンスである。しかし同時に、疑問も生じる。 「このGPUを、実際にどこで、どのような電力で、何年以内に稼働させることができるのか?」 26万台のGPUは単なるサーバーの購入ではない 26万台という数字は、単にサーバー室に機器を追加するレベルではない。BlackwellクラスのGPUは1枚あたりの消費電力が非常に大きく、これをラック単位でまとめると、従来のデータセンターとは異なる電力密度を要求される。 NVIDIAの最新GPUラックの電力使用量は、2020年代初頭の数十kW水準から、2025年には100kWを超える水準へと上昇しており、将来的には数百kWクラスのラックも現実的な範囲に入ってきている。韓国電力公社(KEPCO)の関係者もAIデータセンターの電力密度上昇を指摘し、今後は単一のデータセンターが原発1基分(約1GW)の電力を使用する時代が遠くないと言及した。 26万台全体を単純...
AWS RNGとNVIDIA CPO比較分析 – AIデータセンターネットワークの未来はどこに向かっているのか? 最近AWSが発表した**RNG (Resilient Network Graphs) とNVIDIAが発表した CPO (Co-Packaged Optics)**は、どちらもAI時代の超大型データセンターを支える重要技術として大きな注目を集めています。 興味深いのは、両技術ともに「AIクラスターのネットワーク問題」の解決を目指していながら、実際にはまったく異なるレイヤーの課題に取り組んでいる点です。多くのメディアではRNGとCPOを競合技術のように紹介していますが、エンジニアの視点から見ると、これらは競合関係ではなく相互に補完し合う関係に近いと言えます。 本記事では、ネットワークアーキテクト、DBRE、SRE、インフラエンジニアの視点から、これら2つの革新的な技術を詳しく比較分析します。 AI時代においてネットワークが極めて重要になった理由 従来のウェブサービスやエンタープライズ環境では、CPUやストレージが主なボトルネックになることが一般的でした。しかし、LLM(大規模言語モデル)の学習環境では状況が180度異なります。 GPT、Gemini、Claudeなどのモデルを学習させるには、数千から数万台のGPUを同時に稼働させる必要があります。実際の学習プロセスは以下のように繰り返されます。 GPU演算 ➔ GPU間データ共有 ➔ GPU演算 ➔ GPU間データ共有 モデルの規模が肥大化するにつれ、GPU単体の演算能力よりも、GPU同士を繋ぐ通信能力がシステム全体のパフォーマンスを決定づけるようになります。これは一般に East-Westトラフィック 問題と呼ばれています。AIデータセンターが解決すべき核心的な課題は以下の通りです。 より多くのGPUの相互接続(拡張性) より低いネットワーク遅延(レイテンシ) より高いネットワークスループット(帯域幅) より低い消費電力(省電力化) AWSとNVIDIAは、それぞれ異なるレイヤーからこの課題にアプローチしています。 AWS RNG (Resilient Network Graphs) AWSが選択したアプローチは、トポロジー(接続構造)の革新です。従来のデータセンタ...