企業 AI 資料中心建置研究 (十一) 番外篇:迎擊 Agentic AI 浪潮 —— NVIDIA Vera Rubin 架構解析

企業 AI 資料中心建置研究 (十一) 番外篇:迎擊 Agentic AI 浪潮 —— NVIDIA Vera Rubin 架構解析

作為本系列的特別收錄篇,本文將解析 NVIDIA 最新量產的 Vera Rubin 架構。探討它如何透過 HBM4 與 Rubin CPX 技術,將推論成本砍下 10 倍,並對企業機房發出最終的「液冷通牒」。


一、 背景與核心發現


📌【企業 AI 資料中心建置研究】系列文章總覽


在前面十篇文章中,我們建立了一座足以應付當前需求的企業級 AI 資料中心。然而,AI 硬體的推進速度是無情的。在 2026 年初,NVIDIA 正式公開了接替 Blackwell 的最新一代高效能架構 —— Vera Rubin (簡稱 Rubin 架構),並已於 2026 年中正式進入量產交付期。

此篇文章的核心發現為:Rubin 架構的誕生,象徵著 AI 已經從「生成式 (Generative AI)」正式跨入「代理式 (Agentic AI)」時代。 過去的 AI 只是個會聊天的圖書館員;而未來的 AI 代理 (AI Agent) 是一個會自己拆解任務、上網查資料、使用工具並多步推理的虛擬員工。為了滿足這種高頻繁、長上下文 (Long Context) 的運算,Rubin 在記憶體頻寬與推論架構上做出了重大的架構更新。

二、 前情提要:Blackwell 架構奠基

在探討 Vera Rubin 架構之前,我們必須先了解作為其基礎的 NVIDIA Blackwell 架構。Blackwell 是「生成式 AI (Generative AI) 時代的形態」,它解決了上一代 Hopper 架構在訓練兆級參數模型時遇到的算力與通訊瓶頸。

1. 雙裸晶設計與 NV-HBI

為了突破單一晶片製造極限 (Reticle Limit),Blackwell 將兩顆大型的 GPU 裸晶 (Die) 封裝在一起。透過自研的 NV-HBI (High Bandwidth Interface) 以 10 TB/s 的高頻寬連接,讓系統將其視為「單一顆超大型 GPU」。

Loading Diagram...

2. GB200 NVL72 系統架構

Blackwell 世代的產品是 GB200 NVL72 機櫃。透過銅纜背板與第五代 NVLink,將 72 顆 GPU 整合為一台大型運算叢集,這奠定了後續 Rubin 架構邁向全液冷設計的基礎。

Loading Diagram...

理解了 Blackwell 在「單一模型訓練與生成」上的效能突破後,我們更能體會 Rubin 架構針對 Agentic AI (長上下文、頻繁推理) 所做的關鍵設計變更。

三、 核心架構升級:為 Agentic AI 而生

Rubin 架構不是單一顆 GPU,而是一個「全端機櫃級 (Rack-scale)」的運算平台,包含了六大核心晶片。其中最關鍵的升級有兩項:

1. Vera CPU + Rubin GPU 的架構搭配

在 Agentic AI 的運作中,AI 必須頻繁地在「邏輯推理」與「外部工具呼叫 (如查 SQL 資料庫)」之間來回切換。

  • NVIDIA 這次推出了高達 88 核心的自研 Vera CPU。它被設計來與 Rubin GPU 緊密耦合,有效解決過去使用傳統 x86 CPU 時,資料搬運所產生的延遲瓶頸。
Loading Diagram...

2. 跨入 HBM4 (第四代高頻寬記憶體) 時代

我們在 【AI 042】 提過,推論與 RAG 階段相當缺乏顯示記憶體 (VRAM)。

  • Rubin GPU 是業界首批採用 HBM4 的晶片。這不僅讓記憶體容量大幅提升,更讓頻寬得到了顯著增長。這意味著企業可以把龐大的公司規章、甚至整套系統的程式碼,一口氣塞進模型的記憶體中,讓 AI 代理進行深度推理。

四、 首創 Rubin CPX:將推論成本再砍 10 倍

這是 Rubin 帶給企業界的重要技術優勢。

隨著 AI 代理在企業中普及,每天產生的 API 推論量將是天文數字。為了降低推論成本,NVIDIA 針對推論場景推出了特殊的 Rubin CPX 架構

在傳統架構下,大語言模型的推論分為兩個階段,通常在同一張 GPU 上處理:

  1. Prefill (預填/讀題):閱讀使用者丟進來的長文件。這高度消耗運算力 (Compute-bound)。
  2. Decode (解碼/作答):逐字生成答案。這高度消耗記憶體頻寬 (Memory-bound)。

Rubin CPX 在硬體層面「解耦 (Disaggregate)」了這兩個階段。 它讓叢集內一部分的晶片專門負責「讀題」,另一部分專門負責「作答」,然後透過高速的 NVLink 6 網路在晶片間傳遞狀態。NVIDIA 指出,這種分工方式可以讓長上下文的推論成本 (Per Token Cost) 顯著下降

Loading Diagram...

氣冷機房面臨的挑戰

一台標準的 NVIDIA Vera Rubin NVL72 機櫃 (將 72 顆 GPU 透過 NVLink 整合為單一系統),其功耗密度達到了相當高的水平。

  • 它已經突破了 120kW 的門檻。
  • 這意味著,如果你在 【AI 040】 中沒有及早規劃,依然固守傳統的氣冷空調機房,那麼在部署 Rubin 時將會面臨困難。因為原廠的設計在初期就要求搭配 DLC 直接液冷與 CDU 水冷分配單元。