
企業 AI 資料中心建置研究 (十一) 番外篇:迎擊 Agentic AI 浪潮 —— NVIDIA Vera Rubin 架構解析
作為本系列的特別收錄篇,本文將解析 NVIDIA 最新量產的 Vera Rubin 架構。探討它如何透過 HBM4 與 Rubin CPX 技術,將推論成本砍下 10 倍,並對企業機房發出最終的「液冷通牒」。
WRITTEN BY

- Name
- Harry Chang
一、 背景與核心發現
📌【企業 AI 資料中心建置研究】系列文章總覽
- 架構與藍圖:【AI 036】傳統機房 vs AI 工廠 | 【AI 043】全端架構藍圖
- 硬體與網路:【AI 037】Scale-up/out | 【AI 038】網路大亂鬥 | 【AI 039】儲存架構 | 【AI 040】電力與液冷
- 軟體與調度:【AI 041】軟體大腦 (K8s/Slurm/Ray)
- 財務與實戰:【AI 042】算力需求估算 | 【AI 044】部署模式決策 | 【AI 045】專案上線實戰
- 未來趨勢篇:【AI 046】迎擊 Agentic AI 與 Rubin 架構
在前面十篇文章中,我們建立了一座足以應付當前需求的企業級 AI 資料中心。然而,AI 硬體的推進速度是無情的。在 2026 年初,NVIDIA 正式公開了接替 Blackwell 的最新一代高效能架構 —— Vera Rubin (簡稱 Rubin 架構),並已於 2026 年中正式進入量產交付期。
此篇文章的核心發現為:Rubin 架構的誕生,象徵著 AI 已經從「生成式 (Generative AI)」正式跨入「代理式 (Agentic AI)」時代。 過去的 AI 只是個會聊天的圖書館員;而未來的 AI 代理 (AI Agent) 是一個會自己拆解任務、上網查資料、使用工具並多步推理的虛擬員工。為了滿足這種高頻繁、長上下文 (Long Context) 的運算,Rubin 在記憶體頻寬與推論架構上做出了重大的架構更新。
二、 前情提要:Blackwell 架構奠基
在探討 Vera Rubin 架構之前,我們必須先了解作為其基礎的 NVIDIA Blackwell 架構。Blackwell 是「生成式 AI (Generative AI) 時代的形態」,它解決了上一代 Hopper 架構在訓練兆級參數模型時遇到的算力與通訊瓶頸。
1. 雙裸晶設計與 NV-HBI
為了突破單一晶片製造極限 (Reticle Limit),Blackwell 將兩顆大型的 GPU 裸晶 (Die) 封裝在一起。透過自研的 NV-HBI (High Bandwidth Interface) 以 10 TB/s 的高頻寬連接,讓系統將其視為「單一顆超大型 GPU」。
2. GB200 NVL72 系統架構
Blackwell 世代的產品是 GB200 NVL72 機櫃。透過銅纜背板與第五代 NVLink,將 72 顆 GPU 整合為一台大型運算叢集,這奠定了後續 Rubin 架構邁向全液冷設計的基礎。
理解了 Blackwell 在「單一模型訓練與生成」上的效能突破後,我們更能體會 Rubin 架構針對 Agentic AI (長上下文、頻繁推理) 所做的關鍵設計變更。
三、 核心架構升級:為 Agentic AI 而生
Rubin 架構不是單一顆 GPU,而是一個「全端機櫃級 (Rack-scale)」的運算平台,包含了六大核心晶片。其中最關鍵的升級有兩項:
1. Vera CPU + Rubin GPU 的架構搭配
在 Agentic AI 的運作中,AI 必須頻繁地在「邏輯推理」與「外部工具呼叫 (如查 SQL 資料庫)」之間來回切換。
- NVIDIA 這次推出了高達 88 核心的自研 Vera CPU。它被設計來與 Rubin GPU 緊密耦合,有效解決過去使用傳統 x86 CPU 時,資料搬運所產生的延遲瓶頸。
2. 跨入 HBM4 (第四代高頻寬記憶體) 時代
我們在 【AI 042】 提過,推論與 RAG 階段相當缺乏顯示記憶體 (VRAM)。
- Rubin GPU 是業界首批採用 HBM4 的晶片。這不僅讓記憶體容量大幅提升,更讓頻寬得到了顯著增長。這意味著企業可以把龐大的公司規章、甚至整套系統的程式碼,一口氣塞進模型的記憶體中,讓 AI 代理進行深度推理。
四、 首創 Rubin CPX:將推論成本再砍 10 倍
這是 Rubin 帶給企業界的重要技術優勢。
隨著 AI 代理在企業中普及,每天產生的 API 推論量將是天文數字。為了降低推論成本,NVIDIA 針對推論場景推出了特殊的 Rubin CPX 架構。
在傳統架構下,大語言模型的推論分為兩個階段,通常在同一張 GPU 上處理:
- Prefill (預填/讀題):閱讀使用者丟進來的長文件。這高度消耗運算力 (Compute-bound)。
- Decode (解碼/作答):逐字生成答案。這高度消耗記憶體頻寬 (Memory-bound)。
Rubin CPX 在硬體層面「解耦 (Disaggregate)」了這兩個階段。 它讓叢集內一部分的晶片專門負責「讀題」,另一部分專門負責「作答」,然後透過高速的 NVLink 6 網路在晶片間傳遞狀態。NVIDIA 指出,這種分工方式可以讓長上下文的推論成本 (Per Token Cost) 顯著下降。
氣冷機房面臨的挑戰
一台標準的 NVIDIA Vera Rubin NVL72 機櫃 (將 72 顆 GPU 透過 NVLink 整合為單一系統),其功耗密度達到了相當高的水平。
- 它已經突破了 120kW 的門檻。
- 這意味著,如果你在 【AI 040】 中沒有及早規劃,依然固守傳統的氣冷空調機房,那麼在部署 Rubin 時將會面臨困難。因為原廠的設計在初期就要求搭配 DLC 直接液冷與 CDU 水冷分配單元。