企業 AI 資料中心建置研究 (十一) 番外篇：迎擊 Agentic AI 浪潮 —— NVIDIA Vera Rubin 架構解析

一、背景與核心發現

📌【企業 AI 資料中心建置研究】系列文章總覽

架構與藍圖：【AI 036】傳統機房 vs AI 工廠｜【AI 043】全端架構藍圖
硬體與網路：【AI 037】Scale-up/out ｜【AI 038】網路大亂鬥｜【AI 039】儲存架構｜【AI 040】電力與液冷
軟體與調度：【AI 041】軟體大腦 (K8s/Slurm/Ray)
財務與實戰：【AI 042】算力需求估算｜【AI 044】部署模式決策｜【AI 045】專案上線實戰
未來趨勢篇：【AI 046】迎擊 Agentic AI 與 Rubin 架構

在前面十篇文章中，我們建立了一座足以應付當前需求的企業級 AI 資料中心。然而，AI 硬體的推進速度是無情的。在 2026 年初，NVIDIA 正式公開了接替 Blackwell 的最新一代高效能架構 —— Vera Rubin (簡稱 Rubin 架構)，並已於 2026 年中正式進入量產交付期。

此篇文章的核心發現為：Rubin 架構的誕生，象徵著 AI 已經從「生成式 (Generative AI)」正式跨入「代理式 (Agentic AI)」時代。 過去的 AI 只是個會聊天的圖書館員；而未來的 AI 代理 (AI Agent) 是一個會自己拆解任務、上網查資料、使用工具並多步推理的虛擬員工。為了滿足這種高頻繁、長上下文 (Long Context) 的運算，Rubin 在記憶體頻寬與推論架構上做出了重大的架構更新。

一、背景與核心發現
二、前情提要：Blackwell 架構奠基
- 1. 雙裸晶設計與 NV-HBI
- 2. GB200 NVL72 系統架構
三、核心架構升級：為 Agentic AI 而生
- 1. Vera CPU + Rubin GPU 的架構搭配
- 2. 跨入 HBM4 (第四代高頻寬記憶體) 時代
四、首創 Rubin CPX：將推論成本再砍 10 倍
- 氣冷機房面臨的挑戰

二、前情提要：Blackwell 架構奠基

在探討 Vera Rubin 架構之前，我們必須先了解作為其基礎的 NVIDIA Blackwell 架構。Blackwell 是「生成式 AI (Generative AI) 時代的形態」，它解決了上一代 Hopper 架構在訓練兆級參數模型時遇到的算力與通訊瓶頸。

1. 雙裸晶設計與 NV-HBI

為了突破單一晶片製造極限 (Reticle Limit)，Blackwell 將兩顆大型的 GPU 裸晶 (Die) 封裝在一起。透過自研的 NV-HBI (High Bandwidth Interface) 以 10 TB/s 的高頻寬連接，讓系統將其視為「單一顆超大型 GPU」。

Loading Diagram...

2. GB200 NVL72 系統架構

Blackwell 世代的產品是 GB200 NVL72 機櫃。透過銅纜背板與第五代 NVLink，將 72 顆 GPU 整合為一台大型運算叢集，這奠定了後續 Rubin 架構邁向全液冷設計的基礎。

Loading Diagram...

理解了 Blackwell 在「單一模型訓練與生成」上的效能突破後，我們更能體會 Rubin 架構針對 Agentic AI (長上下文、頻繁推理) 所做的關鍵設計變更。

三、核心架構升級：為 Agentic AI 而生

Rubin 架構不是單一顆 GPU，而是一個「全端機櫃級 (Rack-scale)」的運算平台，包含了六大核心晶片。其中最關鍵的升級有兩項：

1. Vera CPU + Rubin GPU 的架構搭配

在 Agentic AI 的運作中，AI 必須頻繁地在「邏輯推理」與「外部工具呼叫 (如查 SQL 資料庫)」之間來回切換。

NVIDIA 這次推出了高達 88 核心的自研 Vera CPU。它被設計來與 Rubin GPU 緊密耦合，有效解決過去使用傳統 x86 CPU 時，資料搬運所產生的延遲瓶頸。

Loading Diagram...

2. 跨入 HBM4 (第四代高頻寬記憶體) 時代

我們在【AI 042】提過，推論與 RAG 階段相當缺乏顯示記憶體 (VRAM)。

Rubin GPU 是業界首批採用 HBM4 的晶片。這不僅讓記憶體容量大幅提升，更讓頻寬得到了顯著增長。這意味著企業可以把龐大的公司規章、甚至整套系統的程式碼，一口氣塞進模型的記憶體中，讓 AI 代理進行深度推理。

四、首創 Rubin CPX：將推論成本再砍 10 倍

這是 Rubin 帶給企業界的重要技術優勢。

隨著 AI 代理在企業中普及，每天產生的 API 推論量將是天文數字。為了降低推論成本，NVIDIA 針對推論場景推出了特殊的 Rubin CPX 架構。

在傳統架構下，大語言模型的推論分為兩個階段，通常在同一張 GPU 上處理：

Prefill (預填/讀題)：閱讀使用者丟進來的長文件。這高度消耗運算力 (Compute-bound)。
Decode (解碼/作答)：逐字生成答案。這高度消耗記憶體頻寬 (Memory-bound)。

Rubin CPX 在硬體層面「解耦 (Disaggregate)」了這兩個階段。 它讓叢集內一部分的晶片專門負責「讀題」，另一部分專門負責「作答」，然後透過高速的 NVLink 6 網路在晶片間傳遞狀態。NVIDIA 指出，這種分工方式可以讓長上下文的推論成本 (Per Token Cost) 顯著下降。

Loading Diagram...

氣冷機房面臨的挑戰

一台標準的 NVIDIA Vera Rubin NVL72 機櫃 (將 72 顆 GPU 透過 NVLink 整合為單一系統)，其功耗密度達到了相當高的水平。

它已經突破了 120kW 的門檻。
這意味著，如果你在【AI 040】中沒有及早規劃，依然固守傳統的氣冷空調機房，那麼在部署 Rubin 時將會面臨困難。因為原廠的設計在初期就要求搭配 DLC 直接液冷與 CDU 水冷分配單元。

View on GitHub

企業 AI 資料中心建置研究 (十一) 番外篇：迎擊 Agentic AI 浪潮 —— NVIDIA Vera Rubin 架構解析

Topics

WRITTEN BY

上一篇

下一篇

一、背景與核心發現

二、前情提要：Blackwell 架構奠基

1. 雙裸晶設計與 NV-HBI

2. GB200 NVL72 系統架構

三、核心架構升級：為 Agentic AI 而生

1. Vera CPU + Rubin GPU 的架構搭配

2. 跨入 HBM4 (第四代高頻寬記憶體) 時代

四、首創 Rubin CPX：將推論成本再砍 10 倍

氣冷機房面臨的挑戰

企業 AI 資料中心建置研究 (十一) 番外篇：迎擊 Agentic AI 浪潮 —— NVIDIA Vera Rubin 架構解析

Topics

WRITTEN BY

上一篇

下一篇

一、 背景與核心發現

二、 前情提要：Blackwell 架構奠基

1. 雙裸晶設計與 NV-HBI

2. GB200 NVL72 系統架構

三、 核心架構升級：為 Agentic AI 而生

1. Vera CPU + Rubin GPU 的架構搭配

2. 跨入 HBM4 (第四代高頻寬記憶體) 時代

四、 首創 Rubin CPX：將推論成本再砍 10 倍

氣冷機房面臨的挑戰

一、背景與核心發現

二、前情提要：Blackwell 架構奠基

三、核心架構升級：為 Agentic AI 而生

四、首創 Rubin CPX：將推論成本再砍 10 倍