企業 AI 資料中心建置研究 (二)：從 DGX 到 SuperPOD，Scale-up 與 Scale-out 的架構差異

一、背景與核心發現

在確立了「AI 工廠」的思維後（參見【AI 036】），許多企業會遇到下一個採購與架構難題：「如果一台伺服器裝 8 張 GPU 跑得很快，那我直接買 8 台一樣的伺服器，是不是就能獲得 64 張 GPU 的線性算力？」

此篇文章的核心發現為：AI 算力的擴張絕非簡單的硬體堆疊。 在 AI 運算領域，存在著兩套完全不同的網路物理法則。伺服器「內部」的通訊與伺服器「之間」的通訊，兩者速度落差高達十倍以上。如果企業沒有正確規劃 Scale-up（向上擴展） 與 Scale-out（向外擴展） 的網路架構，花費重金採購的數十張 GPU 將淪為一盤散沙，甚至發生「買了 64 張卡，卻只跑出 16 張卡效能」的慘況。

一、背景與核心發現
二、伺服器內的極速狂飆：Scale-up (向上擴展)
三、伺服器間的無形橋樑：Scale-out (向外擴展)
- 圖解：Scale-up 與 Scale-out 的網路拓撲
- 既然 Scale-out 這麼慢，這個問題有解嗎？
  - 圖解：軌道最佳化 (Rail-Optimized) 與 3D 平行化
四、企業行動建議 (Action Items)

二、伺服器內的極速狂飆：Scale-up (向上擴展)

Scale-up 的定義：在「單一實體機箱（節點）」內，盡可能塞入更多的運算資源，並讓它們共享記憶體。

以 NVIDIA 最經典的 DGX H100 為例，這是一台標準的 Scale-up 怪物。一個機箱內包含了 8 張 H100 GPU。為了讓這 8 張卡在訓練時能宛如「一顆超級 GPU」般運作，NVIDIA 開發了專屬的硬體通道：

NVLink 與 NVSwitch：這就像是直接焊在主機板上的極速高鐵。在這台伺服器內部，這 8 張 GPU 互相傳遞資料的速度高達 900 GB/s。
優勢：開發者不需要處理複雜的分散式運算邏輯，只要模型能塞進這 8 張 GPU 的記憶體（例如 8 x 80GB = 640GB 總顯存），硬體就會自動以極致效率完成運算。

三、伺服器間的無形橋樑：Scale-out (向外擴展)

當你的模型太大（例如高達數千億參數的 LLM），或是訓練資料量太多，單一台 8 卡伺服器裝不下時，企業就必須跨出機箱，購買第 2 台、第 10 台伺服器，這就進入了 Scale-out 的領域。

Scale-out 的定義：將多個獨立的伺服器節點，透過外部網路線與交換機連接起來，組成一個大叢集（Cluster）。

這正是所有災難與預算超支的起點。一旦跨出伺服器機箱，GPU 之間的溝通就無法使用那條 900 GB/s 的 NVLink 高鐵，而必須改走外部的網路線（如 InfiniBand 或乙太網路）。

斷崖式的頻寬落差：目前頂規的 ConnectX-7 網卡，單個連接埠的頻寬大約是 400 Gb/s（換算大約只有 50 GB/s）。也就是說，「跨伺服器」的通訊速度，比「伺服器內部」慢了將近 18 倍。
無阻塞脊葉架構 (Spine-Leaf)：為了解決這個嚴重的瓶頸，AI 資料中心在做 Scale-out 時，必須設計極其複雜的兩層式或三層式交換機架構（如 NVIDIA SuperPOD 的設計），確保任何一台伺服器的 GPU，在跟另一台伺服器的 GPU 講話時，中間的交換機不會塞車。

圖解：Scale-up 與 Scale-out 的網路拓撲

Loading Diagram...

既然 Scale-out 這麼慢，這個問題有解嗎？

看到這裡你一定會問：「既然跨伺服器只有 50 GB/s，那算力擴張不就等於白搭？這個問題能解決嗎？」

嚴格來說，物理極限無法突破，跨伺服器永遠比伺服器內部慢。但 AI 巨頭們透過「軟硬體結合」的策略，巧妙地把這個瓶頸隱藏了起來：

硬體解法：軌道最佳化拓撲 (Rail-Optimized Topology) NVIDIA 在 SuperPOD 中設計了一種極其聰明的實體走線方式。你可能會疑惑：為什麼圖中「伺服器 A 的 GPU 1」跟「伺服器 B 的 GPU 1」要被分為同一組（走同一條軌道）？
- 平行的同儕 (Ranks)：在進行資料平行 (Data Parallelism) 時，不同伺服器上的「第 1 張 GPU」通常負責處理「同一個模型切片」。當訓練告一段落需要「對答案（同步梯度）」時，它們之間是最常需要大量溝通的。
- 減少跳轉 (One-Hop)：如果網路線隨便亂插，A 伺服器的 GPU 1 要找 B 伺服器的 GPU 1 時，資料可能要繞路經過三台交換機（Leaf -> Spine -> Leaf）。透過軌道最佳化，我們讓**「全機房所有的 GPU 1，全都統一插在同一台專屬交換機上」**。這樣一來，這群負責相同任務的 GPU 只要「跳轉一次 (One-hop)」就能彼此交換資料，將延遲壓到物理極限的最底層。（至於硬體如何聰明地分配這些任務？這就要歸功於下一篇會談到的底層通訊軟體 NCCL）。
軟體解法：3D 平行化策略 (3D Parallelism) 既然外部網路比較慢，那就把「不需要頻繁傳輸」的工作丟給外部網路。AI 科學家發明了將運算切分的技術：
- 張量平行 (Tensor Parallelism, TP)：需要瘋狂交換資料，所以強制限制在單一伺服器內，獨享 NVLink 的 900 GB/s 極速。
- 資料平行 (Data Parallelism, DP) 與管線平行 (Pipeline Parallelism, PP)：資料交換頻率與資料量較低，才允許跨伺服器透過 InfiniBand (50 GB/s) 來傳輸。

圖解：軌道最佳化 (Rail-Optimized) 與 3D 平行化

請看下方架構圖。你可以看到伺服器 A 的 GPU 1 只會連到專屬的「交換機 1」，完全不跟 GPU 2 的外網打架（紅色軌道與藍色軌道完全獨立）；而需要瘋狂傳輸的高頻率運算 (TP)，則被死死鎖在伺服器內部的 NVLink 捷徑上。

Loading Diagram...

總結來說，透過「軌道最佳化」的硬體實體走線，加上「把對的工作，放到對的網路」的軟體分配策略，Scale-out 的外部網路雖然慢，但只要不被拿來跑高頻率的任務，叢集整體算力依然可以做到近乎完美的線性成長。

四、企業行動建議 (Action Items)

理解了 Scale-up 與 Scale-out 的懸殊物理差異後，企業在採購 AI 算力時應採取以下策略：

釐清業務需求，避免無效的 Scale-out 採購：
- 推論 (Inference) 或小型微調 (如 RAG)：這類任務通常可以塞進單一伺服器的 1 到 4 張卡。企業只需要採購單台伺服器（走 Scale-up 內網），不需要購買昂貴的 InfiniBand 網路交換機與專屬網卡。
- 大型分散式訓練 (Pre-training / Distributed Fine-tuning)：必須購買數台甚至數十台伺服器。此時，外部網路架構的設計費用（Scale-out），必須被視為與 GPU 同等重要的核心專案。
理解 SuperPOD 等級架構的價值：當硬體廠商在推廣「一整櫃」或 DGX SuperPOD 等級的參考架構時，他們賣的其實不只是「幾十台伺服器」，而是賣你「一套已經驗證過、保證不會塞車的 Scale-out 網路走線圖」。這也是為何大型 AI 叢集絕對不鼓勵企業 IT 部門「自己去光華商場買線亂接」的原因。
預留網路協議的決策時間：實體硬體架構敲定後，最讓 IT 部門頭痛的就是「底層網路協定」的選擇。究竟是要花天價購買保證不掉封包的 InfiniBand 網路？還是要省下預算，讓網管團隊挑戰高難度的 RoCEv2 乙太網路調校？這個決策將直接決定叢集上線後的效能與穩定度。

延伸探討：買了 64 張 GPU，實體線路也都接對了，但為什麼整體速度依然無法等比例增加？在釐清了硬體 Scale-out 的拓撲後，下一篇文章 【AI 038】 將深入協定層，為你解析 AI 網路的大亂鬥：InfiniBand、RoCEv2，以及扮演叢集交通警察角色的 NCCL 底層邏輯。

View on GitHub

企業 AI 資料中心建置研究 (二)：從 DGX 到 SuperPOD，Scale-up 與 Scale-out 的架構差異

Topics

WRITTEN BY

上一篇

下一篇

一、背景與核心發現

二、伺服器內的極速狂飆：Scale-up (向上擴展)

三、伺服器間的無形橋樑：Scale-out (向外擴展)

圖解：Scale-up 與 Scale-out 的網路拓撲

既然 Scale-out 這麼慢，這個問題有解嗎？

圖解：軌道最佳化 (Rail-Optimized) 與 3D 平行化

四、企業行動建議 (Action Items)

企業 AI 資料中心建置研究 (二)：從 DGX 到 SuperPOD，Scale-up 與 Scale-out 的架構差異

Topics

WRITTEN BY

上一篇

下一篇

一、 背景與核心發現

二、 伺服器內的極速狂飆：Scale-up (向上擴展)

三、 伺服器間的無形橋樑：Scale-out (向外擴展)

圖解：Scale-up 與 Scale-out 的網路拓撲

既然 Scale-out 這麼慢，這個問題有解嗎？

圖解：軌道最佳化 (Rail-Optimized) 與 3D 平行化

四、 企業行動建議 (Action Items)

一、背景與核心發現

二、伺服器內的極速狂飆：Scale-up (向上擴展)

三、伺服器間的無形橋樑：Scale-out (向外擴展)

四、企業行動建議 (Action Items)