
企業 AI 資料中心建置研究 (二):從 DGX 到 SuperPOD,Scale-up 與 Scale-out 的架構差異
此篇文章探討企業在擴張 AI 算力時面臨的物理限制。解析單一伺服器內的 NVLink (Scale-up) 與伺服器間的 InfiniBand/RoCE (Scale-out) 差異,釐清購買 8 張 GPU 與 64 張 GPU 的底層網路架構挑戰。
WRITTEN BY

- Name
- Harry Chang
一、 背景與核心發現
在確立了「AI 工廠」的思維後(參見 【AI 036】),許多企業會遇到下一個採購與架構難題:「如果一台伺服器裝 8 張 GPU 跑得很快,那我直接買 8 台一樣的伺服器,是不是就能獲得 64 張 GPU 的線性算力?」
此篇文章的核心發現為:AI 算力的擴張絕非簡單的硬體堆疊。 在 AI 運算領域,存在著兩套完全不同的網路物理法則。伺服器「內部」的通訊與伺服器「之間」的通訊,兩者速度落差高達十倍以上。如果企業沒有正確規劃 Scale-up(向上擴展) 與 Scale-out(向外擴展) 的網路架構,花費重金採購的數十張 GPU 將淪為一盤散沙,甚至發生「買了 64 張卡,卻只跑出 16 張卡效能」的慘況。
二、 伺服器內的極速狂飆:Scale-up (向上擴展)
Scale-up 的定義:在「單一實體機箱(節點)」內,盡可能塞入更多的運算資源,並讓它們共享記憶體。
以 NVIDIA 最經典的 DGX H100 為例,這是一台標準的 Scale-up 怪物。一個機箱內包含了 8 張 H100 GPU。為了讓這 8 張卡在訓練時能宛如「一顆超級 GPU」般運作,NVIDIA 開發了專屬的硬體通道:
- NVLink 與 NVSwitch:這就像是直接焊在主機板上的極速高鐵。在這台伺服器內部,這 8 張 GPU 互相傳遞資料的速度高達 900 GB/s。
- 優勢:開發者不需要處理複雜的分散式運算邏輯,只要模型能塞進這 8 張 GPU 的記憶體(例如 8 x 80GB = 640GB 總顯存),硬體就會自動以極致效率完成運算。
三、 伺服器間的無形橋樑:Scale-out (向外擴展)
當你的模型太大(例如高達數千億參數的 LLM),或是訓練資料量太多,單一台 8 卡伺服器裝不下時,企業就必須跨出機箱,購買第 2 台、第 10 台伺服器,這就進入了 Scale-out 的領域。
Scale-out 的定義:將多個獨立的伺服器節點,透過外部網路線與交換機連接起來,組成一個大叢集(Cluster)。
這正是所有災難與預算超支的起點。一旦跨出伺服器機箱,GPU 之間的溝通就無法使用那條 900 GB/s 的 NVLink 高鐵,而必須改走外部的網路線(如 InfiniBand 或 乙太網路)。
- 斷崖式的頻寬落差:目前頂規的 ConnectX-7 網卡,單個連接埠的頻寬大約是 400 Gb/s(換算大約只有 50 GB/s)。也就是說,「跨伺服器」的通訊速度,比「伺服器內部」慢了將近 18 倍。
- 無阻塞脊葉架構 (Spine-Leaf):為了解決這個嚴重的瓶頸,AI 資料中心在做 Scale-out 時,必須設計極其複雜的兩層式或三層式交換機架構(如 NVIDIA SuperPOD 的設計),確保任何一台伺服器的 GPU,在跟另一台伺服器的 GPU 講話時,中間的交換機不會塞車。
圖解:Scale-up 與 Scale-out 的網路拓撲
既然 Scale-out 這麼慢,這個問題有解嗎?
看到這裡你一定會問:「既然跨伺服器只有 50 GB/s,那算力擴張不就等於白搭?這個問題能解決嗎?」
嚴格來說,物理極限無法突破,跨伺服器永遠比伺服器內部慢。但 AI 巨頭們透過「軟硬體結合」的策略,巧妙地把這個瓶頸隱藏了起來:
- 硬體解法:軌道最佳化拓撲 (Rail-Optimized Topology) NVIDIA 在 SuperPOD 中設計了一種極其聰明的實體走線方式。你可能會疑惑:為什麼圖中「伺服器 A 的 GPU 1」跟「伺服器 B 的 GPU 1」要被分為同一組(走同一條軌道)?
- 平行的同儕 (Ranks):在進行資料平行 (Data Parallelism) 時,不同伺服器上的「第 1 張 GPU」通常負責處理「同一個模型切片」。當訓練告一段落需要「對答案(同步梯度)」時,它們之間是最常需要大量溝通的。
- 減少跳轉 (One-Hop):如果網路線隨便亂插,A 伺服器的 GPU 1 要找 B 伺服器的 GPU 1 時,資料可能要繞路經過三台交換機(Leaf -> Spine -> Leaf)。透過軌道最佳化,我們讓**「全機房所有的 GPU 1,全都統一插在同一台專屬交換機上」**。這樣一來,這群負責相同任務的 GPU 只要「跳轉一次 (One-hop)」就能彼此交換資料,將延遲壓到物理極限的最底層。(至於硬體如何聰明地分配這些任務?這就要歸功於下一篇會談到的底層通訊軟體 NCCL)。
- 軟體解法:3D 平行化策略 (3D Parallelism) 既然外部網路比較慢,那就把「不需要頻繁傳輸」的工作丟給外部網路。AI 科學家發明了將運算切分的技術:
- 張量平行 (Tensor Parallelism, TP):需要瘋狂交換資料,所以強制限制在單一伺服器內,獨享 NVLink 的 900 GB/s 極速。
- 資料平行 (Data Parallelism, DP) 與管線平行 (Pipeline Parallelism, PP):資料交換頻率與資料量較低,才允許跨伺服器透過 InfiniBand (50 GB/s) 來傳輸。
圖解:軌道最佳化 (Rail-Optimized) 與 3D 平行化
請看下方架構圖。你可以看到伺服器 A 的 GPU 1 只會連到專屬的「交換機 1」,完全不跟 GPU 2 的外網打架(紅色軌道與藍色軌道完全獨立);而需要瘋狂傳輸的高頻率運算 (TP),則被死死鎖在伺服器內部的 NVLink 捷徑上。
總結來說,透過「軌道最佳化」的硬體實體走線,加上「把對的工作,放到對的網路」的軟體分配策略,Scale-out 的外部網路雖然慢,但只要不被拿來跑高頻率的任務,叢集整體算力依然可以做到近乎完美的線性成長。
四、 企業行動建議 (Action Items)
理解了 Scale-up 與 Scale-out 的懸殊物理差異後,企業在採購 AI 算力時應採取以下策略:
- 釐清業務需求,避免無效的 Scale-out 採購:
- 推論 (Inference) 或小型微調 (如 RAG):這類任務通常可以塞進單一伺服器的 1 到 4 張卡。企業只需要採購單台伺服器(走 Scale-up 內網),不需要購買昂貴的 InfiniBand 網路交換機與專屬網卡。
- 大型分散式訓練 (Pre-training / Distributed Fine-tuning):必須購買數台甚至數十台伺服器。此時,外部網路架構的設計費用(Scale-out),必須被視為與 GPU 同等重要的核心專案。
- 理解 SuperPOD 等級架構的價值: 當硬體廠商在推廣「一整櫃」或 DGX SuperPOD 等級的參考架構時,他們賣的其實不只是「幾十台伺服器」,而是賣你「一套已經驗證過、保證不會塞車的 Scale-out 網路走線圖」。這也是為何大型 AI 叢集絕對不鼓勵企業 IT 部門「自己去光華商場買線亂接」的原因。
- 預留網路協議的決策時間: 實體硬體架構敲定後,最讓 IT 部門頭痛的就是「底層網路協定」的選擇。究竟是要花天價購買保證不掉封包的 InfiniBand 網路?還是要省下預算,讓網管團隊挑戰高難度的 RoCEv2 乙太網路調校?這個決策將直接決定叢集上線後的效能與穩定度。
延伸探討: 買了 64 張 GPU,實體線路也都接對了,但為什麼整體速度依然無法等比例增加?在釐清了硬體 Scale-out 的拓撲後,下一篇文章 【AI 038】 將深入協定層,為你解析 AI 網路的大亂鬥:InfiniBand、RoCEv2,以及扮演叢集交通警察角色的 NCCL 底層邏輯。