
企業 AI 資料中心建置研究 (三):網路路線抉擇 —— InfiniBand、RoCEv2 與 NCCL 的底層邏輯
此篇文章探討為什麼企業買了 1,000 張 GPU,卻跑不出 1,000 倍的速度。深入解析 AI 網路的黃金標準 InfiniBand、挑戰者 RoCEv2,以及背後的軟體大總管 NCCL。
WRITTEN BY

- Name
- Harry Chang
一、 背景與核心發現
在 【AI 037】 中,我們探討了「Scale-up (節點內)」與「Scale-out (節點間)」的巨大物理落差。許多企業在跨出單一機箱、建置大型叢集時,會面臨一個非常痛苦的現象:「算力擴展的衰減 (Diminishing Returns)」。
明明買了 8 張 GPU 有 8 倍速度,為什麼買了 1,024 張 GPU,速度卻只剩下 500 倍?
此篇文章的核心發現為:消失的算力,全部都消耗在「等待網路傳輸」上。 大語言模型訓練高度依賴同步通訊(All-Reduce),這要求網路必須達到「極低延遲」與「零丟包」。在企業 AI 網路的建置上,目前存在著兩條壁壘分明的技術路線:昂貴但完美的 InfiniBand,以及便宜但考驗技術的 RoCEv2 (無損乙太網路)。
- 一、 背景與核心發現
- 二、 掉封包的災難:為什麼不能用傳統網路?
- 三、 網路路線大亂鬥:InfiniBand vs RoCEv2
- 四、 軟體大總管:NCCL 的角色
- 五、 企業行動建議 (Action Items)
二、 掉封包的災難:為什麼不能用傳統網路?
在傳統的網頁伺服器或微服務架構中,網路斷線或「掉封包 (Packet Loss)」是家常便飯。TCP/IP 協定非常聰明,遇到掉封包時,它會自動降低速度並「重新傳送」。這在人類看網頁時,頂多就是多轉半秒鐘的圈圈,根本無傷大雅。
但在 AI 訓練中,掉封包是毀滅性的災難。
當 1,000 張 GPU 算完一個批次的資料,準備要互相對答案(同步梯度)時,只要有「其中 1 張」GPU 的封包在交換機塞車被丟掉了,那麼剩下的 999 張 GPU 就會全部停下來,發呆等待那 1 張 GPU 重新傳送資料。
這種「一顆老鼠屎壞了一鍋粥」的連鎖反應,被稱為長尾延遲 (Tail Latency)。只要網路的丟包率超過 0.1%,整個 AI 叢集的算力利用率 (MFU) 就會面臨斷崖式的暴跌。
三、 網路路線大亂鬥:InfiniBand vs RoCEv2
為了解決丟包問題,讓 GPU 可以發揮 100% 的實力,企業必須選擇下列兩種網路架構之一:
1. InfiniBand (IB):AI 網路的黃金標準
InfiniBand 是由 NVIDIA (併購 Mellanox 後) 主導的高速網路標準。它是專為超級電腦與 AI 設計的。
- 絕對不掉封包 (Credit-based Flow Control):IB 的底層物理設計跟一般網路不同。交換機在傳送資料前,會先確認對方有沒有「點數 (Credit,即緩衝區空間)」。如果對方滿了,它就絕對不會送出資料。這種設計從物理層面消滅了網路擁塞造成的掉封包。
- 優勢:極低延遲、設定相對簡單、效能最穩定。
- 劣勢:造價極度昂貴、技術封閉(幾乎被 NVIDIA 壟斷)、傳統 IT 團隊不熟悉。
2. RoCEv2:乙太網路的逆襲
RoCE (RDMA over Converged Ethernet) 是讓「便宜的傳統乙太網路」也能擁有高階 RDMA 直通能力的技術。
- 從「會掉包」改造成「無損 (Lossless)」:乙太網路天生是設計給「盡力而為 (Best-effort)」的場景。為了讓它不掉封包,網管工程師必須在 Cisco 或 Arista 交換機上,開啟複雜的 PFC (優先級流量控制) 與 ECN (顯式擁塞通知) 參數,強制把乙太網路調校成「無損網路」。
- 優勢:設備選擇多、成本較 IB 便宜 20%~40%、與既有資料中心網路相容。
- 劣勢:調校難度極高。一場微小的設定錯誤(例如 PFC 風暴),就會導致整個機房的網路徹底癱瘓。
四、 軟體大總管:NCCL 的角色
硬體網路鋪好之後,還必須搭配聰明的軟體來指揮交通,這就是 NCCL (NVIDIA Collective Communication Library)。
NCCL 就像是 AI 叢集的交通警察。當 PyTorch 說:「我要把模型參數同步給所有的 GPU」時,NCCL 會去偵測底層是 InfiniBand 還是 RoCE 網路,然後自動計算出「最佳的傳遞路線」(例如 Ring 拓撲或 Tree 拓撲)。
NCCL 的存在,讓資料科學家完全不需要懂硬體網路怎麼接線,只要專心寫 AI 模型即可;而硬體工程師則負責把底層的 InfiniBand / RoCE 網路頻寬榨到極限,NCCL 會自動把這兩端完美接合。
五、 企業行動建議 (Action Items)
在建置 AI 叢集時,對於網路基礎設施的採購,建議採取以下戰略:
- 無懸念的選擇:預算充足選 InfiniBand 如果你要建置超過數百張 GPU 的叢集,且公司沒有頂尖的網路架構師團隊,強烈建議直接採購 InfiniBand。這筆看似昂貴的網路開銷,能大幅減少後期除錯的痛苦,是標準的「花錢買平安」。
- 精打細算的選擇:技術硬底子選 RoCEv2 若公司預算有限,或者原本就有極強的 Cisco/Arista 網路工程團隊,可以選擇走 RoCEv2 路線。但請務必預留至少數週的「網路壓力測試與調校 (Tuning)」時間,確保 PFC/ECN 機制能完美觸發。
- 定期監控 MFU (模型算力利用率) 叢集上線後,IT 部門應與 AI 團隊合作,持續監控 MFU 指標。如果 GPU 利用率一直低於 40%,首要排查的重點絕對是:是不是網路發生了擁塞或丟包?
延伸探討: 網路不再塞車後,另一個嚴重的瓶頸會馬上浮現。當數千張 GPU 同時完成一個階段的訓練,準備將進度「存檔 (Checkpoint)」時,為什麼會讓公司千萬等級的 NAS 瞬間當機?下一篇文章 【AI 039】 將為你解析 AI 叢集最大的噩夢:存檔風暴與平行檔案系統。