企業 AI 資料中心建置研究 (三)：網路路線抉擇 —— InfiniBand、RoCEv2 與 NCCL 的底層邏輯

一、背景與核心發現

在【AI 037】中，我們探討了「Scale-up (節點內)」與「Scale-out (節點間)」的巨大物理落差。許多企業在跨出單一機箱、建置大型叢集時，會面臨一個非常痛苦的現象：「算力擴展的衰減 (Diminishing Returns)」。

明明買了 8 張 GPU 有 8 倍速度，為什麼買了 1,024 張 GPU，速度卻只剩下 500 倍？

此篇文章的核心發現為：消失的算力，全部都消耗在「等待網路傳輸」上。 大語言模型訓練高度依賴同步通訊（All-Reduce），這要求網路必須達到「極低延遲」與「零丟包」。在企業 AI 網路的建置上，目前存在著兩條壁壘分明的技術路線：昂貴但完美的 InfiniBand，以及便宜但考驗技術的 RoCEv2 (無損乙太網路)。

一、背景與核心發現
二、掉封包的災難：為什麼不能用傳統網路？
三、網路路線大亂鬥：InfiniBand vs RoCEv2
- 1. InfiniBand (IB)：AI 網路的黃金標準
- 2. RoCEv2：乙太網路的逆襲
四、軟體大總管：NCCL 的角色
五、企業行動建議 (Action Items)

二、掉封包的災難：為什麼不能用傳統網路？

在傳統的網頁伺服器或微服務架構中，網路斷線或「掉封包 (Packet Loss)」是家常便飯。TCP/IP 協定非常聰明，遇到掉封包時，它會自動降低速度並「重新傳送」。這在人類看網頁時，頂多就是多轉半秒鐘的圈圈，根本無傷大雅。

但在 AI 訓練中，掉封包是毀滅性的災難。

當 1,000 張 GPU 算完一個批次的資料，準備要互相對答案（同步梯度）時，只要有「其中 1 張」GPU 的封包在交換機塞車被丟掉了，那麼剩下的 999 張 GPU 就會全部停下來，發呆等待那 1 張 GPU 重新傳送資料。

這種「一顆老鼠屎壞了一鍋粥」的連鎖反應，被稱為長尾延遲 (Tail Latency)。只要網路的丟包率超過 0.1%，整個 AI 叢集的算力利用率 (MFU) 就會面臨斷崖式的暴跌。

三、網路路線大亂鬥：InfiniBand vs RoCEv2

為了解決丟包問題，讓 GPU 可以發揮 100% 的實力，企業必須選擇下列兩種網路架構之一：

1. InfiniBand (IB)：AI 網路的黃金標準

InfiniBand 是由 NVIDIA (併購 Mellanox 後) 主導的高速網路標準。它是專為超級電腦與 AI 設計的。

絕對不掉封包 (Credit-based Flow Control)：IB 的底層物理設計跟一般網路不同。交換機在傳送資料前，會先確認對方有沒有「點數 (Credit，即緩衝區空間)」。如果對方滿了，它就絕對不會送出資料。這種設計從物理層面消滅了網路擁塞造成的掉封包。
優勢：極低延遲、設定相對簡單、效能最穩定。
劣勢：造價極度昂貴、技術封閉（幾乎被 NVIDIA 壟斷）、傳統 IT 團隊不熟悉。

2. RoCEv2：乙太網路的逆襲

RoCE (RDMA over Converged Ethernet) 是讓「便宜的傳統乙太網路」也能擁有高階 RDMA 直通能力的技術。

從「會掉包」改造成「無損 (Lossless)」：乙太網路天生是設計給「盡力而為 (Best-effort)」的場景。為了讓它不掉封包，網管工程師必須在 Cisco 或 Arista 交換機上，開啟複雜的 PFC (優先級流量控制) 與 ECN (顯式擁塞通知) 參數，強制把乙太網路調校成「無損網路」。
優勢：設備選擇多、成本較 IB 便宜 20%~40%、與既有資料中心網路相容。
劣勢：調校難度極高。一場微小的設定錯誤（例如 PFC 風暴），就會導致整個機房的網路徹底癱瘓。

四、軟體大總管：NCCL 的角色

硬體網路鋪好之後，還必須搭配聰明的軟體來指揮交通，這就是 NCCL (NVIDIA Collective Communication Library)。

NCCL 就像是 AI 叢集的交通警察。當 PyTorch 說：「我要把模型參數同步給所有的 GPU」時，NCCL 會去偵測底層是 InfiniBand 還是 RoCE 網路，然後自動計算出「最佳的傳遞路線」（例如 Ring 拓撲或 Tree 拓撲）。

NCCL 的存在，讓資料科學家完全不需要懂硬體網路怎麼接線，只要專心寫 AI 模型即可；而硬體工程師則負責把底層的 InfiniBand / RoCE 網路頻寬榨到極限，NCCL 會自動把這兩端完美接合。

五、企業行動建議 (Action Items)

在建置 AI 叢集時，對於網路基礎設施的採購，建議採取以下戰略：

無懸念的選擇：預算充足選 InfiniBand 如果你要建置超過數百張 GPU 的叢集，且公司沒有頂尖的網路架構師團隊，強烈建議直接採購 InfiniBand。這筆看似昂貴的網路開銷，能大幅減少後期除錯的痛苦，是標準的「花錢買平安」。
精打細算的選擇：技術硬底子選 RoCEv2 若公司預算有限，或者原本就有極強的 Cisco/Arista 網路工程團隊，可以選擇走 RoCEv2 路線。但請務必預留至少數週的「網路壓力測試與調校 (Tuning)」時間，確保 PFC/ECN 機制能完美觸發。
定期監控 MFU (模型算力利用率) 叢集上線後，IT 部門應與 AI 團隊合作，持續監控 MFU 指標。如果 GPU 利用率一直低於 40%，首要排查的重點絕對是：是不是網路發生了擁塞或丟包？

延伸探討：網路不再塞車後，另一個嚴重的瓶頸會馬上浮現。當數千張 GPU 同時完成一個階段的訓練，準備將進度「存檔 (Checkpoint)」時，為什麼會讓公司千萬等級的 NAS 瞬間當機？下一篇文章 【AI 039】 將為你解析 AI 叢集最大的噩夢：存檔風暴與平行檔案系統。

View on GitHub

企業 AI 資料中心建置研究 (三)：網路路線抉擇 —— InfiniBand、RoCEv2 與 NCCL 的底層邏輯

Topics

WRITTEN BY

上一篇

下一篇

一、背景與核心發現

二、掉封包的災難：為什麼不能用傳統網路？

三、網路路線大亂鬥：InfiniBand vs RoCEv2

1. InfiniBand (IB)：AI 網路的黃金標準

2. RoCEv2：乙太網路的逆襲

四、軟體大總管：NCCL 的角色

五、企業行動建議 (Action Items)

企業 AI 資料中心建置研究 (三)：網路路線抉擇 —— InfiniBand、RoCEv2 與 NCCL 的底層邏輯

Topics

WRITTEN BY

上一篇

下一篇

一、 背景與核心發現

二、 掉封包的災難：為什麼不能用傳統網路？

三、 網路路線大亂鬥：InfiniBand vs RoCEv2

1. InfiniBand (IB)：AI 網路的黃金標準

2. RoCEv2：乙太網路的逆襲

四、 軟體大總管：NCCL 的角色

五、 企業行動建議 (Action Items)

一、背景與核心發現

二、掉封包的災難：為什麼不能用傳統網路？

三、網路路線大亂鬥：InfiniBand vs RoCEv2

四、軟體大總管：NCCL 的角色

五、企業行動建議 (Action Items)