企業 AI 資料中心建置研究 (十三) 番外篇:打破 InfiniBand 限制 —— NVIDIA Spectrum-X 網路架構解析

企業 AI 資料中心建置研究 (十三) 番外篇:打破 InfiniBand 限制 —— NVIDIA Spectrum-X 網路架構解析

長期以來,建置高效能 AI 算力叢集幾乎與昂貴的 InfiniBand 網路畫上等號。本文將探討 NVIDIA Spectrum-X 如何透過自適應路由與 DPU 技術,讓傳統乙太網路具備無損傳輸能力,為企業提供更具彈性的網路基礎設施選項。


一、 背景與核心發現


📌【企業 AI 資料中心建置研究】系列文章總覽


我們曾在 【AI 038】網路大亂鬥:InfiniBand vs RoCE 中分析過,AI 訓練 (Training) 對於網路掉包 (Packet Loss) 的容忍度極低。只要有一小段封包延遲,整個 GPU 叢集就會停下來等待(產生長尾延遲 Tail Latency),導致算力資源閒置。

過去,企業為了解決這個問題,通常只能採購 InfiniBand (IB) 網路。但 IB 網路學習門檻較高、與現有企業乙太網路 (Ethernet) 管理體系不相容,且容易產生單一供應商鎖定 (Vendor Lock-in) 的疑慮。

本篇的核心發現為:NVIDIA Spectrum-X 架構透過交換器與 DPU 的軟硬體協同,成功在標準乙太網路上實現了具備競爭力的無損傳輸 (Lossless) 表現。 這提供企業在建置 AI 機房時,一條更具擴充性與維運彈性的新路徑。

二、 傳統乙太網路在 AI 負載下的挑戰

標準的乙太網路設計初衷是「盡力而為 (Best Effort)」,這對於網頁瀏覽或一般資料庫存取很有效。但在 AI 叢集中,成千上萬個 GPU 會在同一毫秒內向彼此發送大量的資料張量 (Tensors),產生所謂的 微爆發流量 (Microbursts)

傳統乙太網路使用 ECMP (Equal-Cost Multi-Path) 協定來分配流量。ECMP 的盲點在於它是基於 Hash (雜湊) 演算法來分配路徑,無法感知當下哪條線路已經發生壅塞。當多條龐大的 AI 資料流碰巧被 Hash 到同一條交換器鏈路時,就會發生壅塞與掉包,進而引發重傳機制,嚴重拖垮 GPU 的同步效率。

三、 Spectrum-X 的技術拆解:如何讓乙太網路進化?

NVIDIA Spectrum-X 並不是單一設備,而是一個由硬體與軟體組成的端到端 (End-to-End) 解決方案。其核心組件包含兩個實體設備與一項關鍵技術:

1. Spectrum-4 乙太網路交換器

這是網路的核心樞紐,具備高達 51.2 Tbps 的交換容量。它的硬體架構針對微爆發流量進行了優化,並能與端點設備即時交換壅塞狀態資訊。

2. BlueField-3 DPU (資料處理單元)

這是一張安裝在 AI 伺服器上的智慧型網卡 (Super NIC)。它將傳統上由 CPU 處理的網路路由、資安加密、封包排序等工作卸載 (Offload) 到自己身上。更重要的是,它是控制流量發送速率與管理壅塞的關鍵閘口。

3. RoCE 自適應路由 (Adaptive Routing)

這是 Spectrum-X 克服傳統 ECMP 瓶頸的關鍵。當資料準備送出時,BlueField-3 DPU 會將資料流打散成細小的封包,並根據 Spectrum-4 交換器即時回傳的「路徑壅塞狀態」,動態地將封包分散到所有可用的路徑上。封包抵達目的地的 DPU 後,會再由 DPU 將其重新排序並直接放入 GPU 記憶體 (Direct Data Placement)。


我們透過以下的架構圖,對比傳統乙太網路與 Spectrum-X 在面對 AI 流量時的處理邏輯差異:

Loading Diagram...

四、 企業採購戰略 (Action Items)

面對 InfiniBand 與 Spectrum-X,IT 架構師在規劃次世代 AI 基礎設施時,應如何權衡?

  1. 評估維運團隊的技術儲備: InfiniBand 需要專門的網路工程師進行子網管理 (Subnet Management) 與維護。如果企業內部的 IT 團隊已經具備深厚的乙太網路維運經驗與現成的監控工具生態,導入 Spectrum-X 能夠降低人員培訓與維運轉換的隱形成本。
  2. 檢視多租戶 (Multi-Tenant) 需求: 對於大型企業或雲端服務商來說,一台 AI 叢集可能需要同時切分給不同的專案團隊使用(多租戶隔離)。標準乙太網路在多租戶的安全性防護、VLAN 切分與網段管理上,比 InfiniBand 具備更成熟的管理生態系。
  3. 預估算力叢集的終極規模: 如果企業要建置的是數萬張 GPU 起跳、專注於訓練單一超大型基礎模型的極端算力叢集,InfiniBand 在超大規模下的微秒級延遲依然具備優勢。但對於多數企業而言(數百至數千張 GPU 規模),主要任務是微調 (Fine-tuning) 與推論 (Inference),Spectrum-X 提供的高效能乙太網已經能夠滿足多數需求,並提供更好的採購彈性。

結語: 網路架構是 AI 資料中心的基礎血管。Spectrum-X 的戰略意義在於,它證明了乙太網路在加入智慧化端點 (DPU) 與動態路由後,同樣能承載高強度的 AI 負載。這為企業在評估 AI 基礎設施時,提供了跳脫單一技術綁定的全新維度。