
企業 AI 資料中心建置研究 (十七) 番外篇:繞過 CPU 的極速狂飆 —— WEKA 與 VAST Data 儲存架構解析
當 GPU 算力不斷翻倍,傳統的 NAS/SAN 儲存架構卻成了拖累訓練速度的「資料瓶頸」。本文將解析 WEKA 與 VAST Data 兩大專為 AI 設計的全快閃儲存霸主,如何透過 NVIDIA GPUDirect Storage 技術繞過 CPU,實現資料直達 GPU 記憶體的極速傳輸。
WRITTEN BY

- Name
- Harry Chang
一、 背景與核心發現
📌【企業 AI 資料中心建置研究】系列文章總覽
- 架構與藍圖:【AI 036】傳統機房 vs AI 工廠 | 【AI 043】全端架構藍圖
- 硬體與網路:【AI 037】Scale-up/out | 【AI 038】網路大亂鬥 | 【AI 039】儲存架構 | 【AI 040】電力與液冷
- 未來趨勢篇:【AI 049】Omniverse 數位孿生 | 【AI 050】NeMo 護欄
我們在 【AI 039】儲存架構 (Checkpoint Storage) 中曾提到,AI 訓練有一句名言:「算力再快,餵不飽資料也是白搭 (Starving the GPU)」。
在傳統機房中,企業習慣購買大廠的 NAS 或 SAN 儲存設備。這些設備對於資料庫或虛擬機 (VM) 來說非常穩定。然而,當面對 AI 模型訓練時——尤其是需要一次吞吐數百萬張圖片的電腦視覺模型,或是參數高達千億的大型語言模型 (LLM)——傳統儲存架構的 I/O (輸入/輸出) 速度根本跟不上 GPU 的運算吞吐量。
此篇文章的核心發現為:在頂級的 AI 資料中心(如 NVIDIA SuperPOD)中,傳統儲存廠商正逐漸被 WEKA 與 VAST Data 這類專為 AI 原生設計的「平行檔案系統」所取代。 它們透過支援 NVIDIA 的 GPUDirect Storage (GDS) 技術,成功打破了長久以來的 CPU I/O 瓶頸。
- 一、 背景與核心發現
- 二、 傳統儲存的致命傷:「CPU 彈跳」效應
- 三、 破局關鍵:NVIDIA GPUDirect Storage (GDS)
- 四、 兩大 AI 儲存霸主的架構解析
- 五、 企業採購戰略與 CFO 視角
二、 傳統儲存的致命傷:「CPU 彈跳」效應
要理解 WEKA 與 VAST Data 為什麼能成為 AI 儲存領域的標竿,首先必須了解傳統儲存架構的問題。
在傳統架構下,當 GPU 需要讀取一份訓練資料時,資料的旅行路徑如下:
- 儲存設備硬碟 ➔ 儲存控制器的 CPU
- 透過網路傳送到 ➔ 伺服器的 CPU
- 伺服器 CPU 將資料複製到 ➔ 系統主記憶體 (RAM)
- 系統主記憶體再將資料透過 PCIe 複製到 ➔ GPU 記憶體 (VRAM)
這個過程中,資料被反覆複製了多次,且每一次搬運都必須經過「伺服器 CPU」的處理(稱為 Bounce Buffer)。在 AI 訓練時,這種反覆的記憶體複製會直接讓 CPU 滿載 100%,成為拖累 GPU 的最大元兇。
三、 破局關鍵:NVIDIA GPUDirect Storage (GDS)
為了解決這個瓶頸,NVIDIA 開發了 GPUDirect Storage (GDS) 技術,而 WEKA 與 VAST Data 正是這項技術的深度整合者。
GDS 的核心概念是「繞過 CPU (CPU Bypass)」。它利用 RDMA (遠端直接記憶體存取) 技術,讓儲存設備內的 NVMe 快閃記憶體,透過 InfiniBand 或高速乙太網路,直接經由 PCIe 通道將資料「灌入」GPU 記憶體中。 這不僅將傳輸延遲降到最低,更將寶貴的 CPU 算力解放出來,讓 CPU 能專心處理資料擴增 (Data Augmentation) 或其他系統調度工作。
四、 兩大 AI 儲存霸主的架構解析
雖然都支援 GDS,但 WEKA 與 VAST Data 在底層架構上各有千秋:
1. WEKA (WekaFS):為極致效能與小檔案而生的平行檔案系統
- 技術特點:傳統儲存系統在處理「單一大檔案」(如 1TB 的影片)時很快,但在處理「數百萬個小檔案」(如 10KB 的圖片、語音碎片)時,Metadata (中介資料) 的存取會讓效能瞬間崩潰。
- 架構優勢:WEKA 完全捨棄了傳統的作業系統核心 (Kernel Space),將所有的 I/O 處理移至 User Space,並利用專屬的演算法將 Metadata 均勻打散到整個叢集。這讓 WEKA 在處理海量 AI 小檔案時,能維持極度平穩的超高 IOPS,是追求極致訓練速度的首選。
- 企業選型建議 (When to choose WEKA):若企業正在建置專屬的高效能 AI 訓練叢集(例如投入數百張 H100),且訓練資料以海量細碎的「小檔案」為主(如電腦視覺影像),WEKA 憑藉其極限的 IOPS 表現與軟體定義儲存 (SDS) 的部署彈性,最能將 GPU 的稼動率逼至極限。
2. VAST Data:分離式共享架構 (DASE)
- 技術特點:VAST Data 提出了 Disaggregated Shared-Everything (DASE) 架構,將「運算 (Storage Compute)」與「儲存媒體 (Storage Media)」完全分離。
- 架構優勢:它使用了高效能的 Storage Class Memory (SCM) 作為寫入緩衝區,並在後端搭配低成本但超大容量的 QLC 快閃記憶體。由於所有運算節點都能同時存取所有的儲存節點,它在擴充容量 (達 Exabyte 等級) 時不會有明顯的效能折損。適合用來建立企業整體的「AI 資料湖 (Data Lake)」。
- 企業選型建議 (When to choose VAST Data):若企業的目標是打破冷熱資料的分層 (Tiering),建立一個單一且龐大的「全快閃萬用資料湖」,讓全公司不同部門都能同時高速存取 PB 甚至 EB 級的數據。VAST Data 結合高速 SCM 與廉價 QLC 的架構,能在提供 SSD 級別效能的同時,將成本控制在極具競爭力的水準。
我們透過以下的架構圖,對比傳統儲存路徑與 GDS 直達路徑的差異:
五、 企業採購戰略與 CFO 視角
對於準備建置 AI 工廠的企業 IT 團隊,在評估儲存架構時應考量以下決策方向:
- 重視 IOPS 與小檔案效能,而非僅看吞吐量 (Throughput): 很多傳統儲存廠商會標榜其設備的「最高吞吐量 (GB/s)」很高。但在 AI 訓練中,真正考驗架構的是「小檔案的隨機讀取 (IOPS)」與 Metadata 的處理能力。在進行 PoC (概念驗證) 時,務必使用真實的 AI 資料集進行小檔案讀寫壓力測試。
- 儲存網路必須獨立規劃: 在建置如 WEKA 等高效能叢集時,儲存設備到 GPU 之間的網路必須是一條「專用高速公路」(如專屬的 400G InfiniBand 或 Spectrum-X 乙太網)。若將儲存流量與辦公室網路或 GPU 節點間的運算流量混用,GDS 的直達優勢將受到嚴重干擾。
- 總體擁有成本 (TCO) 的衡量: 雖然 WEKA 或 VAST Data 的初期建置成本 (CapEx) 遠高於傳統 NAS,但若將「GPU 閒置等待時間」的昂貴成本計算進去,這類高效能儲存能顯著提升 GPU 稼動率。從長遠來看,這才是真正優化 AI 機房投資報酬率 (ROI) 的核心決策。
結語: 打造一座企業級 AI 資料中心,是一場沒有短板的木桶效應競賽。算力池化 (Run:ai) 解決了排程問題,而極速儲存 (WEKA / VAST Data) 則解決了資料補給問題。唯有將儲存架構從傳統的「CPU 中心」轉變為「GPU 中心」,企業才能徹底釋放那些價值數億元的 AI 算力潛能。