
企業 AI 資料中心建置研究 (四):從 NAS 癱瘓看 AI 儲存架構與 Checkpointing 難題
此篇文章探討為什麼企業既有的高階 NAS 在 AI 訓練中會頻繁當機。解析 AI 叢集最大的噩夢 —— Checkpointing (存檔風暴),並介紹專為極致吞吐量設計的全快閃平行檔案系統。
WRITTEN BY

- Name
- Harry Chang
一、 背景與核心發現
在解決了 GPU 運算與網路互連的瓶頸後(參閱 【AI 038】),許多企業終於讓造價數億的 AI 叢集開始運行。然而,真正的災難往往發生在訓練開始後的幾個小時:機房內的企業級 NAS (網路附加儲存) 突然無預警癱瘓,導致所有 GPU 陷入停擺。
此篇文章的核心發現為:AI 儲存的挑戰不在於「容量」,而在於瞬間爆發的「連續寫入吞吐量」。 企業既有的高階儲存陣列(如傳統 SAN 或 NFS 架構)是為了解決關聯式資料庫的「隨機讀寫 (IOPS)」而生;但在大模型訓練中,數千張 GPU 會在同一秒鐘發起高達數十 TB 的「存檔 (Checkpointing)」寫入請求。這種被稱為「存檔風暴」的行為,是傳統儲存架構物理上無法承受的。
二、 AI 訓練的阿基里斯腱:什麼是 Checkpointing?
要理解為何儲存會癱瘓,首先必須了解大語言模型 (LLM) 訓練的脆弱性。
訓練一個千億參數的模型,可能需要 1,000 張 GPU 沒日沒夜地運轉三個月。在這三個月內,只要有「任何一張」GPU 發生記憶體錯誤、或是網路線出現瞬間斷線,整個訓練進程就會崩潰。為了防止重頭來過導致幾百萬美元的電費與時間付諸流水,AI 科學家必須每隔幾小時就進行一次「存檔」,這在機器學習領域稱為 Checkpointing。
- 龐大的資料體積:一個存檔包含了模型所有的權重 (Weights)、優化器狀態 (Optimizer States) 等。對於 GPT-3 級別的模型,單次存檔的大小可能高達幾十甚至數百 Terabytes (TB)。
- 同步寫入的風暴:最可怕的是,為了保證資料的一致性,這 1,000 張 GPU 會在收到存檔指令的那一微秒,同時暫停運算,並把這數百 TB 的資料「同步砸向」儲存設備。
- 昂貴的發呆時間:在儲存設備把資料完全寫入硬碟之前,所有的 GPU 都不能動。如果你用的是普通的網路硬碟,這 1,000 張頂級 GPU 可能會花 15 分鐘在「發呆等存檔」。
三、 傳統儲存 (NFS/NAS) 為什麼會癱瘓?
傳統企業機房採用的 NAS (如多數的 Synology、傳統 NetApp 等) 是基於 NFS (Network File System) 或 SMB 協定。這種架構存在一個致命的「單點瓶頸」。
- Metadata (元數據) 塞車:當一千張 GPU 同時要寫入檔案時,它們必須先問 NAS 的「大腦 (Metadata Server)」:「請問我可以把檔案寫在哪裡?」這個單一的大腦會瞬間收到成千上萬的請求,直接導致 CPU 滿載而失去回應。
- 為 IOPS 而生,非為 Throughput 而生:傳統儲存非常擅長每秒處理數百萬次「幾 KB」的零碎讀寫(例如電商網站的結帳紀錄)。但 Checkpointing 需要的是「一根無比巨大的水管」,讓數百 GB 的資料在幾秒內連續流過去。
圖解:NFS 單點瓶頸 vs 平行檔案系統
為了接住這股「存檔風暴」,AI 工廠必須捨棄傳統 NAS,改用「平行檔案系統 (Parallel File System)」(如 Lustre、GPFS、或是現代的 VAST Data、WEKA 等)。
如上圖所示,平行檔案系統巧妙地將「指路的警察 (Metadata)」與「搬貨的卡車 (Data Node)」分開。GPU 拿到路徑後,就能直接、同時對無數個 NVMe 快閃儲存節點進行物理寫入,吞吐量(Throughput)可以隨著節點增加而無限擴展。
四、 企業行動建議 (Action Items)
在規劃 AI 儲存預算與架構時,企業應揚棄傳統的 IT 容量思維,採取以下策略:
- 切割讀寫需求 (分層儲存): AI 儲存其實包含兩種極端的行為:
- 讀取 (載入訓練資料):需要處理幾十億張小圖片或純文字檔,這偏向極高 IOPS 的隨機讀取。
- 寫入 (Checkpointing):需要瞬間吞下超大檔案,這是極高 Throughput 的連續寫入。 企業應評估導入支援 NVMe-oF (NVMe over Fabrics) 的全快閃陣列 (All-Flash Array),以同時兼顧這兩種極端情境。
- 避免使用「容量」來採購硬體: 過去採購 NAS 時,IT 主管常問:「這台可以裝多少 TB?」但在 AI 工廠,你該問的是:「這台設備的連續寫入頻寬可以達到每秒多少 GB?」為了不讓高價的 GPU 閒置,儲存系統的吞吐量必須能將 Checkpoint 的時間壓縮在 1 到 2 分鐘內。
- 評估現代 AI 專用儲存方案: 不要硬拿公司舊有的備份 NAS 來接 AI 伺服器。應重新評估市場上專為 AI 設計的高效能儲存架構,例如 Pure Storage FlashBlade、DDN,或是純軟體定義的 WEKA 與 VAST Data 叢集。
延伸探討: 買齊了 GPU、極速網路與平行儲存設備,AI 工廠的硬體拼圖看似完成了。但當這些設備同時全速運轉時,一個肉眼看不見的危機正在機房蔓延:「熱」。下一篇文章 【AI 040】 將帶你探討 AI 伺服器的散熱極限,為何我們必須從「氣冷」全面走向「液冷」?