企業 AI 資料中心建置研究 (四):從 NAS 癱瘓看 AI 儲存架構與 Checkpointing 難題

企業 AI 資料中心建置研究 (四):從 NAS 癱瘓看 AI 儲存架構與 Checkpointing 難題

此篇文章探討為什麼企業既有的高階 NAS 在 AI 訓練中會頻繁當機。解析 AI 叢集最大的噩夢 —— Checkpointing (存檔風暴),並介紹專為極致吞吐量設計的全快閃平行檔案系統。


一、 背景與核心發現

在解決了 GPU 運算與網路互連的瓶頸後(參閱 【AI 038】),許多企業終於讓造價數億的 AI 叢集開始運行。然而,真正的災難往往發生在訓練開始後的幾個小時:機房內的企業級 NAS (網路附加儲存) 突然無預警癱瘓,導致所有 GPU 陷入停擺。

此篇文章的核心發現為:AI 儲存的挑戰不在於「容量」,而在於瞬間爆發的「連續寫入吞吐量」。 企業既有的高階儲存陣列(如傳統 SAN 或 NFS 架構)是為了解決關聯式資料庫的「隨機讀寫 (IOPS)」而生;但在大模型訓練中,數千張 GPU 會在同一秒鐘發起高達數十 TB 的「存檔 (Checkpointing)」寫入請求。這種被稱為「存檔風暴」的行為,是傳統儲存架構物理上無法承受的。

二、 AI 訓練的阿基里斯腱:什麼是 Checkpointing?

要理解為何儲存會癱瘓,首先必須了解大語言模型 (LLM) 訓練的脆弱性。

訓練一個千億參數的模型,可能需要 1,000 張 GPU 沒日沒夜地運轉三個月。在這三個月內,只要有「任何一張」GPU 發生記憶體錯誤、或是網路線出現瞬間斷線,整個訓練進程就會崩潰。為了防止重頭來過導致幾百萬美元的電費與時間付諸流水,AI 科學家必須每隔幾小時就進行一次「存檔」,這在機器學習領域稱為 Checkpointing。

  • 龐大的資料體積:一個存檔包含了模型所有的權重 (Weights)、優化器狀態 (Optimizer States) 等。對於 GPT-3 級別的模型,單次存檔的大小可能高達幾十甚至數百 Terabytes (TB)。
  • 同步寫入的風暴:最可怕的是,為了保證資料的一致性,這 1,000 張 GPU 會在收到存檔指令的那一微秒,同時暫停運算,並把這數百 TB 的資料「同步砸向」儲存設備
  • 昂貴的發呆時間:在儲存設備把資料完全寫入硬碟之前,所有的 GPU 都不能動。如果你用的是普通的網路硬碟,這 1,000 張頂級 GPU 可能會花 15 分鐘在「發呆等存檔」。

三、 傳統儲存 (NFS/NAS) 為什麼會癱瘓?

傳統企業機房採用的 NAS (如多數的 Synology、傳統 NetApp 等) 是基於 NFS (Network File System) 或 SMB 協定。這種架構存在一個致命的「單點瓶頸」。

  1. Metadata (元數據) 塞車:當一千張 GPU 同時要寫入檔案時,它們必須先問 NAS 的「大腦 (Metadata Server)」:「請問我可以把檔案寫在哪裡?」這個單一的大腦會瞬間收到成千上萬的請求,直接導致 CPU 滿載而失去回應。
  2. 為 IOPS 而生,非為 Throughput 而生:傳統儲存非常擅長每秒處理數百萬次「幾 KB」的零碎讀寫(例如電商網站的結帳紀錄)。但 Checkpointing 需要的是「一根無比巨大的水管」,讓數百 GB 的資料在幾秒內連續流過去。

圖解:NFS 單點瓶頸 vs 平行檔案系統

為了接住這股「存檔風暴」,AI 工廠必須捨棄傳統 NAS,改用「平行檔案系統 (Parallel File System)」(如 Lustre、GPFS、或是現代的 VAST Data、WEKA 等)。

Loading Diagram...

如上圖所示,平行檔案系統巧妙地將「指路的警察 (Metadata)」與「搬貨的卡車 (Data Node)」分開。GPU 拿到路徑後,就能直接、同時對無數個 NVMe 快閃儲存節點進行物理寫入,吞吐量(Throughput)可以隨著節點增加而無限擴展。

四、 企業行動建議 (Action Items)

在規劃 AI 儲存預算與架構時,企業應揚棄傳統的 IT 容量思維,採取以下策略:

  1. 切割讀寫需求 (分層儲存): AI 儲存其實包含兩種極端的行為:
    • 讀取 (載入訓練資料):需要處理幾十億張小圖片或純文字檔,這偏向極高 IOPS 的隨機讀取。
    • 寫入 (Checkpointing):需要瞬間吞下超大檔案,這是極高 Throughput 的連續寫入。 企業應評估導入支援 NVMe-oF (NVMe over Fabrics) 的全快閃陣列 (All-Flash Array),以同時兼顧這兩種極端情境。
  2. 避免使用「容量」來採購硬體: 過去採購 NAS 時,IT 主管常問:「這台可以裝多少 TB?」但在 AI 工廠,你該問的是:「這台設備的連續寫入頻寬可以達到每秒多少 GB?」為了不讓高價的 GPU 閒置,儲存系統的吞吐量必須能將 Checkpoint 的時間壓縮在 1 到 2 分鐘內。
  3. 評估現代 AI 專用儲存方案: 不要硬拿公司舊有的備份 NAS 來接 AI 伺服器。應重新評估市場上專為 AI 設計的高效能儲存架構,例如 Pure Storage FlashBladeDDN,或是純軟體定義的 WEKAVAST Data 叢集。

延伸探討: 買齊了 GPU、極速網路與平行儲存設備,AI 工廠的硬體拼圖看似完成了。但當這些設備同時全速運轉時,一個肉眼看不見的危機正在機房蔓延:「熱」。下一篇文章 【AI 040】 將帶你探討 AI 伺服器的散熱極限,為何我們必須從「氣冷」全面走向「液冷」?