
企業 AI 資料中心建置研究 (十六) 番外篇:算力貧富不均的救星 —— Run:ai 與 GPU 虛擬化池化技術
企業耗資數億建置 GPU 機房,整體稼動率卻往往不到 30%?本文將解析被 NVIDIA 收購的 Run:ai 如何透過「GPU 切片」與「動態池化」技術,解決企業內部的算力浪費,成為 AI 時代的 VMware。
WRITTEN BY

- Name
- Harry Chang
一、 背景與核心發現
📌【企業 AI 資料中心建置研究】系列文章總覽
- 架構與藍圖:【AI 036】傳統機房 vs AI 工廠 | 【AI 043】全端架構藍圖
- 硬體與網路:【AI 037】Scale-up/out | 【AI 038】網路大亂鬥 | 【AI 039】儲存架構 | 【AI 040】電力與液冷
- 未來趨勢篇:【AI 048】Spectrum-X | 【AI 049】Omniverse 數位孿生 | 【AI 050】NeMo 護欄
在企業剛建置完 AI 資料中心時,常常會遇到一個極度反直覺的現象:「IT 主管看到 GPU 總體使用率只有 25%,但資料科學團隊卻天天抱怨算力不夠用。」
這種「算力貧富不均」的痛點來自於傳統的靜態分配。當企業買了一台 8 張 H100 的伺服器,通常會切給 A 專案 4 張、B 專案 4 張。結果 A 專案的工程師今天都在寫程式除錯(GPU 處於閒置狀態),而 B 專案急需跑一個大型訓練,卻因為「無權跨界使用」而被迫排隊乾等。
此篇文章的核心發現為:被 NVIDIA 收購的 Run:ai 是解決算力浪費的重要排程工具。 它在 Kubernetes 之上建立了一層專屬的 GPU 排程系統,能夠將所有實體 GPU 打造成一個「共享算力池 (Resource Pool)」,並支援動態借用與切片技術,有效將企業的整體 GPU 稼動率顯著提升。
二、 為什麼傳統的 Kubernetes 管不好 GPU?
我們在 【AI 041】軟體大腦 (K8s/Slurm/Ray) 中提過 Kubernetes (K8s) 是目前主流的容器排程工具。但在面對 GPU 時,原生的 K8s 有兩個侷限:
- 只能以整數分配:原生的 K8s 在分配 GPU 時,最小單位是「1 張」。如果工程師只是要跑一個極小規模的 Jupyter Notebook 推論測試,系統還是會鎖定整整 1 張高階 GPU,造成硬體閒置浪費。
- 缺乏動態搶佔機制 (No Preemption):K8s 的資源一旦分配給了某個應用,除非該任務結束,否則其他高優先級的緊急任務無法輕易介入並調用資源。
三、 Run:ai 的兩大核心技術
Run:ai 經常被比喻為「AI 界的 VMware」,正是因為它解決了上述排程問題,實現了靈活的 GPU 虛擬化:
1. 記憶體級別的 GPU 切片 (Fractional GPU)
Run:ai 結合了 NVIDIA 的 MIG (Multi-Instance GPU) 與軟體切分技術。它可以將一張實體的高容量 GPU,虛擬地切分成多張較小的「虛擬 GPU」。這樣一來,多位工程師可以同時在同一張顯示卡上進行輕量級的開發與除錯,彼此資源獨立且不會互相干擾 (避免 OOM 問題)。
2. 保證配額與動態超額借用 (Quota & Over-Quota)
這是 Run:ai 最核心的排程演算法。企業可以為每個部門設定「保證配額 (Guaranteed Quota)」。 假設 NLP 團隊配額是 10 張,影像團隊配額是 10 張。 當影像團隊進入低負載時,NLP 團隊可以自動借用影像團隊閒置的卡,用來加速自己的訓練(此為超額使用 Over-Quota)。 但如果影像團隊突然需要使用算力時,Run:ai 會觸發「暫停與搶佔 (Preemption)」機制,優雅地將 NLP 團隊借用的任務暫停、儲存狀態,並將算力即時歸還給影像團隊。
我們透過以下的架構圖,對比傳統靜態分配與 Run:ai 動態池化的邏輯差異:
四、 企業採購戰略與 CFO 視角
導入 Run:ai 不僅是 IT 工程師的任務,更是企業財務長 (CFO) 優化資本支出 (CapEx) 的關鍵工具。
- 先量測,再採購 (Measure before Buying): 許多企業在面對工程師提出算力不足的請求時,第一反應是採購新伺服器。正確的策略應是先導入資源監控儀表板進行分析。通常會發現算力瓶頸並非總量不足,而是分配缺乏彈性。透過池化技術,企業能有效避免無效的硬體投資。
- 提升資料科學家的開發體驗 (Developer Experience): 資料科學家的專長是設計演算法,而非處理複雜的 Kubernetes YAML 檔或基礎設施。Run:ai 提供了直覺的使用者介面,研究員只需輸入所需資源量(如「0.5 張 GPU」),系統便會在背景完成調度,大幅縮短模型開發週期。
- 整合 NVIDIA 企業生態系: 自 NVIDIA 收購 Run:ai 後,這套系統已逐漸融入 NVIDIA 企業級 AI 基礎設施(如 DGX SuperPOD 與 Base Command)的管理核心中。在規劃次世代 AI 叢集時,將動態排程機制納入考量,能確保算力投資獲得最大的營運效益。
結語: 在 AI 軍備競賽中,硬體決定了算力的上限,但「排程軟體」決定了算力使用的下限。透過打破實體硬體的邊界,讓每一滴珍貴的 GPU 運算資源都能流向最需要的地方,才是企業邁向成熟 AI 資料中心應具備的營運思維。