企業 AI 資料中心建置研究 (十六) 番外篇：算力貧富不均的救星 —— Run:ai 與 GPU 虛擬化池化技術

一、背景與核心發現

📌【企業 AI 資料中心建置研究】系列文章總覽

架構與藍圖：【AI 036】傳統機房 vs AI 工廠｜【AI 043】全端架構藍圖
硬體與網路：【AI 037】Scale-up/out ｜【AI 038】網路大亂鬥｜【AI 039】儲存架構｜【AI 040】電力與液冷
未來趨勢篇：【AI 048】Spectrum-X ｜【AI 049】Omniverse 數位孿生｜【AI 050】NeMo 護欄

在企業剛建置完 AI 資料中心時，常常會遇到一個極度反直覺的現象：「IT 主管看到 GPU 總體使用率只有 25%，但資料科學團隊卻天天抱怨算力不夠用。」

這種「算力貧富不均」的痛點來自於傳統的靜態分配。當企業買了一台 8 張 H100 的伺服器，通常會切給 A 專案 4 張、B 專案 4 張。結果 A 專案的工程師今天都在寫程式除錯（GPU 處於閒置狀態），而 B 專案急需跑一個大型訓練，卻因為「無權跨界使用」而被迫排隊乾等。

此篇文章的核心發現為：被 NVIDIA 收購的 Run:ai 是解決算力浪費的重要排程工具。 它在 Kubernetes 之上建立了一層專屬的 GPU 排程系統，能夠將所有實體 GPU 打造成一個「共享算力池 (Resource Pool)」，並支援動態借用與切片技術，有效將企業的整體 GPU 稼動率顯著提升。

一、背景與核心發現
二、為什麼傳統的 Kubernetes 管不好 GPU？
三、 Run:ai 的兩大核心技術
- 1. 記憶體級別的 GPU 切片 (Fractional GPU)
- 2. 保證配額與動態超額借用 (Quota & Over-Quota)
四、企業採購戰略與 CFO 視角

二、為什麼傳統的 Kubernetes 管不好 GPU？

我們在【AI 041】軟體大腦 (K8s/Slurm/Ray) 中提過 Kubernetes (K8s) 是目前主流的容器排程工具。但在面對 GPU 時，原生的 K8s 有兩個侷限：

只能以整數分配：原生的 K8s 在分配 GPU 時，最小單位是「1 張」。如果工程師只是要跑一個極小規模的 Jupyter Notebook 推論測試，系統還是會鎖定整整 1 張高階 GPU，造成硬體閒置浪費。
缺乏動態搶佔機制 (No Preemption)：K8s 的資源一旦分配給了某個應用，除非該任務結束，否則其他高優先級的緊急任務無法輕易介入並調用資源。

三、 Run:ai 的兩大核心技術

Run:ai 經常被比喻為「AI 界的 VMware」，正是因為它解決了上述排程問題，實現了靈活的 GPU 虛擬化：

1. 記憶體級別的 GPU 切片 (Fractional GPU)

Run:ai 結合了 NVIDIA 的 MIG (Multi-Instance GPU) 與軟體切分技術。它可以將一張實體的高容量 GPU，虛擬地切分成多張較小的「虛擬 GPU」。這樣一來，多位工程師可以同時在同一張顯示卡上進行輕量級的開發與除錯，彼此資源獨立且不會互相干擾 (避免 OOM 問題)。

2. 保證配額與動態超額借用 (Quota & Over-Quota)

這是 Run:ai 最核心的排程演算法。企業可以為每個部門設定「保證配額 (Guaranteed Quota)」。假設 NLP 團隊配額是 10 張，影像團隊配額是 10 張。當影像團隊進入低負載時，NLP 團隊可以自動借用影像團隊閒置的卡，用來加速自己的訓練（此為超額使用 Over-Quota）。但如果影像團隊突然需要使用算力時，Run:ai 會觸發「暫停與搶佔 (Preemption)」機制，優雅地將 NLP 團隊借用的任務暫停、儲存狀態，並將算力即時歸還給影像團隊。

我們透過以下的架構圖，對比傳統靜態分配與 Run:ai 動態池化的邏輯差異：

Loading Diagram...

四、企業採購戰略與 CFO 視角

導入 Run:ai 不僅是 IT 工程師的任務，更是企業財務長 (CFO) 優化資本支出 (CapEx) 的關鍵工具。

先量測，再採購 (Measure before Buying)：許多企業在面對工程師提出算力不足的請求時，第一反應是採購新伺服器。正確的策略應是先導入資源監控儀表板進行分析。通常會發現算力瓶頸並非總量不足，而是分配缺乏彈性。透過池化技術，企業能有效避免無效的硬體投資。
提升資料科學家的開發體驗 (Developer Experience)：資料科學家的專長是設計演算法，而非處理複雜的 Kubernetes YAML 檔或基礎設施。Run:ai 提供了直覺的使用者介面，研究員只需輸入所需資源量（如「0.5 張 GPU」），系統便會在背景完成調度，大幅縮短模型開發週期。
整合 NVIDIA 企業生態系：自 NVIDIA 收購 Run:ai 後，這套系統已逐漸融入 NVIDIA 企業級 AI 基礎設施（如 DGX SuperPOD 與 Base Command）的管理核心中。在規劃次世代 AI 叢集時，將動態排程機制納入考量，能確保算力投資獲得最大的營運效益。

結語：在 AI 軍備競賽中，硬體決定了算力的上限，但「排程軟體」決定了算力使用的下限。透過打破實體硬體的邊界，讓每一滴珍貴的 GPU 運算資源都能流向最需要的地方，才是企業邁向成熟 AI 資料中心應具備的營運思維。

View on GitHub

企業 AI 資料中心建置研究 (十六) 番外篇：算力貧富不均的救星 —— Run:ai 與 GPU 虛擬化池化技術

Topics

WRITTEN BY

上一篇

下一篇

一、背景與核心發現

二、為什麼傳統的 Kubernetes 管不好 GPU？

三、 Run:ai 的兩大核心技術

1. 記憶體級別的 GPU 切片 (Fractional GPU)

2. 保證配額與動態超額借用 (Quota & Over-Quota)

四、企業採購戰略與 CFO 視角

企業 AI 資料中心建置研究 (十六) 番外篇：算力貧富不均的救星 —— Run:ai 與 GPU 虛擬化池化技術

Topics

WRITTEN BY

上一篇

下一篇

一、 背景與核心發現

二、 為什麼傳統的 Kubernetes 管不好 GPU？

三、 Run:ai 的兩大核心技術

1. 記憶體級別的 GPU 切片 (Fractional GPU)

2. 保證配額與動態超額借用 (Quota & Over-Quota)

四、 企業採購戰略與 CFO 視角

一、背景與核心發現

二、為什麼傳統的 Kubernetes 管不好 GPU？

四、企業採購戰略與 CFO 視角