
—
企業 AI 資料中心建置研究 (七):企業到底需要多少 GPU?從 RAG 到預訓練的算力評估指南
此篇文章探討企業在規劃 AI 預算時最核心的問題:「我們到底需要買幾張 GPU?」依據 RAG、微調 (Fine-Tuning) 與預訓練 (Pre-training) 三大場景,提供務實的算力估算指南。
WRITTEN BY

- Name
- Harry Chang
一、 背景與核心發現
隨著 AI 基礎設施的硬體與軟體架構逐漸清晰(參閱 【AI 041】),企業最終必須面對預算編列的靈魂拷問。很多企業的 CEO 會問 IT 主管:「聽說現在都要做 AI,我們公司是不是也該去買個 64 張 H100 來放著?」
此篇文章的核心發現為:「買多少 GPU」完全取決於你的「AI 業務場景」,而這之間的算力差距高達萬倍。 如果你只是要做一個企業內部知識庫的問答機器人 (RAG),買 64 張 H100 是極度嚴重的預算浪費;反之,如果你想要從頭訓練一個能聽懂罕見專業術語的基礎大模型,買 64 張 H100 算到明年也算不完。
我們必須將企業 AI 需求嚴格劃分為「推論/RAG」、「微調」與「預訓練」三大階梯來進行硬體採購評估。
- 一、 背景與核心發現
- 二、 第一階梯:模型推論 (Inference) 與 RAG (需求:1~8 張 GPU)
- 三、 第二階梯:微調 (Fine-Tuning) (需求:8~64 張 GPU)
- 四、 第三階梯:從頭預訓練 (Pre-training) (需求:數百至數萬張 GPU)
- 五、 企業行動建議 (Action Items)
二、 第一階梯:模型推論 (Inference) 與 RAG (需求:1~8 張 GPU)
這是 90% 以上企業目前的真實需求。
- 業務場景:公司想要打造一個內部的 ChatGPT,讓員工可以上傳公司的 PDF 財報、HR 規章或技術手冊,然後對著模型問問題。這在技術上稱為 RAG (檢索增強生成)。
- 算力特性:在 RAG 架構中,大腦(模型)本身是不會發生改變的。模型只是在做「閱讀測驗」,負責把你餵給它的文章讀懂並產生文字回答。這稱為推論 (Inference)。
- 硬體需求估算: 推論階段最缺的通常不是運算力 (FLOPS),而是顯示記憶體 (VRAM)。
- 假設你要跑一個目前非常主流的 開源 Llama-3 (70B) 模型,使用 8-bit 量化後,模型大約佔用 70GB 的 VRAM。
- 一張 NVIDIA A100 (80GB) 或 H100 (80GB) 勉強能塞下,但為了應付多名員工同時發問的 Context Window (上下文記憶體佔用),通常需要 2 到 4 張 GPU 來並行處理。
- 採購建議:購買 1 台標準的伺服器,裡面插 2 到 4 張 L40S、A100 或 H100 即綽綽有餘。不需要購買昂貴的 InfiniBand 網路。
三、 第二階梯:微調 (Fine-Tuning) (需求:8~64 張 GPU)
這是尋求產業護城河的企業所處的階段。
- 業務場景:通用的開源模型雖然聰明,但它不懂你們公司的「獨家黑話」、特殊的寫程式風格、或是極度專業的醫療影像判讀。企業需要拿幾萬筆公司內部的標準答案 (QA Dataset),去教導這個大模型,改變它腦部的神經元權重。
- 算力特性:微調 (如 LoRA 參數高效微調) 雖然只改變一小部分權重,但在運算過程中,GPU 不只要存下模型本身,還必須儲存大量的「梯度 (Gradients)」與「優化器狀態 (Optimizer States)」。這會導致對 VRAM 的需求瞬間飆升為推論階段的 3 到 4 倍。
- 硬體需求估算:
- 進行 70B 級別大模型的微調,通常需要 1 台完整的 8 卡 GPU 伺服器 (例如 DGX H100) 才能有效率地跑起來。
- 如果是更大規模的微調,可能會需要 2 到 4 台伺服器 (約 16~32 張 GPU) 來加速流程。
- 採購建議:購買 1 到 4 台頂規的 8 卡伺服器。如果是跨機箱微調,此時就會需要開始考慮 100G/400G 的高速網路連接。
四、 第三階梯:從頭預訓練 (Pre-training) (需求:數百至數萬張 GPU)
這是科技巨頭、國家級研究中心與頂尖 AI 新創的戰場,99% 的一般企業不該碰觸。
- 業務場景:不依賴任何現成的開源模型,從零開始,餵給一個白痴神經網路數兆個詞彙 (Trillions of Tokens),讓它從頭學習人類的語言邏輯、世界觀與常識(例如 OpenAI 訓練 GPT-4,或 Meta 訓練 Llama-3)。
- 算力特性:極度暴力的矩陣乘法運算。模型越大、資料越多,訓練時間就呈現指數型成長。
- 硬體需求估算:
- 以 Meta 訓練 Llama-3 為例,他們動用了 24,000 張 H100 GPU 進行不間斷的訓練。
- 這是一場極限的基礎設施工程,包含了前面文章提到的 400G/800G InfiniBand 網路、水冷散熱機房、以及平行的全快閃儲存系統。
- 採購建議:若無數十億台幣以上的資本支出 (CapEx) 預算,請果斷放棄。
圖解:三大 AI 任務算力需求階梯
Loading Diagram...
五、 企業行動建議 (Action Items)
在遞交 GPU 採購簽呈給老闆之前,IT 與 AI 團隊必須完成以下評估:
- 認清定位,拒絕算力焦慮: 大多數想要導入 AI 增加生產力的企業,需要的只是「推論」與「RAG」。在這種場景下,「夠大、夠快的顯示記憶體 (VRAM Capacity & Bandwidth)」比「極致的運算力 (FLOPS)」更重要。不要盲目追求萬張 GPU 的叢集。
- 先用雲端 API 測水溫: 在花費數千萬台幣購買實體伺服器前,強烈建議先在公有雲 (AWS, GCP, Azure) 上租用 GPU 虛擬機,或是直接使用 OpenAI/Anthropic 的 API。確認你們公司的資料與 RAG 流程真的有商業價值後,再來考慮自建 (On-premise) 算力。
- 為「微調」預留擴充彈性: 如果你們的團隊未來 1 到 2 年內有自己微調模型的計畫,建議初期採購至少「1 台滿配 8 張 GPU」的伺服器。因為這是一個微調工作的標準起跳點,如果只買了單卡伺服器,未來要做模型微調時將會面臨記憶體不足的窘境。
延伸探討: 了解了算力階梯後,如果我們決定要自建一座供給「微調」與「RAG」使用的中大型 AI 機房,這些設備到底該怎麼串接?下一篇文章 【AI 043】 將會把前面所學的計算、網路、儲存與軟體全部組合起來,為你畫出一張完整的「企業 AI 資料中心藍圖」。