企業 AI 資料中心建置研究 (七)：企業到底需要多少 GPU？從 RAG 到預訓練的算力評估指南

一、背景與核心發現

隨著 AI 基礎設施的硬體與軟體架構逐漸清晰（參閱【AI 041】），企業最終必須面對預算編列的靈魂拷問。很多企業的 CEO 會問 IT 主管：「聽說現在都要做 AI，我們公司是不是也該去買個 64 張 H100 來放著？」

此篇文章的核心發現為：「買多少 GPU」完全取決於你的「AI 業務場景」，而這之間的算力差距高達萬倍。 如果你只是要做一個企業內部知識庫的問答機器人 (RAG)，買 64 張 H100 是極度嚴重的預算浪費；反之，如果你想要從頭訓練一個能聽懂罕見專業術語的基礎大模型，買 64 張 H100 算到明年也算不完。

我們必須將企業 AI 需求嚴格劃分為「推論/RAG」、「微調」與「預訓練」三大階梯來進行硬體採購評估。

一、背景與核心發現
二、第一階梯：模型推論 (Inference) 與 RAG (需求：1~8 張 GPU)
三、第二階梯：微調 (Fine-Tuning) (需求：8~64 張 GPU)
四、第三階梯：從頭預訓練 (Pre-training) (需求：數百至數萬張 GPU)
- 圖解：三大 AI 任務算力需求階梯
五、企業行動建議 (Action Items)

二、第一階梯：模型推論 (Inference) 與 RAG (需求：1~8 張 GPU)

這是 90% 以上企業目前的真實需求。

業務場景：公司想要打造一個內部的 ChatGPT，讓員工可以上傳公司的 PDF 財報、HR 規章或技術手冊，然後對著模型問問題。這在技術上稱為 RAG (檢索增強生成)。
算力特性：在 RAG 架構中，大腦（模型）本身是不會發生改變的。模型只是在做「閱讀測驗」，負責把你餵給它的文章讀懂並產生文字回答。這稱為推論 (Inference)。
硬體需求估算：推論階段最缺的通常不是運算力 (FLOPS)，而是顯示記憶體 (VRAM)。
- 假設你要跑一個目前非常主流的開源 Llama-3 (70B) 模型，使用 8-bit 量化後，模型大約佔用 70GB 的 VRAM。
- 一張 NVIDIA A100 (80GB) 或 H100 (80GB) 勉強能塞下，但為了應付多名員工同時發問的 Context Window (上下文記憶體佔用)，通常需要 2 到 4 張 GPU 來並行處理。
- 採購建議：購買 1 台標準的伺服器，裡面插 2 到 4 張 L40S、A100 或 H100 即綽綽有餘。不需要購買昂貴的 InfiniBand 網路。

三、第二階梯：微調 (Fine-Tuning) (需求：8~64 張 GPU)

這是尋求產業護城河的企業所處的階段。

業務場景：通用的開源模型雖然聰明，但它不懂你們公司的「獨家黑話」、特殊的寫程式風格、或是極度專業的醫療影像判讀。企業需要拿幾萬筆公司內部的標準答案 (QA Dataset)，去教導這個大模型，改變它腦部的神經元權重。
算力特性：微調 (如 LoRA 參數高效微調) 雖然只改變一小部分權重，但在運算過程中，GPU 不只要存下模型本身，還必須儲存大量的「梯度 (Gradients)」與「優化器狀態 (Optimizer States)」。這會導致對 VRAM 的需求瞬間飆升為推論階段的 3 到 4 倍。
硬體需求估算：
- 進行 70B 級別大模型的微調，通常需要 1 台完整的 8 卡 GPU 伺服器 (例如 DGX H100) 才能有效率地跑起來。
- 如果是更大規模的微調，可能會需要 2 到 4 台伺服器 (約 16~32 張 GPU) 來加速流程。
- 採購建議：購買 1 到 4 台頂規的 8 卡伺服器。如果是跨機箱微調，此時就會需要開始考慮 100G/400G 的高速網路連接。

四、第三階梯：從頭預訓練 (Pre-training) (需求：數百至數萬張 GPU)

這是科技巨頭、國家級研究中心與頂尖 AI 新創的戰場，99% 的一般企業不該碰觸。

業務場景：不依賴任何現成的開源模型，從零開始，餵給一個白痴神經網路數兆個詞彙 (Trillions of Tokens)，讓它從頭學習人類的語言邏輯、世界觀與常識（例如 OpenAI 訓練 GPT-4，或 Meta 訓練 Llama-3）。
算力特性：極度暴力的矩陣乘法運算。模型越大、資料越多，訓練時間就呈現指數型成長。
硬體需求估算：
- 以 Meta 訓練 Llama-3 為例，他們動用了 24,000 張 H100 GPU 進行不間斷的訓練。
- 這是一場極限的基礎設施工程，包含了前面文章提到的 400G/800G InfiniBand 網路、水冷散熱機房、以及平行的全快閃儲存系統。
- 採購建議：若無數十億台幣以上的資本支出 (CapEx) 預算，請果斷放棄。

圖解：三大 AI 任務算力需求階梯

Loading Diagram...

五、企業行動建議 (Action Items)

在遞交 GPU 採購簽呈給老闆之前，IT 與 AI 團隊必須完成以下評估：

認清定位，拒絕算力焦慮：大多數想要導入 AI 增加生產力的企業，需要的只是「推論」與「RAG」。在這種場景下，「夠大、夠快的顯示記憶體 (VRAM Capacity & Bandwidth)」比「極致的運算力 (FLOPS)」更重要。不要盲目追求萬張 GPU 的叢集。
先用雲端 API 測水溫：在花費數千萬台幣購買實體伺服器前，強烈建議先在公有雲 (AWS, GCP, Azure) 上租用 GPU 虛擬機，或是直接使用 OpenAI/Anthropic 的 API。確認你們公司的資料與 RAG 流程真的有商業價值後，再來考慮自建 (On-premise) 算力。
為「微調」預留擴充彈性：如果你們的團隊未來 1 到 2 年內有自己微調模型的計畫，建議初期採購至少「1 台滿配 8 張 GPU」的伺服器。因為這是一個微調工作的標準起跳點，如果只買了單卡伺服器，未來要做模型微調時將會面臨記憶體不足的窘境。

延伸探討：了解了算力階梯後，如果我們決定要自建一座供給「微調」與「RAG」使用的中大型 AI 機房，這些設備到底該怎麼串接？下一篇文章 【AI 043】 將會把前面所學的計算、網路、儲存與軟體全部組合起來，為你畫出一張完整的「企業 AI 資料中心藍圖」。

View on GitHub

企業 AI 資料中心建置研究 (七)：企業到底需要多少 GPU？從 RAG 到預訓練的算力評估指南

Topics

WRITTEN BY

上一篇

下一篇

一、背景與核心發現

二、第一階梯：模型推論 (Inference) 與 RAG (需求：1~8 張 GPU)

三、第二階梯：微調 (Fine-Tuning) (需求：8~64 張 GPU)

四、第三階梯：從頭預訓練 (Pre-training) (需求：數百至數萬張 GPU)

圖解：三大 AI 任務算力需求階梯

五、企業行動建議 (Action Items)

企業 AI 資料中心建置研究 (七)：企業到底需要多少 GPU？從 RAG 到預訓練的算力評估指南

Topics

WRITTEN BY

上一篇

下一篇

一、 背景與核心發現

二、 第一階梯：模型推論 (Inference) 與 RAG (需求：1~8 張 GPU)

三、 第二階梯：微調 (Fine-Tuning) (需求：8~64 張 GPU)

四、 第三階梯：從頭預訓練 (Pre-training) (需求：數百至數萬張 GPU)

圖解：三大 AI 任務算力需求階梯

五、 企業行動建議 (Action Items)

一、背景與核心發現

二、第一階梯：模型推論 (Inference) 與 RAG (需求：1~8 張 GPU)

三、第二階梯：微調 (Fine-Tuning) (需求：8~64 張 GPU)

四、第三階梯：從頭預訓練 (Pre-training) (需求：數百至數萬張 GPU)

五、企業行動建議 (Action Items)