企業 AI 資料中心建置研究 (五):機房發爐的危機 —— 電力密度極限與液冷革命

企業 AI 資料中心建置研究 (五):機房發爐的危機 —— 電力密度極限與液冷革命

此篇文章探討企業最常忽略的硬體危機:「買得起 GPU,機房卻放不下」。深入解析從 5kW 到 120kW 的機櫃功率暴增,以及為何冷氣已經失效,必須全面轉向直接液體冷卻 (DLC)。


一、 背景與核心發現

在搞定了 GPU 算力 【AI 036】、無阻塞網路 【AI 038】 與平行儲存 【AI 039】 之後,AI 專案通常會來到最殘酷的現實階段。當硬體廠商準備把伺服器送達公司時,IT 主管才猛然發現一個致命問題:「公司的機房,根本沒辦法讓這些機器開機。」

此篇文章的核心發現為:AI 基礎設施最大的痛點,往往不是軟體技術,而是最傳統的「電力與物理空間」。 傳統企業機房是為了低密度的運算所設計;而現代 AI 伺服器的功率密度 (Power Density),已經超出了傳統冷氣 (氣冷) 的物理極限。如果強行上架,不僅會面臨跳電,甚至會引發機房過熱的災難。

二、 物理極限:從 5kW 到 100kW 的暴增

要理解機房面臨的危機,我們必須先看「機櫃功率密度 (Rack Power Density)」。

  • 傳統機房的極限:一般企業(如銀行、醫院、製造業)自建的機房,一個機櫃 (Rack) 設計的最高供電量大約是 5kW 到 10kW。裡面通常會塞滿 10 到 20 台普通的 1U/2U 伺服器,並依賴高架地板下吹出的冷氣來散熱。
  • AI 工廠的怪物:單單一台 NVIDIA DGX H100 (內含 8 張 GPU),最大功耗就高達 10.2 kW。這意味著:一個原本可以裝 40 台設備的大機櫃,現在只要放進「1 台」AI 伺服器,整個機櫃的電力就直接爆表了。
  • 空間浪費 (Stranded Capacity):如果你硬要把 AI 伺服器放在傳統機房,你會看到一個荒謬的現象——機房裡擺了 10 個高大的機櫃,但每個機櫃裡面「空空如也」,只孤零零地躺著一台 AI 伺服器。這對極度昂貴的機房坪效是浪費。

到了 NVIDIA GB200 NVL72 的時代,一整櫃的 AI 伺服器功耗已經來到駭人的 120 kW

三、 為什麼「吹冷氣」沒有用了?

既然機器很熱,那我們把冷氣開強一點、風扇轉快一點不行嗎?答案是:物理定律不允許

  1. 空氣的比熱容太低:空氣是一種非常差的導熱介質。當一個機櫃發出 100kW 的熱量時,你必須用颶風等級的風量去吹它才可能降溫。這會導致伺服器內部的風扇全速瘋狂運轉,光是「風扇本身」消耗的電力,就佔了整台伺服器 20% 以上的電費。
  2. GPU 降頻保護 (Thermal Throttling):當冷氣帶走熱量的速度,趕不上 GPU 發熱的速度時,晶片溫度就會飆升。為了避免燒毀,GPU 會強制降低運算時脈(降頻)。你花了上億台幣買了頂級 GPU,結果因為機房冷氣不夠冷,它只發揮了 60% 的效能,這是極大的投資浪費。

圖解:直接液體冷卻 (DLC) 架構

為了突破空氣的物理極限,AI 機房必須全面轉向液冷 (Liquid Cooling)。因為水的導熱效率是空氣的數千倍。目前市場上的主流是 直接液體冷卻 (Direct-to-Chip Liquid Cooling, DLC)

Loading Diagram...

如上圖所示,DLC 的運作原理如下:

  1. 將微型水冷板直接鎖在 GPU 與 CPU 的晶片表面。
  2. 冷卻液流經水冷板,直接帶走晶片 70% ~ 80% 的廢熱。
  3. 熱水流回 CDU (Coolant Distribution Unit, 冷卻液分配單元),在 CDU 內部與機房設施的大型冰水管進行熱交換,把熱量排到室外。
  4. 剩下的 20% 熱量,再由傳統機房冷氣輔助吹散。

四、 企業行動建議 (Action Items)

當企業決定編列數千萬甚至數億元採購 AI 算力時,IT 基礎設施團隊必須提早半年啟動以下評估:

  1. 機房電力總量盤點 (MW 級距): 立刻盤點公司機房的總供電容量。大型 AI 叢集動輒吃掉好幾兆瓦 (Megawatt, MW) 的電力。若大樓台電配電不足,申請擴充高壓電往往需要一年以上的等待期。
  2. 機房樓板載重評估: 液冷機櫃因為裝滿了高密度的金屬散熱片、銅管與大量液體,單一機櫃的重量往往高達 1,500 到 2,000 公斤。傳統企業機房的高架地板根本無法承受,必須進行結構補強,否則機櫃會直接壓穿地板。
  3. 務實考量:自建 vs 託管 (Colocation): 將一間只能負載 5kW 的舊機房,改造成支援 50kW 液冷的機房,成本極度高昂且施工風險巨大。強烈建議企業:「買 AI 伺服器,但把機器放在外面的專業資料中心」。租用具備 AI Ready(高電力、預先建置 CDU 與水管)的託管機房 (Colocation),是多數企業最安全且最快速上線的策略。

延伸探討: 當電力、儲存、網路與 GPU 全部順利在機房開機後,叢集就具備了強大的硬體肌肉。但這群肌肉需要一個極度聰明的大腦來分派工作,否則大家只會閒置發呆。下一篇文章 【AI 041】 將帶你進入 AI 軟體調度層:為何我們需要 Kubernetes、Slurm 與 Ray?企業現有團隊能管理嗎?