
Databricks 深度解析:花 14 億買下模型夢,認賠殺出後反而更值錢的數據巨頭
深度解析 Databricks 的公司背景與創始人故事(Spark 七人組的柏克萊學院派)、收購 MosaicML 與 DBRX 模型的昂貴教訓、退出模型競賽後轉型 Agent Bricks 與數據智能平台的商業模式,以及 1,340 億美元估值直奔 IPO 路上的競爭優勢與隱憂。
WRITTEN BY

- Name
- Harry Chang
「AI 公司」系列第十一篇。這篇的主角做過一件本系列獨一無二的事:它花 14 億美元買了一張模型競賽的門票,打了一場,然後理性地退場了——而退場之後,公司反而更值錢。
2024 年 3 月,Databricks 發布 DBRX,號稱「當時最強開源 MoE 模型」;不到一年,這個名字就從行業話語中消失。但 2026 年的 Databricks 估值 1,340 億美元、營收年化 54 億美元、AI 產品線年化 17 億美元,正走在 IPO 的路上。輸掉模型戰爭卻贏得 AI 戰爭——這是怎麼做到的?
一、公司背景與創始人故事:柏克萊實驗室走出的七人組
1.1 學院派創業的教科書
Databricks 成立於 2013 年,源自 UC Berkeley 的 AMPLab——七位共同創辦人正是大數據時代基礎設施 Apache Spark 的原創團隊:CEO Ali Ghodsi(瑞典裔伊朗人,柏克萊客座教授)、CTO Matei Zaharia(Spark 之父,博士論文就是 Spark)、Ion Stoica(柏克萊教授,也是 Anyscale 共同創辦人)等。
一個與本系列的有趣連線:七人之一的 Andy Konwinski 後來共同創辦了 Perplexity(ai-063)——柏克萊系的人才網絡貫穿了大數據與 AI 兩個時代。
公司的基因從第一天就確立:把學術界的開源專案變成企業的商業平台。Spark 之後,他們陸續開源了 Delta Lake、MLflow、Unity Catalog——「開源定標準,商業版收錢」是 Databricks 反覆使用的劇本。
1.2 時程表:從 Spark 公司到 AI 平台
| 時間 | 里程碑 | 意義 |
|---|---|---|
| 2013 | 柏克萊 AMPLab 七人組創立 | Apache Spark 商業化 |
| 2020 | 提出 Lakehouse(湖倉一體) 概念 | 定義品類:資料湖的成本+資料倉的能力,直接挑戰 Snowflake |
| 2023/06 | 14 億美元收購 MosaicML | 生成式 AI 軍備競賽入場券:買下高效訓練團隊 |
| 2024/03 | DBRX 發布(132B MoE/激活 36B,訓練成本約 1,000 萬美元) | 「當時最強開源 MoE」——三個月內被 Llama 3 等超越 |
| 2024/06 | 20 億美元收購 Tabular(Iceberg 創始團隊) | 開放表格式一統:Delta+Iceberg 雙標準通吃 |
| 2025 | 停止前沿模型競賽;10 億美元收購 Neon(Serverless Postgres) | 戰略轉向:從「造模型」到「造 Agent 的地基」 |
| 2025/06 | Agent Bricks 發布;與 OpenAI、Anthropic、Google 全面合作 | 三大模型商的模型全部上架自家平台——不造引擎,開車行 |
| 2026/02 | 融資 50 億美元(另 20 億債務),估值 1,340 億美元;營收年化破 48 億 | IPO 前最後一輪大補血 |
| 2026/06 | 營收年化 54 億美元(年增 65%);AI 產品年化 17 億美元 | 新一輪傳聞估值上看 1,650-1,750 億;IPO 預期 2026 底-2027 |
二、DBRX 的教訓:14 億美元學費買到的三個認知
這一章是本篇的核心,因為 Databricks 的模型故事是整個行業「自研模型熱」退潮的縮影。
2.1 當時的邏輯 vs 後來的現實
2023 年收購 MosaicML 的邏輯看似無懈可擊:企業不願把私有資料交給 OpenAI → 他們需要自己訓練模型 → Databricks 掌握企業資料 → 買下最強的訓練工具團隊 = 賣鏟給每一家想造模型的企業。DBRX 就是這個邏輯的展示品:1,000 萬美元、兩個月,就能訓練出「最強開源模型」。
現實卻朝三個方向崩塌:
| 教訓 | 內容 |
|---|---|
| 前沿的折舊速度 | DBRX 從發布到被超越只有數月。前沿模型是「保鮮期以週計的資產」,而訓練成本每代翻倍——這不是平台公司該玩的資本遊戲 |
| 客戶要的不是「自己的模型」 | 絕大多數企業發現微調開源模型+RAG 就夠了,真正的痛點是資料整備、治理、評估與部署——恰好是 Databricks 本來就擅長的 |
| 模型會商品化,資料不會 | GPT/Claude/Gemini/Llama 打到見骨,模型層毛利崩塌;而企業資料的引力(搬遷成本)只會越來越大 |
2.2 認賠殺出的漂亮身段
Databricks 的可貴之處在於退得快、退得徹底:不再追前沿模型,把 MosaicML 團隊轉向模型服務與微調工具(Mosaic AI),然後把所有前沿模型商變成合作夥伴——OpenAI、Anthropic、Gemini 的模型全部原生上架 Databricks 平台。
對照組很殘酷:同期堅持自研的 AI21(062)走向被收購,Meta(064)燒了千億才用重組止血。在 AI 行業,知道什麼時候退出賽道,和知道什麼時候進入一樣值錢。
三、商業模式與產品矩陣
3.1 錢從哪裡來?
| 收入支柱 | 內容 | 定位 |
|---|---|---|
| 數據智能平台(本體) | Lakehouse 的儲存計算消費(按用量計費),Unity Catalog 治理 | 營收主體,年化 54 億美元的基本盤 |
| Mosaic AI / Agent Bricks | Agent 開發平台:自動評估、微調、多代理編排,底層模型任選 | AI 產品線年化 17 億,成長最快 |
| Lakebase | Serverless Postgres(Neon 團隊),Agent 時代的交易資料庫 | 補完「Agent 記錄系統」拼圖 |
| Databricks Apps / Genie | 企業 AI 應用與自然語言 BI | 應用層變現 |
| 模型市集 | 三大前沿模型+開源模型的統一調用與計費 | 抽成+黏性 |
3.2 護城河分析
| 護城河來源 | 強度 | 說明 |
|---|---|---|
| 資料引力 | 極強 | 企業的核心資料一旦進了 Lakehouse,遷移成本以年計——這是比模型深得多的鎖定 |
| 治理層標準 | 強 | Unity Catalog 管資料權限與血緣;AI 時代「誰能存取什麼資料」是 Agent 落地的前提,治理權=收費權 |
| 開放格式的中立性 | 強 | Delta+Iceberg 通吃、多雲部署——「不綁雲、不綁模型」對企業是關鍵賣點,正好與超大雲形成差異 |
| 開源社群 | 中偏強 | Spark/MLflow/Delta 的開發者心智,學院派公信力 |
| 模型中立 | 中 | 與微軟 Copilot 的多模型策略(066)同構:讓模型商在自家平台上競價 |
3.3 與 Snowflake 的世紀對決註腳
理解 Databricks 不能不提 Snowflake——兩家在資料平台正面對撞十年。AI 時代的分野很清楚:兩家都退出了自研前沿模型(Snowflake 的 Arctic 同樣曇花一現),都轉向「Agent 平台+模型市集」。這場對決驗證了同一個結論:資料層公司的宿命不是造大腦,是造大腦的工作環境。
四、競爭優勢與隱憂
4.1 競爭優勢
| 優勢 | 說明 |
|---|---|
| 站在 Agent 落地的必經之路 | Agent 要有用,先要能安全地讀懂企業資料——Databricks 卡住的正是這個資料+治理咽喉 |
| 消費型收入的爆發性 | 年增 65% 的規模化成長,AI 產品線一年翻倍,IPO 敘事乾淨 |
| 併購整合能力 | MosaicML/Tabular/Neon 三筆收購各補一塊拼圖,消化速度業界少見 |
| 中立者紅利 | 模型戰爭越激烈,「不選邊的平台」越吃香——與微軟同享莊家結構 |
| 學費繳過了 | DBRX 的教訓讓它比對手更早聚焦真正的變現層 |
4.2 隱憂與風險
1. 超大雲的降維打擊
AWS、Azure、GCP 都在把「資料平台+Agent 工具」做進自家雲的原生服務,且可以用雲折扣捆綁銷售。Databricks 的多雲中立是賣點,但也意味著它永遠在別人的地皮上做生意——租客的宿命是房東漲租。
2. AI 功能的同質化速度
Agent Bricks 的自動評估、微調工具並非不可複製——Snowflake、Salesforce、微軟都在做同樣的事。當「Agent 平台」變成每家資料公司的標配,差異化又要重新尋找。
3. 估值對成長的苛刻要求
1,340 億估值對應 54 億營收約 25 倍——比多數 SaaS 高一截,定價的是「65% 成長率可持續」。企業 IT 預算一旦緊縮,消費型計費模式(用多少付多少)的下修會比訂閱制更快、更直接。
4. IPO 時點的市場風險
與 OpenAI、Anthropic 排隊 IPO 的時間窗重疊,AI 概念股的供給激增;若上市前 AI 資本情緒轉冷,最後一輪 1,340 億的投資人可能面臨倒掛,連帶影響員工士氣與留才。
5. 開源反噬的老問題
Delta/Spark/MLflow 開源意味著超大雲可以合法地拿去自營(AWS EMR 的歷史重演)。開源定標準的另一面,是標準不專屬於你。
結語
把 Databricks 放進系列座標系:
| 維度 | AI21(062) | Meta(064) | Databricks |
|---|---|---|---|
| 模型競賽的結局 | 堅持自研 → 被收購 | 千億重組硬扛 | 理性退出 → 轉型平台 |
| 核心資產 | 架構專利+人才 | 通路+算力 | 企業資料+治理層 |
| 2026 狀態 | 收購懸置 | 待驗證 | 1,340 億估值奔 IPO |
Databricks 給這個系列貢獻了一個關鍵論點:AI 價值鏈的利潤正在向兩端遷移——最上游的算力(NVIDIA、雲)與最下游的資料/應用(誰擁有企業工作流),中間的「模型層」反而是折舊最快、競爭最慘烈的一段。DBRX 的 14 億美元學費買到的正是這個認知,而它認賠的速度成了它最好的投資。
下一個問題自然浮現:如果模型層如此艱難,那掌握開源模型「分發權」的平台呢?下一篇 Hugging Face——AI 界的 GitHub。
參考資料:
- Databricks — Wikipedia
- Databricks Signs Definitive Agreement to Acquire MosaicML — PR Newswire
- Databricks completes 134 billion valuation — CNBC
- Databricks Grows >65% YoY, Surpasses $5.4 Billion Revenue Run-Rate — Databricks
- Databricks Grows >55% YoY, Raising >134B Valuation — Databricks
- Databricks Eyes 5.4B ARR — Tech Insider
- Ali Ghodsi: Databricks — DigiDai
- Databricks IPO 2026: Valuation, Date & Investor Guide — Allied Venture Partners