AI21 Labs 深度解析:比 OpenAI 更早做大模型的先行者,為何走到被收購的十字路口

AI21 Labs 深度解析:比 OpenAI 更早做大模型的先行者,為何走到被收購的十字路口

深度解析 AI21 Labs 的公司背景與創始人故事(Mobileye 創辦人 Shashua 與史丹佛教授 Shoham 的以色列學派)、押注 Mamba-Transformer 混合架構的差異化技術路線、Jamba 模型矩陣與 Maestro 編排系統,以及在巨頭夾殺下估值停滯、NVIDIA 收購破局後走向整併的競爭優勢與隱憂。


「AI 公司」系列第六篇。這篇的主角比 OpenAI 的 ChatGPT 更早做出 GPT-3 級別的大模型,創辦人陣容擁有一位賣出 153 億美元公司的連續創業者和一位史丹佛 AI 教授——但九年過去,它的估值停在 14 億美元,2026 年初被 NVIDIA 以 20-30 億美元洽購(破局),現在正與 Nebius 談判中。

AI21 Labs 是一面鏡子:它照出了 AI 行業最殘酷的一課——起跑早、技術強、路線對,都不保證你能留在牌桌上。同時它也是觀察「AI 新創整併潮」的第一個標本。


一、公司背景與創始人故事:以色列學派的 AI 長征

1.1 創辦人:學術與創業的雙料傳奇

AI21 Labs 成立於 2017 年(比 Anthropic 早四年),總部特拉維夫,創辦人陣容是以色列科技圈的夢幻組合:

創辦人背景
Amnon ShashuaMobileye 創辦人(2017 年以 153 億美元賣給 Intel,以色列史上最大出場)、希伯來大學教授——同時經營 OrCam、Mentee Robotics 等多家公司
Yoav Shoham史丹佛大學 AI 榮譽教授,賽局理論與多代理系統權威,Google 收購其新創 Timeful 後曾任職 Google
Ori Goshen連續創業者(Crowdx 共同創辦人),現任共同 CEO

公司名字「AI21」意為「AI for the 21st century」,創立宗旨是一個學術味很重的判斷:純粹的深度學習不夠,AI 需要結合推理與結構——這個判斷比 2024 年才流行的「推理模型」潮流早了七年。

1.2 發展軌跡:每一步都早,每一步都被超車

時間里程碑意義
2017於特拉維夫成立比 Anthropic 早四年、比 Mistral 早六年
2019消費產品 Wordtune 上線AI 寫作助手,累積千萬級用戶,比 ChatGPT 早三年讓大眾用上生成式 AI
2021Jurassic-1 發布(178B 參數)全球最早的 GPT-3 級對標模型之一,參數量當時世界最大級
2023Jurassic-2 + Task-Specific Models轉向企業任務特化路線;估值達 14 億美元
2024/03Jamba 發布:全球首個生產級 Mamba-Transformer 混合架構模型技術路線豪賭:跳出純 Transformer 框架
2024/08Jamba 1.5 Large(398B MoE/激活 94B)、Mini256K 上下文,長文本效率賣點成型
2025/03Jamba 1.6 私有部署版 + Maestro 編排系統轉型「AI for AI Systems」平台公司
2025/05Series D 融資 3 億美元,NVIDIA 與 Alphabet 領投累計募資約 6.36 億美元;估值仍約 14 億
2025/10Jamba Reasoning 3B3B 參數配 250K 上下文,可跑在消費級裝置
2026 初NVIDIA 20-30 億美元收購談判破局談判聚焦 200 人團隊的「人才收購」;後 Nebius 接手洽談
2026Jamba2 系列(3B / Mini 52B)Apache 2.0 開源跟進開源潮流

一個扎心的對照:2021 年 Jurassic-1 發布時,AI21 與 OpenAI 幾乎站在同一起跑線;五年後,OpenAI 年化營收 250 億美元,AI21 的估值連 OpenAI 的零頭都不到。


二、商業模式與護城河

2.1 錢從哪裡來?

AI21 的商業模式經歷了三次轉型:消費產品(Wordtune)→ 通用大模型 API(Jurassic)→ 企業私有部署 + 編排平台(Jamba + Maestro)。目前的收入結構:

收入支柱內容定位
企業私有部署Jamba 系列裝進客戶 VPC/機房,主打金融等受監管行業目前主力,與 Cohere 同一戰場
Maestro 平台AI 規劃與編排系統——有趣的是它不綁自家模型,可以調度 GPT、Claude 等第三方模型提升複雜任務準確率「AI for AI Systems」的轉型賭注
雲端分銷AWS Bedrock、Google Vertex、Azure 上架長尾觸及
Wordtune消費級寫作助手遺產業務,貢獻現金流與品牌

2.2 護城河分析

護城河來源強度說明
架構差異化Mamba-Transformer 混合架構在長上下文的推理效率上有真實優勢(記憶體佔用低、吞吐快),是少數敢跳出純 Transformer 的玩家
長上下文效率256K 上下文的性價比是賣點,但巨頭的 context 軍備競賽(1M 起跳)稀釋了此優勢
人才密度強(但屬於買家)約 200 人的精銳團隊正是 NVIDIA 願出 20-30 億的原因——護城河本身成了「被收購的理由」
企業信任/以色列生態受監管行業客戶與以色列軍事/科技人才管道
轉移成本弱偏中Maestro 若成為企業 AI 編排標準會有黏性,但目前規模太小

2.3 策略解讀:從「造模型」撤退到「管模型」

Maestro 是理解 AI21 現狀的關鍵:它是一套模型無關(model-agnostic)的規劃編排層,用系統化方法把 GPT-4o、Claude 等模型在複雜企業任務上的準確率拉高。這實質上是一次戰略撤退的宣言——承認在基礎模型軍備競賽中無法獲勝,轉而做「所有模型之上的那一層」

這條路線的邏輯與 Cohere(061)形成有趣對照:Cohere 靠「主權與部署」差異化,AI21 靠「架構與編排」差異化——兩者都在回答同一個問題:基礎模型被巨頭商品化之後,中型玩家還能站在哪裡?


三、核心模型矩陣介紹

AI21 與 Cohere 一樣公開參數量——「讓客戶自己跑」的定位決定了規格透明。

3.1 現役模型(2026 年中)

模型定位規格授權
Jamba 1.6 Large企業旗艦398B MoE(激活 94B)、256K 上下文開放權重(Jamba 條款)
Jamba 1.6 Mini輕量部署52B MoE(激活 12B)、256K 上下文開放權重
Jamba2 Mini新一代主力(2026)52B MoE(激活 12B)Apache 2.0
Jamba2 3B / Jamba Reasoning 3B裝置端/邊緣3B、250K 上下文,消費級硬體可跑Apache 2.0
Maestro模型無關的規劃編排系統調度自家與第三方模型企業平台
Wordtune消費寫作助手-訂閱制

3.2 技術架構特色:唯一的「非純 Transformer」玩家

這是 AI21 在本系列中最獨特的位置——所有其他公司都在 Transformer 框架內卷,只有它把寶押在混合架構上

技術說明
SSM-Transformer 混合Jamba 交錯堆疊 Mamba(狀態空間模型)層與 Transformer 注意力層——Mamba 層處理序列的記憶體成本隨長度線性成長,而非注意力機制的平方成長
長上下文效率紅利同樣 256K 上下文,Jamba 的 KV cache 記憶體佔用遠低於純 Transformer,單卡可服務的併發量更高——這對「自己買 GPU 部署」的企業客戶是真金白銀
MoE 疊加混合架構之上再加專家混合,398B 只激活 94B,追求「每一分算力的最大產出」
小模型大上下文Jamba Reasoning 3B 用 3B 參數支撐 250K 上下文,瞄準裝置端 Agent 場景
推理系統化(Maestro)不靠單一模型的「思考」,靠外部規劃器分解、驗證、編排——學派上更接近 Shoham 的多代理系統傳統

技術注腳:2025-2026 年業界(包括 NVIDIA 的研究)越來越多採用混合注意力/SSM 路線做效率優化——AI21 的技術判斷方向是對的,但「判斷對」與「贏得市場」之間隔著行銷、通路與資本的鴻溝。


四、競爭優勢與隱憂

4.1 競爭優勢

優勢說明
架構先行者全球第一個把 SSM 混合架構做到生產級的團隊,長上下文效率有真實工程壁壘
人才密度200 人團隊被 NVIDIA 估到 20-30 億美元(人均超過 1,000 萬美元),是團隊價值的市場定價
股東即靠山NVIDIA 與 Google 同時是投資人,技術與分銷資源兼得
企業縱深受監管行業的私有部署經驗與 Task-Specific 傳統,方向與 Cohere 驗證過的路線一致
邊緣端卡位3B + 250K 上下文的裝置端模型,在 on-device Agent 這個新戰場有先手

4.2 隱憂與風險

1. 估值停滯訴說的殘酷事實

2023 年估值 14 億美元,2025 年 Series D 後仍約 14 億——同期 Anthropic 漲了十幾倍、xAI 漲了 342 倍。資本市場已經投票:它不被認為是牌桌上的競爭者。而 20-30 億美元的收購報價(僅為 Cohere 的十分之一)進一步錨定了天花板。

2. 收購懸置的組織損耗

NVIDIA 談判破局、Nebius 接手洽談、官方否認與創辦人「確有多方洽談」的說法互相矛盾——這種懸置狀態對留才、簽長約、拿大單都是毒藥。企業客戶不敢把五年的 AI 基礎設施押在一家「不知道明年屬於誰」的公司上。

3. 差異化賣點被快速稀釋

長上下文曾是 Jamba 的招牌,但 2026 年 1M 上下文已是巨頭標配、Gemini 甚至到 2M;效率優勢也面臨 Gemma 4、Qwen 等開源 MoE 的擠壓。架構紅利是真的,但窗口正在關閉。

4. Maestro 的戰場更擁擠

「編排層」聽起來是好位置,但那裡站著 LangChain、微軟的 Agent Framework、各雲廠商的原生編排服務,以及模型廠自己的 Agent SDK(如 Anthropic 的 Managed Agents)。用編排層逃離模型戰爭,可能只是換一個更卷的戰場。

5. 夾在兩種活法之間

Cohere 用「主權 AI」講出了地緣政治級的故事,Mistral 有歐盟撐腰,而 AI21 的以色列身分在主權敘事上反而受地緣政治複雜性拖累。它比上不足(巨頭)、比下沒有獨特敘事(主權/開源冠軍),這是估值停滯的根本原因。


結語

把 AI21 放進系列對照表:

維度Cohere(061)AI21 Labs
成立2019 多倫多2017 特拉維夫
差異化主權 AI + 私有部署混合架構 + 編排層
估值約 200 億美元(合併後)約 14 億美元,收購洽談 20-30 億
年營收約 2.4 億美元未公開(規模更小)
資本故事IPO 路徑被收購路徑
歷史定位巨頭陰影下的利基冠軍起了大早、趕了晚集的先行者

AI21 的故事給這個系列補上了最重要的一塊拼圖:AI 行業的整併潮已經開始。當前沿模型的訓練成本以百億美元計,14 億估值的公司無論技術多好,結局大概率只有三種——被買、找到利基、或者消失。AI21 的技術判斷(混合架構、系統化推理)很可能是對的,甚至會被歷史證明有遠見;但它的公司敘事已經從「挑戰者」變成「資產」。

對觀察者的啟示:接下來一兩年,看 AI 行業不能只看巨頭發布會,要看誰在買誰——人才、架構專利與企業客戶名單的整併,才是行業格局固化的真正訊號。


參考資料: