
AI21 Labs 深度解析:比 OpenAI 更早做大模型的先行者,為何走到被收購的十字路口
深度解析 AI21 Labs 的公司背景與創始人故事(Mobileye 創辦人 Shashua 與史丹佛教授 Shoham 的以色列學派)、押注 Mamba-Transformer 混合架構的差異化技術路線、Jamba 模型矩陣與 Maestro 編排系統,以及在巨頭夾殺下估值停滯、NVIDIA 收購破局後走向整併的競爭優勢與隱憂。
WRITTEN BY

- Name
- Harry Chang
「AI 公司」系列第六篇。這篇的主角比 OpenAI 的 ChatGPT 更早做出 GPT-3 級別的大模型,創辦人陣容擁有一位賣出 153 億美元公司的連續創業者和一位史丹佛 AI 教授——但九年過去,它的估值停在 14 億美元,2026 年初被 NVIDIA 以 20-30 億美元洽購(破局),現在正與 Nebius 談判中。
AI21 Labs 是一面鏡子:它照出了 AI 行業最殘酷的一課——起跑早、技術強、路線對,都不保證你能留在牌桌上。同時它也是觀察「AI 新創整併潮」的第一個標本。
一、公司背景與創始人故事:以色列學派的 AI 長征
1.1 創辦人:學術與創業的雙料傳奇
AI21 Labs 成立於 2017 年(比 Anthropic 早四年),總部特拉維夫,創辦人陣容是以色列科技圈的夢幻組合:
| 創辦人 | 背景 |
|---|---|
| Amnon Shashua | Mobileye 創辦人(2017 年以 153 億美元賣給 Intel,以色列史上最大出場)、希伯來大學教授——同時經營 OrCam、Mentee Robotics 等多家公司 |
| Yoav Shoham | 史丹佛大學 AI 榮譽教授,賽局理論與多代理系統權威,Google 收購其新創 Timeful 後曾任職 Google |
| Ori Goshen | 連續創業者(Crowdx 共同創辦人),現任共同 CEO |
公司名字「AI21」意為「AI for the 21st century」,創立宗旨是一個學術味很重的判斷:純粹的深度學習不夠,AI 需要結合推理與結構——這個判斷比 2024 年才流行的「推理模型」潮流早了七年。
1.2 發展軌跡:每一步都早,每一步都被超車
| 時間 | 里程碑 | 意義 |
|---|---|---|
| 2017 | 於特拉維夫成立 | 比 Anthropic 早四年、比 Mistral 早六年 |
| 2019 | 消費產品 Wordtune 上線 | AI 寫作助手,累積千萬級用戶,比 ChatGPT 早三年讓大眾用上生成式 AI |
| 2021 | Jurassic-1 發布(178B 參數) | 全球最早的 GPT-3 級對標模型之一,參數量當時世界最大級 |
| 2023 | Jurassic-2 + Task-Specific Models | 轉向企業任務特化路線;估值達 14 億美元 |
| 2024/03 | Jamba 發布:全球首個生產級 Mamba-Transformer 混合架構模型 | 技術路線豪賭:跳出純 Transformer 框架 |
| 2024/08 | Jamba 1.5 Large(398B MoE/激活 94B)、Mini | 256K 上下文,長文本效率賣點成型 |
| 2025/03 | Jamba 1.6 私有部署版 + Maestro 編排系統 | 轉型「AI for AI Systems」平台公司 |
| 2025/05 | Series D 融資 3 億美元,NVIDIA 與 Alphabet 領投 | 累計募資約 6.36 億美元;估值仍約 14 億 |
| 2025/10 | Jamba Reasoning 3B | 3B 參數配 250K 上下文,可跑在消費級裝置 |
| 2026 初 | NVIDIA 20-30 億美元收購談判破局 | 談判聚焦 200 人團隊的「人才收購」;後 Nebius 接手洽談 |
| 2026 | Jamba2 系列(3B / Mini 52B)Apache 2.0 開源 | 跟進開源潮流 |
一個扎心的對照:2021 年 Jurassic-1 發布時,AI21 與 OpenAI 幾乎站在同一起跑線;五年後,OpenAI 年化營收 250 億美元,AI21 的估值連 OpenAI 的零頭都不到。
二、商業模式與護城河
2.1 錢從哪裡來?
AI21 的商業模式經歷了三次轉型:消費產品(Wordtune)→ 通用大模型 API(Jurassic)→ 企業私有部署 + 編排平台(Jamba + Maestro)。目前的收入結構:
| 收入支柱 | 內容 | 定位 |
|---|---|---|
| 企業私有部署 | Jamba 系列裝進客戶 VPC/機房,主打金融等受監管行業 | 目前主力,與 Cohere 同一戰場 |
| Maestro 平台 | AI 規劃與編排系統——有趣的是它不綁自家模型,可以調度 GPT、Claude 等第三方模型提升複雜任務準確率 | 「AI for AI Systems」的轉型賭注 |
| 雲端分銷 | AWS Bedrock、Google Vertex、Azure 上架 | 長尾觸及 |
| Wordtune | 消費級寫作助手 | 遺產業務,貢獻現金流與品牌 |
2.2 護城河分析
| 護城河來源 | 強度 | 說明 |
|---|---|---|
| 架構差異化 | 中 | Mamba-Transformer 混合架構在長上下文的推理效率上有真實優勢(記憶體佔用低、吞吐快),是少數敢跳出純 Transformer 的玩家 |
| 長上下文效率 | 中 | 256K 上下文的性價比是賣點,但巨頭的 context 軍備競賽(1M 起跳)稀釋了此優勢 |
| 人才密度 | 強(但屬於買家) | 約 200 人的精銳團隊正是 NVIDIA 願出 20-30 億的原因——護城河本身成了「被收購的理由」 |
| 企業信任/以色列生態 | 中 | 受監管行業客戶與以色列軍事/科技人才管道 |
| 轉移成本 | 弱偏中 | Maestro 若成為企業 AI 編排標準會有黏性,但目前規模太小 |
2.3 策略解讀:從「造模型」撤退到「管模型」
Maestro 是理解 AI21 現狀的關鍵:它是一套模型無關(model-agnostic)的規劃編排層,用系統化方法把 GPT-4o、Claude 等模型在複雜企業任務上的準確率拉高。這實質上是一次戰略撤退的宣言——承認在基礎模型軍備競賽中無法獲勝,轉而做「所有模型之上的那一層」。
這條路線的邏輯與 Cohere(061)形成有趣對照:Cohere 靠「主權與部署」差異化,AI21 靠「架構與編排」差異化——兩者都在回答同一個問題:基礎模型被巨頭商品化之後,中型玩家還能站在哪裡?
三、核心模型矩陣介紹
AI21 與 Cohere 一樣公開參數量——「讓客戶自己跑」的定位決定了規格透明。
3.1 現役模型(2026 年中)
| 模型 | 定位 | 規格 | 授權 |
|---|---|---|---|
| Jamba 1.6 Large | 企業旗艦 | 398B MoE(激活 94B)、256K 上下文 | 開放權重(Jamba 條款) |
| Jamba 1.6 Mini | 輕量部署 | 52B MoE(激活 12B)、256K 上下文 | 開放權重 |
| Jamba2 Mini | 新一代主力(2026) | 52B MoE(激活 12B) | Apache 2.0 |
| Jamba2 3B / Jamba Reasoning 3B | 裝置端/邊緣 | 3B、250K 上下文,消費級硬體可跑 | Apache 2.0 |
| Maestro | 模型無關的規劃編排系統 | 調度自家與第三方模型 | 企業平台 |
| Wordtune | 消費寫作助手 | - | 訂閱制 |
3.2 技術架構特色:唯一的「非純 Transformer」玩家
這是 AI21 在本系列中最獨特的位置——所有其他公司都在 Transformer 框架內卷,只有它把寶押在混合架構上:
| 技術 | 說明 |
|---|---|
| SSM-Transformer 混合 | Jamba 交錯堆疊 Mamba(狀態空間模型)層與 Transformer 注意力層——Mamba 層處理序列的記憶體成本隨長度線性成長,而非注意力機制的平方成長 |
| 長上下文效率紅利 | 同樣 256K 上下文,Jamba 的 KV cache 記憶體佔用遠低於純 Transformer,單卡可服務的併發量更高——這對「自己買 GPU 部署」的企業客戶是真金白銀 |
| MoE 疊加 | 混合架構之上再加專家混合,398B 只激活 94B,追求「每一分算力的最大產出」 |
| 小模型大上下文 | Jamba Reasoning 3B 用 3B 參數支撐 250K 上下文,瞄準裝置端 Agent 場景 |
| 推理系統化(Maestro) | 不靠單一模型的「思考」,靠外部規劃器分解、驗證、編排——學派上更接近 Shoham 的多代理系統傳統 |
技術注腳:2025-2026 年業界(包括 NVIDIA 的研究)越來越多採用混合注意力/SSM 路線做效率優化——AI21 的技術判斷方向是對的,但「判斷對」與「贏得市場」之間隔著行銷、通路與資本的鴻溝。
四、競爭優勢與隱憂
4.1 競爭優勢
| 優勢 | 說明 |
|---|---|
| 架構先行者 | 全球第一個把 SSM 混合架構做到生產級的團隊,長上下文效率有真實工程壁壘 |
| 人才密度 | 200 人團隊被 NVIDIA 估到 20-30 億美元(人均超過 1,000 萬美元),是團隊價值的市場定價 |
| 股東即靠山 | NVIDIA 與 Google 同時是投資人,技術與分銷資源兼得 |
| 企業縱深 | 受監管行業的私有部署經驗與 Task-Specific 傳統,方向與 Cohere 驗證過的路線一致 |
| 邊緣端卡位 | 3B + 250K 上下文的裝置端模型,在 on-device Agent 這個新戰場有先手 |
4.2 隱憂與風險
1. 估值停滯訴說的殘酷事實
2023 年估值 14 億美元,2025 年 Series D 後仍約 14 億——同期 Anthropic 漲了十幾倍、xAI 漲了 342 倍。資本市場已經投票:它不被認為是牌桌上的競爭者。而 20-30 億美元的收購報價(僅為 Cohere 的十分之一)進一步錨定了天花板。
2. 收購懸置的組織損耗
NVIDIA 談判破局、Nebius 接手洽談、官方否認與創辦人「確有多方洽談」的說法互相矛盾——這種懸置狀態對留才、簽長約、拿大單都是毒藥。企業客戶不敢把五年的 AI 基礎設施押在一家「不知道明年屬於誰」的公司上。
3. 差異化賣點被快速稀釋
長上下文曾是 Jamba 的招牌,但 2026 年 1M 上下文已是巨頭標配、Gemini 甚至到 2M;效率優勢也面臨 Gemma 4、Qwen 等開源 MoE 的擠壓。架構紅利是真的,但窗口正在關閉。
4. Maestro 的戰場更擁擠
「編排層」聽起來是好位置,但那裡站著 LangChain、微軟的 Agent Framework、各雲廠商的原生編排服務,以及模型廠自己的 Agent SDK(如 Anthropic 的 Managed Agents)。用編排層逃離模型戰爭,可能只是換一個更卷的戰場。
5. 夾在兩種活法之間
Cohere 用「主權 AI」講出了地緣政治級的故事,Mistral 有歐盟撐腰,而 AI21 的以色列身分在主權敘事上反而受地緣政治複雜性拖累。它比上不足(巨頭)、比下沒有獨特敘事(主權/開源冠軍),這是估值停滯的根本原因。
結語
把 AI21 放進系列對照表:
| 維度 | Cohere(061) | AI21 Labs |
|---|---|---|
| 成立 | 2019 多倫多 | 2017 特拉維夫 |
| 差異化 | 主權 AI + 私有部署 | 混合架構 + 編排層 |
| 估值 | 約 200 億美元(合併後) | 約 14 億美元,收購洽談 20-30 億 |
| 年營收 | 約 2.4 億美元 | 未公開(規模更小) |
| 資本故事 | IPO 路徑 | 被收購路徑 |
| 歷史定位 | 巨頭陰影下的利基冠軍 | 起了大早、趕了晚集的先行者 |
AI21 的故事給這個系列補上了最重要的一塊拼圖:AI 行業的整併潮已經開始。當前沿模型的訓練成本以百億美元計,14 億估值的公司無論技術多好,結局大概率只有三種——被買、找到利基、或者消失。AI21 的技術判斷(混合架構、系統化推理)很可能是對的,甚至會被歷史證明有遠見;但它的公司敘事已經從「挑戰者」變成「資產」。
對觀察者的啟示:接下來一兩年,看 AI 行業不能只看巨頭發布會,要看誰在買誰——人才、架構專利與企業客戶名單的整併,才是行業格局固化的真正訊號。
參考資料:
- AI21 Labs — Wikipedia
- Report: AI21 Labs Business Breakdown & Founding Story — Contrary Research
- AI21 Labs raises $300M from Google and Nvidia — SiliconANGLE
- Nvidia in advanced talks to acquire AI21 in $2-3 billion deal focused on talent — CTech
- Nebius in talks to acquire AI21 after Nvidia deal falls through — CTech
- AI21 Labs denies Nvidia acquisition talks — Globes
- Introducing Jamba: AI21's Groundbreaking SSM-Transformer Model — AI21
- Introducing Jamba2 — AI21
- Jamba LLMs: The Best Long Context Models for Secure Enterprise Deployment — AI21
- Small Language Models: Edge AI Innovation From AI21 — IEEE Spectrum