AI21 Labs 深度解析：比 OpenAI 更早做大模型的先行者，為何走到被收購的十字路口

「AI 公司」系列第六篇。這篇的主角比 OpenAI 的 ChatGPT 更早做出 GPT-3 級別的大模型，創辦人陣容擁有一位賣出 153 億美元公司的連續創業者和一位史丹佛 AI 教授——但九年過去，它的估值停在 14 億美元，2026 年初被 NVIDIA 以 20-30 億美元洽購（破局），現在正與 Nebius 談判中。

AI21 Labs 是一面鏡子：它照出了 AI 行業最殘酷的一課——起跑早、技術強、路線對,都不保證你能留在牌桌上。同時它也是觀察「AI 新創整併潮」的第一個標本。

一、公司背景與創始人故事：以色列學派的 AI 長征
- 1.1 創辦人：學術與創業的雙料傳奇
- 1.2 發展軌跡：每一步都早，每一步都被超車
二、商業模式與護城河
三、核心模型矩陣介紹
- 3.1 現役模型（2026 年中）
- 3.2 技術架構特色：唯一的「非純 Transformer」玩家
四、競爭優勢與隱憂
- 4.1 競爭優勢
- 4.2 隱憂與風險
結語

一、公司背景與創始人故事：以色列學派的 AI 長征

1.1 創辦人：學術與創業的雙料傳奇

AI21 Labs 成立於 2017 年（比 Anthropic 早四年），總部特拉維夫，創辦人陣容是以色列科技圈的夢幻組合：

創辦人	背景
Amnon Shashua	Mobileye 創辦人（2017 年以 153 億美元賣給 Intel，以色列史上最大出場）、希伯來大學教授——同時經營 OrCam、Mentee Robotics 等多家公司
Yoav Shoham	史丹佛大學 AI 榮譽教授，賽局理論與多代理系統權威，Google 收購其新創 Timeful 後曾任職 Google
Ori Goshen	連續創業者（Crowdx 共同創辦人），現任共同 CEO

公司名字「AI21」意為「AI for the 21st century」，創立宗旨是一個學術味很重的判斷：純粹的深度學習不夠，AI 需要結合推理與結構——這個判斷比 2024 年才流行的「推理模型」潮流早了七年。

1.2 發展軌跡：每一步都早，每一步都被超車

時間	里程碑	意義
2017	於特拉維夫成立	比 Anthropic 早四年、比 Mistral 早六年
2019	消費產品 Wordtune 上線	AI 寫作助手,累積千萬級用戶,比 ChatGPT 早三年讓大眾用上生成式 AI
2021	Jurassic-1 發布（178B 參數）	全球最早的 GPT-3 級對標模型之一,參數量當時世界最大級
2023	Jurassic-2 + Task-Specific Models	轉向企業任務特化路線;估值達 14 億美元
2024/03	Jamba 發布:全球首個生產級 Mamba-Transformer 混合架構模型	技術路線豪賭:跳出純 Transformer 框架
2024/08	Jamba 1.5 Large（398B MoE/激活 94B）、Mini	256K 上下文,長文本效率賣點成型
2025/03	Jamba 1.6 私有部署版 + Maestro 編排系統	轉型「AI for AI Systems」平台公司
2025/05	Series D 融資 3 億美元,NVIDIA 與 Alphabet 領投	累計募資約 6.36 億美元;估值仍約 14 億
2025/10	Jamba Reasoning 3B	3B 參數配 250K 上下文,可跑在消費級裝置
2026 初	NVIDIA 20-30 億美元收購談判破局	談判聚焦 200 人團隊的「人才收購」;後 Nebius 接手洽談
2026	Jamba2 系列（3B / Mini 52B）Apache 2.0 開源	跟進開源潮流

一個扎心的對照:2021 年 Jurassic-1 發布時,AI21 與 OpenAI 幾乎站在同一起跑線;五年後,OpenAI 年化營收 250 億美元,AI21 的估值連 OpenAI 的零頭都不到。

二、商業模式與護城河

2.1 錢從哪裡來？

AI21 的商業模式經歷了三次轉型：消費產品（Wordtune）→ 通用大模型 API（Jurassic）→ 企業私有部署 + 編排平台（Jamba + Maestro）。目前的收入結構：

收入支柱	內容	定位
企業私有部署	Jamba 系列裝進客戶 VPC/機房，主打金融等受監管行業	目前主力，與 Cohere 同一戰場
Maestro 平台	AI 規劃與編排系統——有趣的是它不綁自家模型，可以調度 GPT、Claude 等第三方模型提升複雜任務準確率	「AI for AI Systems」的轉型賭注
雲端分銷	AWS Bedrock、Google Vertex、Azure 上架	長尾觸及
Wordtune	消費級寫作助手	遺產業務，貢獻現金流與品牌

2.2 護城河分析

護城河來源	強度	說明
架構差異化	中	Mamba-Transformer 混合架構在長上下文的推理效率上有真實優勢（記憶體佔用低、吞吐快），是少數敢跳出純 Transformer 的玩家
長上下文效率	中	256K 上下文的性價比是賣點,但巨頭的 context 軍備競賽（1M 起跳）稀釋了此優勢
人才密度	強（但屬於買家）	約 200 人的精銳團隊正是 NVIDIA 願出 20-30 億的原因——護城河本身成了「被收購的理由」
企業信任/以色列生態	中	受監管行業客戶與以色列軍事/科技人才管道
轉移成本	弱偏中	Maestro 若成為企業 AI 編排標準會有黏性,但目前規模太小

2.3 策略解讀：從「造模型」撤退到「管模型」

Maestro 是理解 AI21 現狀的關鍵：它是一套模型無關（model-agnostic）的規劃編排層，用系統化方法把 GPT-4o、Claude 等模型在複雜企業任務上的準確率拉高。這實質上是一次戰略撤退的宣言——承認在基礎模型軍備競賽中無法獲勝，轉而做「所有模型之上的那一層」。

這條路線的邏輯與 Cohere（061）形成有趣對照：Cohere 靠「主權與部署」差異化，AI21 靠「架構與編排」差異化——兩者都在回答同一個問題：基礎模型被巨頭商品化之後，中型玩家還能站在哪裡？

三、核心模型矩陣介紹

AI21 與 Cohere 一樣公開參數量——「讓客戶自己跑」的定位決定了規格透明。

3.1 現役模型（2026 年中）

模型	定位	規格	授權
Jamba 1.6 Large	企業旗艦	398B MoE（激活 94B）、256K 上下文	開放權重（Jamba 條款）
Jamba 1.6 Mini	輕量部署	52B MoE（激活 12B）、256K 上下文	開放權重
Jamba2 Mini	新一代主力（2026）	52B MoE（激活 12B）	Apache 2.0
Jamba2 3B / Jamba Reasoning 3B	裝置端/邊緣	3B、250K 上下文,消費級硬體可跑	Apache 2.0
Maestro	模型無關的規劃編排系統	調度自家與第三方模型	企業平台
Wordtune	消費寫作助手	-	訂閱制

3.2 技術架構特色：唯一的「非純 Transformer」玩家

這是 AI21 在本系列中最獨特的位置——所有其他公司都在 Transformer 框架內卷，只有它把寶押在混合架構上：

技術	說明
SSM-Transformer 混合	Jamba 交錯堆疊 Mamba（狀態空間模型）層與 Transformer 注意力層——Mamba 層處理序列的記憶體成本隨長度線性成長,而非注意力機制的平方成長
長上下文效率紅利	同樣 256K 上下文,Jamba 的 KV cache 記憶體佔用遠低於純 Transformer,單卡可服務的併發量更高——這對「自己買 GPU 部署」的企業客戶是真金白銀
MoE 疊加	混合架構之上再加專家混合,398B 只激活 94B,追求「每一分算力的最大產出」
小模型大上下文	Jamba Reasoning 3B 用 3B 參數支撐 250K 上下文,瞄準裝置端 Agent 場景
推理系統化（Maestro）	不靠單一模型的「思考」,靠外部規劃器分解、驗證、編排——學派上更接近 Shoham 的多代理系統傳統

技術注腳：2025-2026 年業界(包括 NVIDIA 的研究)越來越多採用混合注意力/SSM 路線做效率優化——AI21 的技術判斷方向是對的,但「判斷對」與「贏得市場」之間隔著行銷、通路與資本的鴻溝。

四、競爭優勢與隱憂

4.1 競爭優勢

優勢	說明
架構先行者	全球第一個把 SSM 混合架構做到生產級的團隊,長上下文效率有真實工程壁壘
人才密度	200 人團隊被 NVIDIA 估到 20-30 億美元(人均超過 1,000 萬美元),是團隊價值的市場定價
股東即靠山	NVIDIA 與 Google 同時是投資人,技術與分銷資源兼得
企業縱深	受監管行業的私有部署經驗與 Task-Specific 傳統,方向與 Cohere 驗證過的路線一致
邊緣端卡位	3B + 250K 上下文的裝置端模型,在 on-device Agent 這個新戰場有先手

4.2 隱憂與風險

1. 估值停滯訴說的殘酷事實

2023 年估值 14 億美元，2025 年 Series D 後仍約 14 億——同期 Anthropic 漲了十幾倍、xAI 漲了 342 倍。資本市場已經投票：它不被認為是牌桌上的競爭者。而 20-30 億美元的收購報價（僅為 Cohere 的十分之一）進一步錨定了天花板。

2. 收購懸置的組織損耗

NVIDIA 談判破局、Nebius 接手洽談、官方否認與創辦人「確有多方洽談」的說法互相矛盾——這種懸置狀態對留才、簽長約、拿大單都是毒藥。企業客戶不敢把五年的 AI 基礎設施押在一家「不知道明年屬於誰」的公司上。

3. 差異化賣點被快速稀釋

長上下文曾是 Jamba 的招牌，但 2026 年 1M 上下文已是巨頭標配、Gemini 甚至到 2M；效率優勢也面臨 Gemma 4、Qwen 等開源 MoE 的擠壓。架構紅利是真的，但窗口正在關閉。

4. Maestro 的戰場更擁擠

「編排層」聽起來是好位置,但那裡站著 LangChain、微軟的 Agent Framework、各雲廠商的原生編排服務,以及模型廠自己的 Agent SDK(如 Anthropic 的 Managed Agents)。用編排層逃離模型戰爭,可能只是換一個更卷的戰場。

5. 夾在兩種活法之間

Cohere 用「主權 AI」講出了地緣政治級的故事,Mistral 有歐盟撐腰,而 AI21 的以色列身分在主權敘事上反而受地緣政治複雜性拖累。它比上不足(巨頭)、比下沒有獨特敘事(主權/開源冠軍),這是估值停滯的根本原因。

結語

把 AI21 放進系列對照表：

維度	Cohere（061）	AI21 Labs
成立	2019 多倫多	2017 特拉維夫
差異化	主權 AI + 私有部署	混合架構 + 編排層
估值	約 200 億美元（合併後）	約 14 億美元，收購洽談 20-30 億
年營收	約 2.4 億美元	未公開（規模更小）
資本故事	IPO 路徑	被收購路徑
歷史定位	巨頭陰影下的利基冠軍	起了大早、趕了晚集的先行者

AI21 的故事給這個系列補上了最重要的一塊拼圖：AI 行業的整併潮已經開始。當前沿模型的訓練成本以百億美元計，14 億估值的公司無論技術多好，結局大概率只有三種——被買、找到利基、或者消失。AI21 的技術判斷（混合架構、系統化推理）很可能是對的，甚至會被歷史證明有遠見；但它的公司敘事已經從「挑戰者」變成「資產」。

對觀察者的啟示：接下來一兩年，看 AI 行業不能只看巨頭發布會，要看誰在買誰——人才、架構專利與企業客戶名單的整併，才是行業格局固化的真正訊號。

參考資料：

View on GitHub