Together AI 深度解析：開源模型的加油站，用 FlashAttention 之父的核心武器賣算力

「AI 公司」系列第十四篇，第二週「開源生態」收官。這一週寫過造模型的（Meta、Mistral）、發模型的（Hugging Face）、賣晶片順便送模型的（NVIDIA）——最後補上生態拼圖的最後一塊：跑模型的。

開源模型有一個天生的斷點：權重免費下載，但你得有 GPU、會優化、能擴容才跑得動。Together AI 做的就是把這個斷點變成生意——開源模型的加油站：你在 Hugging Face 找到模型，在 Together 一行 API 跑起來。這門生意 2026 年 2 月做到了年化營收 10 億美元（一年翻近十倍的成長曲線），估值朝 75 億美元邁進。

一、公司背景與創始人故事：連續創業者 + 史丹佛學術天團
二、商業模式與護城河
三、核心產品與技術矩陣
四、競爭優勢與隱憂
- 4.1 競爭優勢
- 4.2 隱憂與風險
結語：第二週收官

一、公司背景與創始人故事：連續創業者 + 史丹佛學術天團

1.1 創辦陣容：工業界的手，學術界的腦

Together AI 成立於 2022 年 6 月，創始組合是典型的「商業老兵+頂級學者」結構：

人物	背景
Vipul Ved Prakash（CEO）	連續創業者:寫過裝機千萬台的開源反垃圾郵件工具 Vipul's Razor;創辦社群搜尋公司 Topsy,2013 年以超過 2 億美元賣給 Apple
Ce Zhang（CTO）	前 ETH Zurich 教授,分散式機器學習系統專家
Percy Liang	史丹佛教授,基礎模型研究中心（CRFM）主任、HELM 評測創立者
Chris Ré	史丹佛教授,MacArthur 天才獎得主,Snorkel/SambaNova 共同創辦人
Tri Dao（首席科學家,2023 加入）	FlashAttention 之父——這個記憶體高效注意力演算法是 OpenAI、Anthropic、Meta、Mistral 訓練與推理棧的標準元件

值得注意 Tri Dao 的份量：FlashAttention 系列可能是近年單一影響力最大的系統層論文——全行業都在用他的演算法，而他本人在 Together 上班。這是 Together 推理速度領先的人才根源。

1.2 創業初衷：對抗「算力護城河」

公司的成立宣言直指一個結構性問題：訓練級算力與資料正集中在少數巨頭手裡（compute moat）。Together 的回答是做「開源陣營的算力公共設施」——這個定位讓它從第一天起就站在開源生態的順風位。

1.3 時程表

時間	里程碑	意義
2022/06	成立	「AI 民主化」定位
2023	RedPajama 開源資料集（V2 達 30 兆 token）	復刻 Llama 訓練資料並開放——開源模型的公共糧倉,無數模型受惠
2023 夏	Tri Dao 加入任首席科學家	核心層(kernel)武器庫到位
2023/11	Series A 1.025 億美元（Kleiner Perkins 領投,NVIDIA 參與）	「NVIDIA 系新雲」身分確立
2024/03	Salesforce 領投 1.06 億,估值 12.5 億美元	企業市場背書
2025/02	Series B 3.05 億美元,估值 33 億	General Catalyst 領投;開始自建資料中心
2025/09	Instant Clusters 正式商用	API 式自助 GPU 集群,從 8 卡到數百卡分鐘級開通
2025 底	ARR 約 6.18 億美元	開源推理需求爆發（DeepSeek/Qwen/Kimi 效應）
2026/02	ARR 突破 10 億美元;新一輪融資洽談,估值上看 75 億	「開源加油站」商業驗證完成

二、商業模式與護城河

2.1 錢從哪裡來？——兩條腿：按 token 收費 + 按 GPU 收租

收入支柱	內容	佔比與定位
Serverless API（按 token）	200+ 開源模型即開即用:Llama、Qwen、DeepSeek、Kimi、Mistral 全家	約 30-40% 營收;毛利較高,隨開源生態繁榮水漲船高
GPU 集群租賃	專用集群訓練/微調/推理,Hopper 與 Blackwell 全支援,Instant Clusters 自助開通	營收大頭;越來越多跑在自建資料中心
微調與企業服務	託管微調、專屬部署、企業合規	黏性與客單價提升

本質上它是「新雲（Neocloud）」陣營的一員（同類:CoreWeave、Lambda、Fireworks、Groq）,但差異化在於:別人賣裸算力,它賣「算力+全球最快的開源模型推理棧」。

2.2 護城河分析

護城河來源	強度	說明
核心層技術（Kernel）	強,但需持續證明	FlashAttention 4、推測解碼、ThunderAgent（Agent 負載 3.6 倍吞吐）、ATLAS-2——同樣的 GPU 跑出更多 token,就是同樣的價格賺更多毛利
開源生態卡位	中偏強	新開源模型發布當天就能在 Together 上線,「開源模型的預設推理端點」心智
NVIDIA 關係	中偏強	NVIDIA 是股東,新卡優先取得權在 GPU 稀缺時代是實質優勢
RedPajama 的社群資本	中	開源資料集的公共貢獻換來的品牌信任
轉移成本	弱偏中	API 相容 OpenAI 格式是行業慣例——客戶切換供應商只要改一行 base_url,這是整個賽道的原罪

2.3 策略解讀：速度就是毛利

推理雲的殘酷之處在於產品高度同質（都是跑同樣的開源模型），最終只能拚兩件事：價格與速度。Together 的解法是把「速度」做成技術壁壘——Tri Dao 團隊的核心層優化讓同一張 H100 產出更多 token，等於用論文降低邊際成本。這也解釋了為什麼一家推理公司要養一支世界級研究團隊：在這個賽道，研究部門就是成本部門的救星。

三、核心產品與技術矩陣

3.1 產品全景（2026 年中）

產品	定位	說明
Serverless Inference	核心 API	200+ 開源模型,OpenAI 相容介面,按 token 計費
Instant Clusters	自助 GPU 雲	8 卡到數百卡分鐘級開通,支援 Blackwell
Dedicated Endpoints	專屬推理	客製吞吐與延遲保證的企業級部署
Fine-tuning 平台	微調託管	LoRA 到全參數微調的一站式服務
Together Kernel Collection	底層武器	FlashAttention 4 等核心層優化的產品化封裝
Code/Agent 沙盒	新場景	為 Agent 工作負載優化的執行環境（ThunderAgent）

3.2 技術棧特色

技術	說明
FlashAttention 4	長序列場景最高 4 倍效能——注意力計算的行業標準,原作者坐鎮
ThunderAgent	針對 Agent 高頻工具調用的推理優化,吞吐最高 3.6 倍——押注 Agent 時代的負載形態
ATLAS-2 推測解碼	1.5 倍推理加速
RedPajama 資料集	30 兆 token 開放語料,開源模型的公共糧倉
研究血統	Hyena、FlexGen、Medusa 等系統研究持續產出——「用研究降成本」的飛輪

3.3 它與生態的關係：一張圖看懂

第二週五家公司正好構成開源 AI 的完整價值鏈：

Meta / Mistral（造模型）→ Hugging Face（發模型）→ Together AI(跑模型)
                ↑                                        ↑
        NVIDIA(賣晶片給所有人,順便自己也發模型 Nemotron)

Together 的位置是「最後一哩」：開源模型從權重變成生產流量的必經之路。有趣的是它同時也是 Nemotron 聯盟語境下 NVIDIA 的親密盟友——新雲與晶片商的共生，對抗的是超大雲的議價權。

四、競爭優勢與隱憂

4.1 競爭優勢

優勢	說明
開源紅利的直接受益人	DeepSeek/Qwen/Kimi 每發一個爆款,它的流量就漲一波——中國開源越強,它越賺(微妙的地緣紅利)
速度=毛利的技術飛輪	核心層優化讓同樣硬體產出更多 token,是同質化賽道裡少數可持續的差異化
成長證明	ARR 一年從億級衝到 10 億美元,開源推理需求的最佳實證
NVIDIA 系身分	股東關係+新卡優先權+Nemotron 聯盟盟友
學術品牌	RedPajama 與研究產出讓它在開發者社群有「自己人」的信任

4.2 隱憂與風險

1. 推理價格戰沒有終點

Token 單價的下跌速度堪比記憶體:模型商自營 API(DeepSeek 官方價格屠夫)、新雲同行(Fireworks、Groq 的 LPU)、超大雲(Bedrock/Vertex 全都上架開源模型)三面夾擊。速度優勢帶來的毛利,可能永遠追不上單價下跌的速度。

2. 從輕資產滑向重資產

為了保毛利,它開始自建資料中心——這意味著走上 CoreWeave 的老路:債務融資、長期折舊、電力合約。輕資產的估值邏輯(軟體倍數)與重資產的財務現實(基建倍數)之間,遲早要選一邊。

3. 轉移成本的原罪

OpenAI 相容 API 是行業標配,客戶改一行設定就能換供應商。當「最快」的頭銜被搶走(核心層優化終究會擴散),客戶忠誠度會被立刻檢驗。

4. 上下游的雙向擠壓

上游 NVIDIA 既是盟友也是所有對手的供應商;下游開源模型商(Mistral、DeepSeek)都在自建推理服務直接變現。加油站的宿命:油(模型)不是你的,路(晶片)也不是你的。

5. 地緣依賴的隱形風險

流量高度依賴中國開源模型(Qwen/DeepSeek/Kimi 是推理需求主力)——若美國監管限制中國模型的商業使用,Together 的產品貨架會瞬間空一半。這與 Hugging Face(068)面對的是同一把劍。

結語：第二週收官

把 Together 放進本週座標系，開源生態五家公司的分工與命運一目了然：

公司	角色	年營收（約）	核心風險
Meta（064）	造模型（動搖中）	2,000 億（廣告）	前沿信任赤字
Mistral（065）	造模型（主權旗手）	4 億	規模代差
Hugging Face（068）	發模型	1.3 億	變現落差
NVIDIA（069）	賣鏟+發地圖	2,160 億	循環交易+客戶自研
Together AI	跑模型	10 億	價格戰+重資產化

第二週的總結論其實已經浮現：開源生態裡，「造模型」的不賺錢（Meta 賠本做公益、Mistral 靠政治輸血），「配套服務」的反而先賺到錢（NVIDIA 的鏟子、Together 的加油站）。開源模型是這個生態的公共品，而公共品的商業定律從網際網路時代就沒變過——價值在基礎設施與流量入口沉澱，不在內容本身。

下週換一個完全不同的世界：不寫文字模型了，寫圖像、影片與聲音——從一家只有幾十個人、不拿 VC 一分錢、卻可能是全行業利潤率最高的公司開始：Midjourney。

參考資料：

View on GitHub