Together AI 深度解析:開源模型的加油站,用 FlashAttention 之父的核心武器賣算力

Together AI 深度解析:開源模型的加油站,用 FlashAttention 之父的核心武器賣算力

深度解析 Together AI 的公司背景與創始人故事(賣掉 Topsy 給蘋果的連續創業者+FlashAttention 之父的學術天團)、「開源模型推理雲」的商業模式與核心層護城河、RedPajama 開源資料集與推理引擎技術棧,以及 ARR 一年翻倍破 10 億美元背後,推理價格戰與重資產化的競爭優勢與隱憂。


「AI 公司」系列第十四篇,第二週「開源生態」收官。這一週寫過造模型的(Meta、Mistral)、發模型的(Hugging Face)、賣晶片順便送模型的(NVIDIA)——最後補上生態拼圖的最後一塊:跑模型的

開源模型有一個天生的斷點:權重免費下載,但你得有 GPU、會優化、能擴容才跑得動。Together AI 做的就是把這個斷點變成生意——開源模型的加油站:你在 Hugging Face 找到模型,在 Together 一行 API 跑起來。這門生意 2026 年 2 月做到了年化營收 10 億美元(一年翻近十倍的成長曲線),估值朝 75 億美元邁進。


一、公司背景與創始人故事:連續創業者 + 史丹佛學術天團

1.1 創辦陣容:工業界的手,學術界的腦

Together AI 成立於 2022 年 6 月,創始組合是典型的「商業老兵+頂級學者」結構:

人物背景
Vipul Ved Prakash(CEO)連續創業者:寫過裝機千萬台的開源反垃圾郵件工具 Vipul's Razor;創辦社群搜尋公司 Topsy,2013 年以超過 2 億美元賣給 Apple
Ce Zhang(CTO)前 ETH Zurich 教授,分散式機器學習系統專家
Percy Liang史丹佛教授,基礎模型研究中心(CRFM)主任、HELM 評測創立者
Chris Ré史丹佛教授,MacArthur 天才獎得主,Snorkel/SambaNova 共同創辦人
Tri Dao(首席科學家,2023 加入)FlashAttention 之父——這個記憶體高效注意力演算法是 OpenAI、Anthropic、Meta、Mistral 訓練與推理棧的標準元件

值得注意 Tri Dao 的份量:FlashAttention 系列可能是近年單一影響力最大的系統層論文——全行業都在用他的演算法,而他本人在 Together 上班。這是 Together 推理速度領先的人才根源。

1.2 創業初衷:對抗「算力護城河」

公司的成立宣言直指一個結構性問題:訓練級算力與資料正集中在少數巨頭手裡(compute moat)。Together 的回答是做「開源陣營的算力公共設施」——這個定位讓它從第一天起就站在開源生態的順風位。

1.3 時程表

時間里程碑意義
2022/06成立「AI 民主化」定位
2023RedPajama 開源資料集(V2 達 30 兆 token)復刻 Llama 訓練資料並開放——開源模型的公共糧倉,無數模型受惠
2023 夏Tri Dao 加入任首席科學家核心層(kernel)武器庫到位
2023/11Series A 1.025 億美元(Kleiner Perkins 領投,NVIDIA 參與)「NVIDIA 系新雲」身分確立
2024/03Salesforce 領投 1.06 億,估值 12.5 億美元企業市場背書
2025/02Series B 3.05 億美元,估值 33 億General Catalyst 領投;開始自建資料中心
2025/09Instant Clusters 正式商用API 式自助 GPU 集群,從 8 卡到數百卡分鐘級開通
2025 底ARR 約 6.18 億美元開源推理需求爆發(DeepSeek/Qwen/Kimi 效應)
2026/02ARR 突破 10 億美元;新一輪融資洽談,估值上看 75 億「開源加油站」商業驗證完成

二、商業模式與護城河

2.1 錢從哪裡來?——兩條腿:按 token 收費 + 按 GPU 收租

收入支柱內容佔比與定位
Serverless API(按 token)200+ 開源模型即開即用:Llama、Qwen、DeepSeek、Kimi、Mistral 全家約 30-40% 營收;毛利較高,隨開源生態繁榮水漲船高
GPU 集群租賃專用集群訓練/微調/推理,Hopper 與 Blackwell 全支援,Instant Clusters 自助開通營收大頭;越來越多跑在自建資料中心
微調與企業服務託管微調、專屬部署、企業合規黏性與客單價提升

本質上它是「新雲(Neocloud)」陣營的一員(同類:CoreWeave、Lambda、Fireworks、Groq),但差異化在於:別人賣裸算力,它賣「算力+全球最快的開源模型推理棧」。

2.2 護城河分析

護城河來源強度說明
核心層技術(Kernel)強,但需持續證明FlashAttention 4、推測解碼、ThunderAgent(Agent 負載 3.6 倍吞吐)、ATLAS-2——同樣的 GPU 跑出更多 token,就是同樣的價格賺更多毛利
開源生態卡位中偏強新開源模型發布當天就能在 Together 上線,「開源模型的預設推理端點」心智
NVIDIA 關係中偏強NVIDIA 是股東,新卡優先取得權在 GPU 稀缺時代是實質優勢
RedPajama 的社群資本開源資料集的公共貢獻換來的品牌信任
轉移成本弱偏中API 相容 OpenAI 格式是行業慣例——客戶切換供應商只要改一行 base_url,這是整個賽道的原罪

2.3 策略解讀:速度就是毛利

推理雲的殘酷之處在於產品高度同質(都是跑同樣的開源模型),最終只能拚兩件事:價格與速度。Together 的解法是把「速度」做成技術壁壘——Tri Dao 團隊的核心層優化讓同一張 H100 產出更多 token,等於用論文降低邊際成本。這也解釋了為什麼一家推理公司要養一支世界級研究團隊:在這個賽道,研究部門就是成本部門的救星。


三、核心產品與技術矩陣

3.1 產品全景(2026 年中)

產品定位說明
Serverless Inference核心 API200+ 開源模型,OpenAI 相容介面,按 token 計費
Instant Clusters自助 GPU 雲8 卡到數百卡分鐘級開通,支援 Blackwell
Dedicated Endpoints專屬推理客製吞吐與延遲保證的企業級部署
Fine-tuning 平台微調託管LoRA 到全參數微調的一站式服務
Together Kernel Collection底層武器FlashAttention 4 等核心層優化的產品化封裝
Code/Agent 沙盒新場景為 Agent 工作負載優化的執行環境(ThunderAgent)

3.2 技術棧特色

技術說明
FlashAttention 4長序列場景最高 4 倍效能——注意力計算的行業標準,原作者坐鎮
ThunderAgent針對 Agent 高頻工具調用的推理優化,吞吐最高 3.6 倍——押注 Agent 時代的負載形態
ATLAS-2 推測解碼1.5 倍推理加速
RedPajama 資料集30 兆 token 開放語料,開源模型的公共糧倉
研究血統Hyena、FlexGen、Medusa 等系統研究持續產出——「用研究降成本」的飛輪

3.3 它與生態的關係:一張圖看懂

第二週五家公司正好構成開源 AI 的完整價值鏈:

Meta / Mistral(造模型)→ Hugging Face(發模型)→ Together AI(跑模型)
                ↑                                        ↑
        NVIDIA(賣晶片給所有人,順便自己也發模型 Nemotron)

Together 的位置是「最後一哩」:開源模型從權重變成生產流量的必經之路。有趣的是它同時也是 Nemotron 聯盟語境下 NVIDIA 的親密盟友——新雲與晶片商的共生,對抗的是超大雲的議價權。


四、競爭優勢與隱憂

4.1 競爭優勢

優勢說明
開源紅利的直接受益人DeepSeek/Qwen/Kimi 每發一個爆款,它的流量就漲一波——中國開源越強,它越賺(微妙的地緣紅利)
速度=毛利的技術飛輪核心層優化讓同樣硬體產出更多 token,是同質化賽道裡少數可持續的差異化
成長證明ARR 一年從億級衝到 10 億美元,開源推理需求的最佳實證
NVIDIA 系身分股東關係+新卡優先權+Nemotron 聯盟盟友
學術品牌RedPajama 與研究產出讓它在開發者社群有「自己人」的信任

4.2 隱憂與風險

1. 推理價格戰沒有終點

Token 單價的下跌速度堪比記憶體:模型商自營 API(DeepSeek 官方價格屠夫)、新雲同行(Fireworks、Groq 的 LPU)、超大雲(Bedrock/Vertex 全都上架開源模型)三面夾擊。速度優勢帶來的毛利,可能永遠追不上單價下跌的速度。

2. 從輕資產滑向重資產

為了保毛利,它開始自建資料中心——這意味著走上 CoreWeave 的老路:債務融資、長期折舊、電力合約。輕資產的估值邏輯(軟體倍數)與重資產的財務現實(基建倍數)之間,遲早要選一邊。

3. 轉移成本的原罪

OpenAI 相容 API 是行業標配,客戶改一行設定就能換供應商。當「最快」的頭銜被搶走(核心層優化終究會擴散),客戶忠誠度會被立刻檢驗。

4. 上下游的雙向擠壓

上游 NVIDIA 既是盟友也是所有對手的供應商;下游開源模型商(Mistral、DeepSeek)都在自建推理服務直接變現。加油站的宿命:油(模型)不是你的,路(晶片)也不是你的。

5. 地緣依賴的隱形風險

流量高度依賴中國開源模型(Qwen/DeepSeek/Kimi 是推理需求主力)——若美國監管限制中國模型的商業使用,Together 的產品貨架會瞬間空一半。這與 Hugging Face(068)面對的是同一把劍。


結語:第二週收官

把 Together 放進本週座標系,開源生態五家公司的分工與命運一目了然:

公司角色年營收(約)核心風險
Meta(064)造模型(動搖中)2,000 億(廣告)前沿信任赤字
Mistral(065)造模型(主權旗手)4 億規模代差
Hugging Face(068)發模型1.3 億變現落差
NVIDIA(069)賣鏟+發地圖2,160 億循環交易+客戶自研
Together AI跑模型10 億價格戰+重資產化

第二週的總結論其實已經浮現:開源生態裡,「造模型」的不賺錢(Meta 賠本做公益、Mistral 靠政治輸血),「配套服務」的反而先賺到錢(NVIDIA 的鏟子、Together 的加油站)。開源模型是這個生態的公共品,而公共品的商業定律從網際網路時代就沒變過——價值在基礎設施與流量入口沉澱,不在內容本身

下週換一個完全不同的世界:不寫文字模型了,寫圖像、影片與聲音——從一家只有幾十個人、不拿 VC 一分錢、卻可能是全行業利潤率最高的公司開始:Midjourney。


參考資料: