Apple Intelligence 底層技術解密：AFM 多模型架構與 IFPruning 動態剪枝

前言：Siri 終於變聰明了？

最近聽了《科技浪》哈利的 Podcast（EP142 - Siri 終於不笨了？？），節目中深刻剖析了 Apple Intelligence 的底層技術脈絡。這讓我聯想到 Apple 近期發表的兩篇重要研究論文：解決記憶體瓶頸的 LLM in a flash，以及 2025 年 1 月發表的《Instruction-Following Pruning for Large Language Models》（簡稱 IFPruning）。

這兩項技術相輔相成，正是新版 Siri 能夠在記憶體容量有限的 iPhone 與 Mac 上，順暢執行強大 AI 任務的關鍵理論基礎。

本機 AI 的兩大技術基石：LLM in a flash 與 IFPruning

過去，要把大型語言模型（LLM）塞進手機裡是非常困難的，因為手機的 DRAM 容量遠遠不足以裝下動輒百億參數的完整模型。為了解決這個物理限制，Apple 採用了兩項互補的核心技術：

1. LLM in a flash：解決「裝不下」的問題

由 Keivan Alizadeh 等 Apple 研究員提出的《LLM in a flash》架構，核心邏輯非常精準： 把大模型的完整權重，主要存放在 Flash Memory (NAND / SSD) 等儲存空間中。當系統準備進行推論時，只將當下需要的權重動態搬移到 RAM / DRAM 中。

2. Instruction-Following Pruning (IFPruning)：解決「不用全跑」的問題

傳統的模型剪枝（Pruning）是固定剪掉一定比例的參數，之後不管面對什麼任務，都只能用同一套被閹割的小模型。但在 2025 年 1 月發表的《Instruction-Following Pruning for Large Language Models》中，Apple 研究團隊（包含 Bairu Hou, Qibin Chen 等人）提出了一個革命性的做法：加入一個 sparse mask predictor。 Instruction-Following Pruning = 讓模型先看懂使用者的指令 (Instruction)，再動態決定這次任務需要啟用哪些模型參數。

透過這兩項技術的結合，Apple 成功打破了硬體記憶體的物理限制：將完整權重存在 NAND 中 (LLM in a flash)，並根據使用者指令動態挑選需要啟用的專家區塊載入 DRAM (IFPruning)，讓裝置能以極低的延遲運行遠超出其 RAM 容量的龐大模型。

前言：Siri 終於變聰明了？
本機 AI 的兩大技術基石：LLM in a flash 與 IFPruning
- 1. LLM in a flash：解決「裝不下」的問題
- 2. Instruction-Following Pruning (IFPruning)：解決「不用全跑」的問題
Apple AFM 完整架構解析
結論

Apple AFM 完整架構解析

奠基於上述技術，Apple 在 2026 年 6 月正式介紹了第三代 Apple Foundation Models (AFM)。這並不是單一的「超級大腦」，而是一套共有五個 foundation models 的動態協作體系：兩個地端模型、兩個雲端模型，加上一個專屬的圖像模型。

Loading Diagram...

一、地端模型 (On-Device Models)

這兩個模型直接在 iPhone、iPad 或 Mac 的 Apple Silicon 上運行，主打無與倫比的速度與最高層級的隱私保護。

1. AFM 3 Core (3B 地端小腦)

參數規模：約 3B。
架構類型：稠密模型 (Dense Model)。意思是模型推論時，大部分的參數路徑都會固定參與運算。
主要用途：處理一般文字、摘要提取、改寫、通知整理、簡單助理任務與 App 內的小型 AI 功能。
優勢：執行速度極快、省電，適合處理隱私敏感但複雜度較低的日常任務。

2. AFM 3 Core Advanced (20B 地端大腦)

這顆模型是新系統的真正靈魂，完美實踐了上述兩項底層技術。

參數規模：總規模高達 20B。
架構類型：稀疏模型 (Sparse Model)。
運行機制：結合了 LLM in a flash 與 IFPruning 的概念。它的完整權重存放在 NAND (Flash) 中，收到使用者問題時，會根據 prompt 動態判斷需要哪些 experts。接著，只把需要的 experts 載入 DRAM 中與 shared experts 結合執行，每次實際啟用的參數僅約 1B～4B。
創新點：它不是傳統 token-by-token 的 MoE，而是 prompt-level expert selection (Instruction-Following Pruning)。讓模型像專家系統一樣，依任務啟用最有用的部分。論文結果指出，其 3B activated model 在數學、程式等領域表現甚至接近 9B 模型的實力。
主要用途：負責新 Siri、自然語音 (TTS)、精準聽寫、多模態與視覺理解。Apple 測試顯示，它在 1B active 狀態下，語音生成品質超越了既有的生產系統，對口語停頓與語意的捕捉更加精確。

二、雲端模型 (Server-Based Models)

當任務過於複雜，系統會透過 Private Cloud Compute 將資料加密送往雲端處理。

3. AFM 3 Cloud (雲端快腦)

定位：雲端主力模型 (Server-side workhorse)。
特點：主打速度 (Speed)、效率 (Efficiency) 與效能 (Performance) 的完美平衡，專門處理常規的雲端 AI 推理任務。

4. AFM 3 Cloud Pro (雲端強腦)

定位：最強雲端模型。
主要用途：負責複雜推理、Agentic tool use (代理工具調用) 等需要強大算力的任務。
亮點：這套模型是 Apple 與 Google、NVIDIA 合作的結晶。它在 Google Cloud 裡使用 NVIDIA GPU 擴充算力，但仍被嚴格包覆在 Apple 的 Private Cloud Compute 隱私框架中。

三、圖像模型 (Image Model)

5. ADM 3 Cloud Image (圖像腦)

需要注意的是，圖像生成並不屬於 AFM (Foundation Models)，而是使用了擴散模型架構。

全名：Apple Diffusion Model (ADM)。
主要用途：專責 Image Playground、Genmoji 創作、圖像生成與照片編輯。透過 specialized adapters，它還能支援 Spatial Reframing (空間重構) 與靈活的觸控式圖片修改。

結論

一句話總結：Apple 不是只把 Siri 換成一個大模型，而是做了一套「地端小模型＋地端稀疏大模型＋雲端快模型＋雲端強模型＋圖像模型」的多模型架構。

藉由這套分工明確的 AFM 架構，搭配突破硬體限制的「LLM in a flash」與精準呼叫專家模組的「IFPruning 動態剪枝」技術，Apple 成功在不犧牲隱私與續航的前提下，將真正的 AI 智慧帶入了使用者的日常設備中。

View on GitHub

Apple Intelligence 底層技術解密：AFM 多模型架構與 IFPruning 動態剪枝

Topics

WRITTEN BY

上一篇

前言：Siri 終於變聰明了？

本機 AI 的兩大技術基石：LLM in a flash 與 IFPruning

1. LLM in a flash：解決「裝不下」的問題

2. Instruction-Following Pruning (IFPruning)：解決「不用全跑」的問題

Apple AFM 完整架構解析

一、地端模型 (On-Device Models)

1. AFM 3 Core (3B 地端小腦)

2. AFM 3 Core Advanced (20B 地端大腦)

二、雲端模型 (Server-Based Models)

3. AFM 3 Cloud (雲端快腦)

4. AFM 3 Cloud Pro (雲端強腦)

三、圖像模型 (Image Model)

5. ADM 3 Cloud Image (圖像腦)

結論

Apple Intelligence 底層技術解密：AFM 多模型架構與 IFPruning 動態剪枝

Topics

WRITTEN BY

上一篇

前言：Siri 終於變聰明了？

本機 AI 的兩大技術基石：LLM in a flash 與 IFPruning

1. LLM in a flash：解決「裝不下」的問題

2. Instruction-Following Pruning (IFPruning)：解決「不用全跑」的問題

Apple AFM 完整架構解析

一、 地端模型 (On-Device Models)

1. AFM 3 Core (3B 地端小腦)

2. AFM 3 Core Advanced (20B 地端大腦)

二、 雲端模型 (Server-Based Models)

3. AFM 3 Cloud (雲端快腦)

4. AFM 3 Cloud Pro (雲端強腦)

三、 圖像模型 (Image Model)

5. ADM 3 Cloud Image (圖像腦)

結論

一、地端模型 (On-Device Models)

二、雲端模型 (Server-Based Models)

三、圖像模型 (Image Model)