Apple Intelligence 底層技術解密:AFM 多模型架構與 IFPruning 動態剪枝

Apple Intelligence 底層技術解密:AFM 多模型架構與 IFPruning 動態剪枝

Apple Intelligence 的核心並非單一巨型模型,而是一套涵蓋地端、雲端與圖像的 AFM 多模型協作架構。本文將結合科技浪 Podcast 的探討與 Apple 最新官方論文,深入解析其 20B 稀疏模型的運作機制,以及背後關鍵的 IFPruning 動態剪枝與 LLM in a flash 記憶體最佳化技術。


前言:Siri 終於變聰明了?

最近聽了《科技浪》哈利的 Podcast(EP142 - Siri 終於不笨了??),節目中深刻剖析了 Apple Intelligence 的底層技術脈絡。這讓我聯想到 Apple 近期發表的兩篇重要研究論文:解決記憶體瓶頸的 LLM in a flash,以及 2025 年 1 月發表的《Instruction-Following Pruning for Large Language Models》(簡稱 IFPruning)。

這兩項技術相輔相成,正是新版 Siri 能夠在記憶體容量有限的 iPhone 與 Mac 上,順暢執行強大 AI 任務的關鍵理論基礎。

本機 AI 的兩大技術基石:LLM in a flash 與 IFPruning

過去,要把大型語言模型(LLM)塞進手機裡是非常困難的,因為手機的 DRAM 容量遠遠不足以裝下動輒百億參數的完整模型。為了解決這個物理限制,Apple 採用了兩項互補的核心技術:

1. LLM in a flash:解決「裝不下」的問題

由 Keivan Alizadeh 等 Apple 研究員提出的《LLM in a flash》架構,核心邏輯非常精準: 把大模型的完整權重,主要存放在 Flash Memory (NAND / SSD) 等儲存空間中。當系統準備進行推論時,只將當下需要的權重動態搬移到 RAM / DRAM 中。

2. Instruction-Following Pruning (IFPruning):解決「不用全跑」的問題

傳統的模型剪枝(Pruning)是固定剪掉一定比例的參數,之後不管面對什麼任務,都只能用同一套被閹割的小模型。 但在 2025 年 1 月發表的《Instruction-Following Pruning for Large Language Models》中,Apple 研究團隊(包含 Bairu Hou, Qibin Chen 等人)提出了一個革命性的做法:加入一個 sparse mask predictor。 Instruction-Following Pruning = 讓模型先看懂使用者的指令 (Instruction),再動態決定這次任務需要啟用哪些模型參數。

透過這兩項技術的結合,Apple 成功打破了硬體記憶體的物理限制:將完整權重存在 NAND 中 (LLM in a flash),並根據使用者指令動態挑選需要啟用的專家區塊載入 DRAM (IFPruning),讓裝置能以極低的延遲運行遠超出其 RAM 容量的龐大模型。

Apple AFM 完整架構解析

奠基於上述技術,Apple 在 2026 年 6 月正式介紹了第三代 Apple Foundation Models (AFM)。這並不是單一的「超級大腦」,而是一套共有五個 foundation models 的動態協作體系:兩個地端模型、兩個雲端模型,加上一個專屬的圖像模型。

Loading Diagram...

一、 地端模型 (On-Device Models)

這兩個模型直接在 iPhone、iPad 或 Mac 的 Apple Silicon 上運行,主打無與倫比的速度與最高層級的隱私保護。

1. AFM 3 Core (3B 地端小腦)

  • 參數規模:約 3B。
  • 架構類型稠密模型 (Dense Model)。意思是模型推論時,大部分的參數路徑都會固定參與運算。
  • 主要用途:處理一般文字、摘要提取、改寫、通知整理、簡單助理任務與 App 內的小型 AI 功能。
  • 優勢:執行速度極快、省電,適合處理隱私敏感但複雜度較低的日常任務。

2. AFM 3 Core Advanced (20B 地端大腦)

這顆模型是新系統的真正靈魂,完美實踐了上述兩項底層技術。

  • 參數規模:總規模高達 20B。
  • 架構類型稀疏模型 (Sparse Model)
  • 運行機制:結合了 LLM in a flash 與 IFPruning 的概念。它的完整權重存放在 NAND (Flash) 中,收到使用者問題時,會根據 prompt 動態判斷需要哪些 experts。接著,只把需要的 experts 載入 DRAM 中與 shared experts 結合執行,每次實際啟用的參數僅約 1B~4B
  • 創新點:它不是傳統 token-by-token 的 MoE,而是 prompt-level expert selection (Instruction-Following Pruning)。讓模型像專家系統一樣,依任務啟用最有用的部分。論文結果指出,其 3B activated model 在數學、程式等領域表現甚至接近 9B 模型的實力。
  • 主要用途:負責新 Siri、自然語音 (TTS)、精準聽寫、多模態與視覺理解。Apple 測試顯示,它在 1B active 狀態下,語音生成品質超越了既有的生產系統,對口語停頓與語意的捕捉更加精確。

二、 雲端模型 (Server-Based Models)

當任務過於複雜,系統會透過 Private Cloud Compute 將資料加密送往雲端處理。

3. AFM 3 Cloud (雲端快腦)

  • 定位:雲端主力模型 (Server-side workhorse)。
  • 特點:主打速度 (Speed)、效率 (Efficiency) 與效能 (Performance) 的完美平衡,專門處理常規的雲端 AI 推理任務。

4. AFM 3 Cloud Pro (雲端強腦)

  • 定位:最強雲端模型。
  • 主要用途:負責複雜推理、Agentic tool use (代理工具調用) 等需要強大算力的任務。
  • 亮點:這套模型是 Apple 與 Google、NVIDIA 合作的結晶。它在 Google Cloud 裡使用 NVIDIA GPU 擴充算力,但仍被嚴格包覆在 Apple 的 Private Cloud Compute 隱私框架中。

三、 圖像模型 (Image Model)

5. ADM 3 Cloud Image (圖像腦)

需要注意的是,圖像生成並不屬於 AFM (Foundation Models),而是使用了擴散模型架構。

  • 全名Apple Diffusion Model (ADM)
  • 主要用途:專責 Image Playground、Genmoji 創作、圖像生成與照片編輯。透過 specialized adapters,它還能支援 Spatial Reframing (空間重構) 與靈活的觸控式圖片修改。

結論

一句話總結:Apple 不是只把 Siri 換成一個大模型,而是做了一套「地端小模型+地端稀疏大模型+雲端快模型+雲端強模型+圖像模型」的多模型架構。

藉由這套分工明確的 AFM 架構,搭配突破硬體限制的「LLM in a flash」與精準呼叫專家模組的「IFPruning 動態剪枝」技術,Apple 成功在不犧牲隱私與續航的前提下,將真正的 AI 智慧帶入了使用者的日常設備中。