兩位大師的 Agent 心法:Andrew Ng 的四大模式 × Shunyu Yao 的思維引擎

兩位大師的 Agent 心法:Andrew Ng 的四大模式 × Shunyu Yao 的思維引擎

AI 系列-深入解析定義現代 AI Agent 的兩位關鍵學者:Andrew Ng 提出的四大 Agentic Design Patterns,以及 Shunyu Yao 發明的 ReAct 與 Tree of Thoughts,讓你從使用者升級為設計者。


一個 AI 能不能「真的做事」,不取決於它有多聰明,而取決於它如何思考、何時行動、以及何時回頭重來

過去兩篇我們談的是工具層(Skill 系統)與執行層(OpenClaw 自動化)。這一篇,我們往上退一步,回到最根本的問題:AI Agent 的思維框架是誰設計的?它的邏輯根基長什麼樣子?

答案來自兩位學者。一位告訴我們 Agent 能做什麼(Andrew Ng),另一位告訴我們 Agent 如何思考(Shunyu Yao)。


大師一:Andrew Ng 的四大 Agentic Design Patterns

Andrew Ng,人工智慧教育界的傳奇人物,Coursera AI 課程創辦人,Google Brain 共同創辦人。他在 2024 年提出了目前業界引用最廣的 Agent 設計分類法——四大 Agentic Design Patterns

這不是學術論文,而是一套給工程師與產品設計者用的心智地圖

Pattern 1:Reflection(反思)

最容易被忽略,也是最基礎的升級。

讓 AI 生成答案之後,不直接輸出,而是再問一次自己:「這樣對嗎?哪裡可以更好?」

生成 → 審查 → 修改 → 再審查 → 輸出

這就像你寫完一封重要的 Email,發出去之前再讀一遍。差別是 AI 的「再讀一遍」可以非常徹底——它會站在批評者的角度,系統性地挑出邏輯漏洞、語氣問題與遺漏細節。

實際應用中,Reflection 可以是同一個模型自我對話,也可以是兩個模型互相審查(Generator + Critic 架構)。

Pattern 2:Tool Use(工具使用)

這是讓 AI 從「博學的聊天者」變成「能辦事的員工」的關鍵。

LLM 推理 → 決定呼叫哪個工具 → 執行工具 → 取得結果 → 繼續推理

工具可以是搜尋引擎、Python 計算機、資料庫、API 呼叫,甚至是瀏覽器控制器。Claude Code 本身就是這個模式的極致體現——它能讀檔、寫檔、執行程式、測試結果,全部透過工具串接完成。

這也是為什麼上一篇的 OpenClaw 那麼強大:它幫 Agent 配備了完整的工具庫,讓 AI 不只是「說說而已」。

Pattern 3:Planning(規劃)

面對複雜任務,AI 不能埋頭就做,它需要先想清楚再動手

大任務 → 拆解子任務 → 排序依賴關係 → 逐步執行 → 動態調整

主流做法有三種:

策略說明適合場景
Chain of Thought像人類一樣逐步推理單步邏輯問題
ReAct推理與行動交替進行需要外部工具的任務
Plan-and-Execute先完整規劃,再逐步執行多步驟長任務

規劃能力決定了 AI 能不能完成「不是一步就能解決」的真實世界任務。

Pattern 4:Multi-Agent(多智能體協作)

這是目前最前沿、也最具爆發力的模式。

不是一個 AI 做所有事,而是多個 AI 分工,各司其職

Orchestrator(指揮官)
├── Agent A:資料研究員
├── Agent B:文章撰寫者
└── Agent C:品質審查者

Claude Code 的 Agent 工具正是這個模式的實踐——你可以在主對話中派出子 Agent 去獨立完成研究任務,同時繼續進行其他工作。這就是從「人機協作」邁向「人機管理」的真正起點。


大師二:Shunyu Yao 的思維引擎

如果說 Andrew Ng 告訴我們「Agent 能做什麼」,那 Shunyu Yao(Yao et al.,普林斯頓 / Google DeepMind)則告訴我們「Agent 如何思考」。

他貢獻了兩篇改變 AI Agent 推理方式的論文。

ReAct:讓推理與行動融合

論文: ReAct: Synergizing Reasoning and Acting in Language Models(2022)

在 ReAct 之前,AI 要嘛只是推理(Chain of Thought),要嘛只是行動(呼叫工具)。Yao 的洞見是:這兩件事應該交替進行,互相修正。

Thought 1: 我需要查詢台灣 2024 年的 GDP 數據
Action 1: Search("台灣 GDP 2024")
Observation 1: 台灣 2024GDP 約為 7,900 億美元

Thought 2: 我已有數據,可以給出答案
Action 2: Finish("台灣 2024 年 GDP 約為 7,900 億美元")

Thought 讓 AI 解釋「為什麼這樣做」,而不是盲目行動。Observation 把外部世界的真實結果帶回來,讓下一步推理更接地氣。

這個架構的最大價值是可解釋性——每一步 AI 都在「說出自己的想法」,而不是黑盒輸出。這對調試 Agent 行為、建立人類信任感,都至關重要。

Tree of Thoughts:讓 AI 學會「回頭」

論文: Tree of Thoughts: Deliberate Problem Solving with Large Language Models(2023)

ReAct 是一條線,走錯了就卡住。ToT 的突破是:把推理從線性變成樹狀,允許探索、評估、剪枝、回溯。

              [問題]
             /   |   \
          [A]   [B]   [C]     ← 多個初始路徑
         / \     |    / \
       [A1][A2] [B1] [C1][C2] ← 繼續展開
            ✓        ✗    ✓  ← 評估打分,剪掉死路

ToT 的四個核心組件:

  1. 思考步驟(Thought):每個節點是一個中間推理狀態
  2. 展開(Expansion):每個節點生成 2-5 個可能的下一步
  3. 評估(Evaluation):讓 LLM 給每條路徑打分(sure / maybe / impossible)
  4. 搜尋策略(Search):BFS(廣度優先)或 DFS(深度優先)

以 24 點遊戲(4, 9, 10, 13 算出 24)為例,ToT 能系統性地探索各種組合可能性,而不是靠運氣一次猜中。


兩套理論的全景對比

面向Andrew Ng(四大模式)Shunyu Yao(ReAct / ToT)
視角系統架構設計推理機制設計
層級What can agents doHow do agents think
貢獻分類框架執行引擎
適用對象產品設計者、系統架構師演算法工程師、研究者
ReAct 定位Planning 模式的具體實現之一核心方法論
ToT 定位Reflection 模式的進化版高階推理引擎

兩套理論不是競爭關係,而是互補的兩層。Ng 的框架告訴你「蓋一棟樓要有哪些部件」,Yao 的理論告訴你「樑柱的力學原理是什麼」。


何時用 ReAct,何時用 ToT?

這是工程實踐中最常遇到的選擇題:

任務有明確步驟,需要外部工具?    → ReAct
Token 預算有限,需要快速回應?    → ReAct
任務需要創意探索、多方案比較?    → ToT
數學 / 邏輯問題容易一條路走死?   → ToT
需要最高品質輸出,成本不是問題?  → ToT

實際上,成熟的 Agent 系統會混用兩者:用 ReAct 處理有工具輔助的資訊收集階段,用 ToT 處理需要深度推理的核心決策環節。


我的反思

AI 的進步從來不是單靠算力的堆疊,而是靠「思維結構」的設計

ReAct 是一個 Prompt 格式的改變,卻讓模型表現躍升。ToT 是把線性換成樹狀,卻解鎖了全新的推理能力。這讓我想到上篇 OpenClaw 實驗的核心:真正讓 AI 強大的,不是更大的模型,而是更好的框架設計

這也是 Skill 系統的深層邏輯:我們在為 AI 安裝的,本質上就是 Andrew Ng 框架裡的「Planning 指引」與「Tool Use 授權」,只是以更工程化、可複用的形式封裝起來。

如果你只是在用 AI,你是工具的使用者。如果你開始思考 Agentic Design Patterns,你就成了系統的設計者。兩者之間的差距,就是這篇文章存在的理由。


參考資料 (References)

延伸閱讀

論文原文

推薦影片