HARRY CHANG

HARRY CHANG https://harrychang.cc/blog Harry Chang 的數位園藝。利用 AI 整理與記錄個人的興趣與知識庫，如果你也有相同興趣，歡迎隨意參觀。 zh-TW ksharry1025@gmail.com (HARRY CHANG) ksharry1025@gmail.com (HARRY CHANG) Tue, 02 Jun 2026 00:00:00 GMT https://harrychang.cc/blog/ai-ml-022-rl 強化學習 (RL) - Q-Learning https://harrychang.cc/blog/ai-ml-022-rl 這不是考試，是一場生存遊戲。本文將介紹強化學習的核心組件與經典的 Q-Learning 演算法，看看 AI 如何透過「獎勵與懲罰」學會尋寶。 Tue, 02 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關強化學習 https://harrychang.cc/blog/ai-ml-023-dqn 強化學習 (RL) - DQN https://harrychang.cc/blog/ai-ml-023-dqn 面對圍棋海量狀態，傳統表格已無法負擔。本文將介紹 DQN 如何結合神經網路，透過經驗回放與目標網路技術，征服複雜的遊戲世界。 Wed, 03 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關強化學習 https://harrychang.cc/blog/ai-ml-024-pg 強化學習 (RL) - Policy Gradient https://harrychang.cc/blog/ai-ml-024-pg DQN 雖然強大，但無法處理連續動作且決策過於死板。本文將介紹 Policy Gradient (策略梯度)，這是一種直接學習動作機率的方法，也是現代 LLM (如 ChatGPT) 訓練的核心演算法。 Thu, 04 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關強化學習 https://harrychang.cc/blog/ai-ml-025-ppo 強化學習 (RL) - PPO https://harrychang.cc/blog/ai-ml-025-ppo 徹底終結 Policy Gradient 的不穩定！本篇將介紹 OpenAI 提出的 PPO 演算法，它是當代強化學習的霸主，更是訓練 ChatGPT (RLHF) 的核心基石。我們將使用 Stable-Baselines3 快速實作。 Fri, 05 Jun 2026 00:00:00 GMT ksharry1025@gmail.com (HARRY CHANG) AI相關強化學習