強化學習

強化學習 (RL) - PPO
AI相關強化學習

強化學習 (RL) - PPO

徹底終結 Policy Gradient 的不穩定!本篇將介紹 OpenAI 提出的 PPO 演算法,它是當代強化學習的霸主,更是訓練 ChatGPT (RLHF) 的核心基石。我們將使用 Stable-Baselines3 快速實作。

Read more →
強化學習 (RL) - Policy Gradient
AI相關強化學習

強化學習 (RL) - Policy Gradient

DQN 雖然強大,但無法處理連續動作且決策過於死板。本文將介紹 Policy Gradient (策略梯度),這是一種直接學習動作機率的方法,也是現代 LLM (如 ChatGPT) 訓練的核心演算法。

Read more →
強化學習 (RL) - DQN
AI相關強化學習

強化學習 (RL) - DQN

面對圍棋海量狀態,傳統表格已無法負擔。本文將介紹 DQN 如何結合神經網路,透過經驗回放與目標網路技術,征服複雜的遊戲世界。

Read more →
強化學習 (RL) - Q-Learning
AI相關強化學習

強化學習 (RL) - Q-Learning

這不是考試,是一場生存遊戲。本文將介紹強化學習的核心組件與經典的 Q-Learning 演算法,看看 AI 如何透過「獎勵與懲罰」學會尋寶。

Read more →