強化學習

AI相關強化學習

徹底終結 Policy Gradient 的不穩定！本篇將介紹 OpenAI 提出的 PPO 演算法，它是當代強化學習的霸主，更是訓練 ChatGPT (RLHF) 的核心基石。我們將使用 Stable-Baselines3 快速實作。

2026年6月5日

—Read more →

AI相關強化學習

DQN 雖然強大，但無法處理連續動作且決策過於死板。本文將介紹 Policy Gradient (策略梯度)，這是一種直接學習動作機率的方法，也是現代 LLM (如 ChatGPT) 訓練的核心演算法。

2026年6月4日

—Read more →

AI相關強化學習

面對圍棋海量狀態，傳統表格已無法負擔。本文將介紹 DQN 如何結合神經網路，透過經驗回放與目標網路技術，征服複雜的遊戲世界。

2026年6月3日

—Read more →

AI相關強化學習

這不是考試，是一場生存遊戲。本文將介紹強化學習的核心組件與經典的 Q-Learning 演算法，看看 AI 如何透過「獎勵與懲罰」學會尋寶。

2026年6月2日

—Read more →