
  <rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
      <title>HARRY CHANG</title>
      <link>https://harrychang.cc/blog</link>
      <description>Harry Chang 的數位園藝。利用 AI 整理與記錄個人的興趣與知識庫，如果你也有相同興趣，歡迎隨意參觀。</description>
      <language>zh-TW</language>
      <managingEditor>ksharry1025@gmail.com (HARRY CHANG)</managingEditor>
      <webMaster>ksharry1025@gmail.com (HARRY CHANG)</webMaster>
      <lastBuildDate>Tue, 02 Jun 2026 00:00:00 GMT</lastBuildDate>
      <atom:link href="https://harrychang.cc/tags/強化學習/feed.xml" rel="self" type="application/rss+xml"/>
      
  <item>
    <guid>https://harrychang.cc/blog/ai-ml-022-rl</guid>
    <title>強化學習 (RL) - Q-Learning</title>
    <link>https://harrychang.cc/blog/ai-ml-022-rl</link>
    <description>這不是考試，是一場生存遊戲。本文將介紹強化學習的核心組件與經典的 Q-Learning 演算法，看看 AI 如何透過「獎勵與懲罰」學會尋寶。</description>
    <pubDate>Tue, 02 Jun 2026 00:00:00 GMT</pubDate>
    <author>ksharry1025@gmail.com (HARRY CHANG)</author>
    <category>AI相關</category><category>強化學習</category>
  </item>

  <item>
    <guid>https://harrychang.cc/blog/ai-ml-023-dqn</guid>
    <title>強化學習 (RL) - DQN</title>
    <link>https://harrychang.cc/blog/ai-ml-023-dqn</link>
    <description>面對圍棋海量狀態，傳統表格已無法負擔。本文將介紹 DQN 如何結合神經網路，透過經驗回放與目標網路技術，征服複雜的遊戲世界。</description>
    <pubDate>Wed, 03 Jun 2026 00:00:00 GMT</pubDate>
    <author>ksharry1025@gmail.com (HARRY CHANG)</author>
    <category>AI相關</category><category>強化學習</category>
  </item>

  <item>
    <guid>https://harrychang.cc/blog/ai-ml-024-pg</guid>
    <title>強化學習 (RL) - Policy Gradient</title>
    <link>https://harrychang.cc/blog/ai-ml-024-pg</link>
    <description>DQN 雖然強大，但無法處理連續動作且決策過於死板。本文將介紹 Policy Gradient (策略梯度)，這是一種直接學習動作機率的方法，也是現代 LLM (如 ChatGPT) 訓練的核心演算法。</description>
    <pubDate>Thu, 04 Jun 2026 00:00:00 GMT</pubDate>
    <author>ksharry1025@gmail.com (HARRY CHANG)</author>
    <category>AI相關</category><category>強化學習</category>
  </item>

  <item>
    <guid>https://harrychang.cc/blog/ai-ml-025-ppo</guid>
    <title>強化學習 (RL) - PPO</title>
    <link>https://harrychang.cc/blog/ai-ml-025-ppo</link>
    <description>徹底終結 Policy Gradient 的不穩定！本篇將介紹 OpenAI 提出的 PPO 演算法，它是當代強化學習的霸主，更是訓練 ChatGPT (RLHF) 的核心基石。我們將使用 Stable-Baselines3 快速實作。</description>
    <pubDate>Fri, 05 Jun 2026 00:00:00 GMT</pubDate>
    <author>ksharry1025@gmail.com (HARRY CHANG)</author>
    <category>AI相關</category><category>強化學習</category>
  </item>

    </channel>
  </rss>
