跳转至

阶段二:时序差分学习

学习时间: 2 周 重要性: ⭐⭐⭐⭐⭐ 强化学习最核心的算法框架


📚 本阶段内容

本阶段深入学习时序差分( Temporal-Difference, TD )学习,这是强化学习中最重要、最实用的算法框架。

章节列表

  1. 01-时序差分学习基础
  2. TD(0)算法
  3. TD 误差
  4. 与 MC 、 DP 的对比
  5. 收敛性分析

  6. 02-SARSA 算法

  7. On-Policy TD 控制
  8. SARSA(λ)
  9. 收敛性保证

  10. 03-Q-Learning 算法

  11. Off-Policy TD 控制
  12. 收敛性分析
  13. 与 SARSA 的对比

  14. 04-探索与利用

  15. ε-贪婪
  16. UCB 算法
  17. 梯度 Bandit
  18. Thompson 采样

  19. 05-多步方法

  20. n-step TD
  21. TD(λ)
  22. 资格迹
  23. 前向/后向视角

🎯 学习目标

完成本阶段后,你将能够: - 掌握 TD 学习的核心思想和算法实现 - 实现 SARSA 和 Q-Learning 算法 - 理解探索与利用的权衡 - 掌握多步方法和 TD(λ) - 能够解决实际的 RL 问题


🔗 与前后阶段的联系

Text Only
前一阶段: 01-强化学习基础
    ├── 贝尔曼方程
    ├── 动态规划
    └── 蒙特卡洛方法
本阶段: 02-时序差分学习
    ├── TD(0)预测
    ├── SARSA控制
    ├── Q-Learning控制
    └── 探索与利用
后一阶段: 03-函数近似与深度学习
    ├── 值函数近似
    ├── DQN
    └── 策略梯度

💡 学习建议

  1. 理论结合实践:每学完一个算法,立即用代码实现
  2. 对比学习:比较 TD 、 SARSA 、 Q-Learning 的异同
  3. 调参实验:尝试不同的学习率、探索率
  4. 可视化:画出学习曲线、值函数热图

🛠️ 实践项目

本阶段建议完成以下实践:

  1. Grid World 导航:用 SARSA 和 Q-Learning 分别实现
  2. Windy Grid World: windy gridworld (有风环境)
  3. Cliff Walking:悬崖行走问题
  4. 算法对比实验:比较不同算法的性能

📖 推荐资源

必读书籍

  • Sutton & Barto 《 Reinforcement Learning: An Introduction 》第 6-7 章

经典论文

  • Sutton (1988): Learning to predict by the methods of temporal differences
  • Watkins (1989): Learning from delayed rewards (Q-Learning)
  • Rummery & Niranjan (1994): On-line Q-learning using connectionist systems (SARSA)

准备好开始学习最核心的 TD 算法了吗?01-时序差分学习基础开始!