阶段二：时序差分学习¶

学习时间: 2 周 重要性: ⭐⭐⭐⭐⭐ 强化学习最核心的算法框架

📚 本阶段内容¶

本阶段深入学习时序差分（ Temporal-Difference, TD ）学习，这是强化学习中最重要、最实用的算法框架。

章节列表¶

01-时序差分学习基础
TD(0)算法
TD 误差
与 MC 、 DP 的对比
收敛性分析
02-SARSA 算法
On-Policy TD 控制
SARSA(λ)
收敛性保证
03-Q-Learning 算法
Off-Policy TD 控制
收敛性分析
与 SARSA 的对比
04-探索与利用
ε-贪婪
UCB 算法
梯度 Bandit
Thompson 采样
05-多步方法
n-step TD
TD(λ)
资格迹
前向/后向视角

🎯 学习目标¶

完成本阶段后，你将能够： - 掌握 TD 学习的核心思想和算法实现 - 实现 SARSA 和 Q-Learning 算法 - 理解探索与利用的权衡 - 掌握多步方法和 TD(λ) - 能够解决实际的 RL 问题

🔗 与前后阶段的联系¶

Text Only

前一阶段: 01-强化学习基础
    ├── 贝尔曼方程
    ├── 动态规划
    └── 蒙特卡洛方法
            ↓
本阶段: 02-时序差分学习
    ├── TD(0)预测
    ├── SARSA控制
    ├── Q-Learning控制
    └── 探索与利用
            ↓
后一阶段: 03-函数近似与深度学习
    ├── 值函数近似
    ├── DQN
    └── 策略梯度

💡 学习建议¶

理论结合实践：每学完一个算法，立即用代码实现
对比学习：比较 TD 、 SARSA 、 Q-Learning 的异同
调参实验：尝试不同的学习率、探索率
可视化：画出学习曲线、值函数热图

🛠️ 实践项目¶

本阶段建议完成以下实践：

Grid World 导航：用 SARSA 和 Q-Learning 分别实现
Windy Grid World： windy gridworld （有风环境）
Cliff Walking：悬崖行走问题
算法对比实验：比较不同算法的性能

📖 推荐资源¶

必读书籍¶

Sutton & Barto 《 Reinforcement Learning: An Introduction 》第 6-7 章

经典论文¶

Sutton (1988): Learning to predict by the methods of temporal differences
Watkins (1989): Learning from delayed rewards (Q-Learning)
Rummery & Niranjan (1994): On-line Q-learning using connectionist systems (SARSA)

准备好开始学习最核心的 TD 算法了吗？ 从01-时序差分学习基础开始！