跳转至

阶段三:函数近似与深度学习

学习时间: 3 周 重要性: ⭐⭐⭐⭐⭐ 深度强化学习的核心基础


📚 本阶段内容

本阶段学习如何使用函数近似(特别是神经网络)来处理大规模状态空间的强化学习问题,这是深度强化学习的核心。

章节列表

  1. 01-值函数近似
  2. 线性函数近似
  3. 特征工程
  4. 梯度下降方法
  5. 收敛性分析

  6. 02-DQN 详解

  7. 经验回放( Experience Replay )
  8. 目标网络( Target Network )
  9. 网络架构设计
  10. 训练技巧

  11. 03-DQN 改进算法

  12. Double DQN
  13. Dueling DQN
  14. Prioritized Experience Replay
  15. Noisy Networks
  16. C51/Rainbow

  17. 04-策略梯度方法

  18. REINFORCE 算法
  19. 基线( Baseline )
  20. Actor-Critic 框架
  21. A2C/A3C

  22. 05-Actor-Critic 高级方法

  23. GAE ( Generalized Advantage Estimation )
  24. 自然策略梯度
  25. TRPO 简介
  26. PPO 基础

🎯 学习目标

完成本阶段后,你将能够: - 理解函数近似的必要性和挑战 - 实现 DQN 及其改进版本 - 掌握策略梯度方法 - 理解 Actor-Critic 架构 - 能够解决复杂的连续控制问题


🔗 与前后阶段的联系

Text Only
前一阶段: 02-时序差分学习
    ├── TD(0)
    ├── SARSA
    ├── Q-Learning
    └── 探索与利用
本阶段: 03-函数近似与深度学习
    ├── 值函数近似
    ├── DQN
    ├── 策略梯度
    └── Actor-Critic
后一阶段: 04-高级算法
    ├── PPO
    ├── SAC
    └── 分布式RL

💡 学习建议

  1. 先掌握基础:确保理解 Tabular RL 后再学函数近似
  2. 关注稳定性:函数近似带来不稳定性,注意理解原因
  3. 调试技巧:学会调试神经网络 RL 算法
  4. 计算资源:准备 GPU 环境进行实验

🛠️ 实践项目

  1. CartPole with DQN:用 DQN 解决倒立摆
  2. LunarLander:连续控制入门
  3. Atari Breakout:完整 DQN 实现
  4. REINFORCE on CartPole:策略梯度入门

📖 推荐资源

必读书籍

  • Sutton & Barto 《 Reinforcement Learning: An Introduction 》第 9-13 章

经典论文

  • Mnih et al. (2015): Human-level control through deep reinforcement learning (DQN)
  • Van Hasselt et al. (2016): Deep Reinforcement Learning with Double Q-learning
  • Wang et al. (2016): Dueling Network Architectures for Deep Reinforcement Learning
  • Schaul et al. (2016): Prioritized Experience Replay
  • Mnih et al. (2016): Asynchronous Methods for Deep Reinforcement Learning (A3C)

准备好进入深度强化学习的世界了吗? 从值函数近似开始!