阶段四:高级算法¶
学习时间: 2 周 重要性: ⭐⭐⭐⭐⭐ 当前最先进的 RL 算法
📚 本阶段内容¶
本阶段学习当前最先进、最实用的强化学习算法,包括 PPO 、 SAC 等工业界常用算法。
章节列表¶
- 01-PPO 算法
- 策略梯度的问题
- 重要性采样比率裁剪
- 自适应 KL 惩罚
-
实现细节
- 最大熵 RL 框架
- 软 Q 学习
- 自动温度调节
-
双 Q 网络
- 信任区域方法
- 自然策略梯度
- Fisher 信息矩阵
-
共轭梯度法
- Dyna-Q
- 模型学习
- MBMF (Model-Based Value Expansion)
-
规划与学习的结合
- Ape-X
- IMPALA
- R2D2
-
并行化训练
- Options 框架与时间抽象
- Option-Critic 端到端学习
- 目标条件 RL 与 HER
- 多目标 RL 与帕累托优化
- 自博弈( Self-Play )
🎯 学习目标¶
完成本阶段后,你将能够: - 理解并实现 PPO 算法 - 掌握 SAC 的最大熵框架 - 理解模型基方法的优势 - 了解分布式训练的原理 - 能够解决复杂的连续控制任务
🔗 与前后阶段的联系¶
Text Only
前一阶段: 03-函数近似与深度学习
├── 值函数近似
├── DQN
├── 策略梯度
└── Actor-Critic
↓
本阶段: 04-高级算法
├── PPO
├── SAC
├── TRPO
└── 分布式RL
↓
后一阶段: 05-实战项目
├── 综合应用
└── 复杂任务
💡 学习建议¶
- 理解原理:不仅要会用,更要理解为什么有效
- 阅读源码:查看 Stable-Baselines3 等库的实现
- 实验对比:在相同环境上对比不同算法
- 调参经验:积累超参数调节的经验
🛠️ 实践项目¶
- Mujoco 连续控制:用 PPO/SAC 解决 Walker 、 Hopper
- PyBullet 机器人:低成本机器人仿真
- 自定义环境:将算法应用到自己的问题
📖 推荐资源¶
经典论文¶
- Schulman et al. (2017): Proximal Policy Optimization Algorithms (PPO)
- Haarnoja et al. (2018): Soft Actor-Critic (SAC)
- Schulman et al. (2015): Trust Region Policy Optimization (TRPO)
- Horgan et al. (2018): Distributed Prioritized Experience Replay (Ape-X)
- Espeholt et al. (2018): IMPALA
开源实现¶
- Stable-Baselines3
- RLlib (Ray)
- CleanRL
准备好掌握最先进的 RL 算法了吗? 从 PPO 开始!