跳转至

阶段六:前沿主题

⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。

学习时间: 2 周 重要性: ⭐⭐⭐⭐ 了解 RL 研究前沿


📚 本阶段内容

本阶段介绍强化学习的前沿研究方向,包括模仿学习、离线 RL 、元学习等热门主题。

章节列表

  1. 01-模仿学习
  2. 行为克隆( Behavior Cloning )
  3. DAgger 算法
  4. 逆强化学习简介
  5. 应用案例

  6. 02-离线强化学习

  7. 离线 RL 的挑战
  8. BCQ (Batch-Constrained Q-learning)
  9. CQL (Conservative Q-Learning)
  10. IQL (Implicit Q-Learning)

  11. 03-元强化学习

  12. 元学习基础
  13. MAML (Model-Agnostic Meta-Learning)
  14. RL²
  15. 任务分布学习

  16. 04-RLHF 与人类反馈

  17. 奖励模型
  18. PPO + KL 散度
  19. InstructGPT/ChatGPT 原理
  20. 应用场景

  21. 05-模型基础方法前沿

  22. MuZero
  23. Dreamer
  24. Model-Predictive Control
  25. 世界模型

  26. 06-最新研究进展

  27. Decision Transformer
  28. RL for Reasoning (GRPO, STaR)
  29. PRM 与 ORM 对比
  30. RL for Code Generation
  31. 蒸馏与 RL 的结合

  32. 07-奖励设计与 Reward-Hacking 🆕

  33. Reward Hacking 的定义与分类
  34. Goodhart 定律在 RL 中的体现
  35. 奖励塑形( PBRS 理论)
  36. 缓解策略: KL 约束、集成 RM 、 PRM

  37. 08-安全强化学习 🆕

  38. 约束 MDP ( CMDP )形式化
  39. PPO-Lagrangian 算法
  40. CPO 与 Safety Layer 方法
  41. 控制屏障函数( CBF )
  42. Safety Gymnasium 与 OmniSafe 工具

🎯 学习目标

完成本阶段后,你将能够: - 了解 RL 的前沿研究方向 - 理解模仿学习和离线 RL 的原理 - 掌握元学习的基本概念 - 了解 RLHF 在 LLM 中的应用 - 能够阅读前沿论文


🔗 与前后阶段的联系

Text Only
前一阶段: 05-实战项目
    ├── CartPole
    ├── 迷宫求解
    ├── Atari
    └── 连续控制
本阶段: 06-前沿主题
    ├── 模仿学习
    ├── 离线RL
    ├── 元学习
    └── RLHF
研究前沿:
    ├── 阅读论文
    ├── 复现算法
    └── 创新研究

💡 学习建议

  1. 关注顶会: NeurIPS, ICML, ICLR 的 RL 论文
  2. 阅读综述:定期阅读 survey paper
  3. 复现论文:选择重要论文进行复现
  4. 关注应用:了解 RL 在机器人、游戏、推荐系统等领域的应用

🔬 研究方向推荐

热门方向

  • 离线强化学习:从固定数据集学习
  • 多智能体 RL:多个智能体的协作与竞争
  • 分层 RL:高层策略规划,低层策略执行
  • 迁移学习:跨任务知识迁移

应用方向

  • 机器人:操作、导航、 locomotion
  • 自动驾驶:决策规划
  • 推荐系统:序列推荐
  • 游戏 AI:围棋、星际争霸、 Dota2
  • 大语言模型: RLHF 训练

📖 推荐资源

综述论文

  • Levine et al. (2020): Offline Reinforcement Learning
  • Botvinick et al. (2019): Reinforcement Learning, Fast and Slow
  • Wang et al. (2022): Deep Reinforcement Learning: A Survey

前沿博客

  • BAIR Blog
  • DeepMind Blog
  • OpenAI Blog
  • Spinning Up in Deep RL

学术资源

  • arXiv cs.LG
  • Papers With Code - RL
  • OpenReview (ICLR)

准备好探索 RL 的前沿了吗? 从模仿学习开始!