🤖 具身智能与机器人 AI¶
定位: 2026-2030 年 AI 最大增量方向之一,中国正大力发展人形机器人产业 就业前景:字节、小米、华为、宇树科技、智元机器人等大量招聘
目录¶
| 章节 | 内容 | 学时 |
|---|---|---|
| 01-具身智能概述 | 定义、发展历史、产业地图 | 2h |
| 02-机器人感知 | 视觉、触觉、力觉、多传感器融合 | 4h |
| 03-运动控制与规划 | 运动学、动力学、轨迹规划、强化学习控制 | 5h |
| 04-视觉-语言-动作模型(VLA) | RT-2 、 Octo 、 OpenVLA 、 Pi 系列 | 4h |
| 05-仿真环境与 Sim2Real | Isaac Sim 、 MuJoCo 、域随机化 | 3h |
| 06-前沿与面试 | 最新论文、面试题、项目建议 | 2h |
总学时:约 20 小时
01 具身智能概述¶
1.1 什么是具身智能(Embodied AI)¶
具身智能 = AI 大脑 + 物理身体 + 环境交互
传统 AI (如 ChatGPT )只在虚拟世界中运行,具身智能要求 AI 系统能感知物理世界、做出决策、并通过身体执行动作。
1.2 发展脉络¶
1.3 产业地图( 2026 年中国)¶
| 公司 | 方向 | 融资/估值 |
|---|---|---|
| 宇树科技 | 人形机器人(Unitree H1) | 百亿级 |
| 智元机器人 | 通用机器人 | 数十亿 |
| 银河通用 | 人形机器人 | 数十亿 |
| Figure AI | 人形机器人(Figure 02) | 百亿美元 |
| 小米 | CyberOne/CyberDog | 内部 |
| 华为 | 机器人生态 | 内部 |
| 特斯拉 | Optimus | 万亿美元(整体) |
1.4 具身智能技术栈¶
Text Only
感知层: 视觉(CV) + 深度(LiDAR/ToF) + 触觉 + IMU + 力矩传感器
认知层: VLM(视觉语言理解) + 任务规划(LLM) + 世界模型(物理预测)
决策层: 强化学习策略 / VLA端到端模型 / 层次化规划
执行层: 运动控制 + 力控 + 手眼协调
02 机器人感知¶
2.1 视觉感知¶
- RGB 相机:目标检测(YOLO)、语义分割(SAM)、位姿估计
- 深度相机: RealSense/ZED ,点云处理(Open3D/PCL)
- 3D 感知: PointNet/PointNet++、 3D Gaussian Splatting
2.2 触觉感知¶
- GelSight/DIGIT 触觉传感器
- 触觉→力估计→抓取反馈
2.3 多传感器融合¶
- 相机+LiDAR+IMU 融合(卡尔曼滤波/因子图优化)
- SLAM(同时定位与建图): ORB-SLAM3 、 LIO-SAM
2.4 开放词汇检测¶
- 机器人需要理解开放世界中的物体
- GroundingDINO + SAM = 任意文本描述→分割任意物体
03 运动控制与规划¶
3.1 机器人运动学¶
- 正运动学: 关节角度 → 末端位姿( DH 参数法)
- 逆运动学: 目标位姿 → 关节角度(解析解/数值迭代)
3.2 运动规划¶
- 传统方法: RRT(快速随机树)、 A*、势场法
- 学习方法: 强化学习策略(PPO/SAC)、模仿学习(Behavior Cloning)
- 层次化: 任务规划(LLM) → 技能选择 → 低层控制
3.3 强化学习在机器人中的应用¶
Python
# Isaac Gym示例 - 训练四足机器人行走
env = IsaacGymEnv("Anymal", num_envs=4096) # GPU并行4096个环境
policy = PPO(obs_dim=48, act_dim=12) # 12个关节
for epoch in range(1000):
obs, reward, done = env.step(policy.act(obs))
policy.update(obs, reward, done)
3.4 灵巧手操作¶
- 抓取规划: GraspNet 、 AnyGrasp
- 灵巧操作: 原地翻转、工具使用
- 触觉反馈控制: 力-位混合控制
04 视觉-语言-动作模型(VLA)¶
4.1 VLA 模型架构¶
4.2 代表模型¶
| 模型 | 机构 | 特点 |
|---|---|---|
| RT-2 | PaLM-E + 机器人动作 token 化 | |
| Octo | Berkeley | 开源通用机器人策略,支持多任务 |
| OpenVLA | Stanford | 开源 7B VLA , Llama-2+DINOv2/SigLIP 双视觉编码器 |
| π0 | Physical Intelligence | 多任务 FlowMatching(扩散策略) |
| GR-2 | 字节跳动 | 视频生成预训练+机器人微调 |
4.3 关键技术¶
- 动作 Token 化: 将连续动作离散化为 token ,用 LLM 架构统一处理
- 扩散策略(Diffusion Policy): 用扩散模型生成动作序列
- 模仿学习: 从人类演示数据中学习(ACT/行为克隆)
4.4 数据收集¶
- 遥操作: VR 手套/示教器控制机器人收集数据
- 人类视频: RT-2/GR-2 从大规模人类视频中学习
- 仿真合成: Isaac Sim 生成大量训练数据
05 仿真环境与 Sim2Real¶
5.1 主流仿真平台¶
| 平台 | 特点 | 适用 |
|---|---|---|
| Isaac Sim/Gym | NVIDIA GPU 并行,最快 | RL 训练、大规模仿真 |
| MuJoCo | 精确物理引擎, Google 开源 | 运动控制研究 |
| PyBullet | 轻量 Python 接口 | 教学、快速原型 |
| Gazebo | ROS 生态集成 | 传统机器人开发 |
5.2 Sim2Real 迁移¶
- 域随机化(Domain Randomization): 随机化仿真参数(摩擦/质量/光照)
- 域适应(Domain Adaptation): 对齐仿真和真实数据分布
- Teacher-Student: 仿真中训练 Teacher(有特权信息) → 蒸馏到 Student(只用传感器)
5.3 实践路线¶
Text Only
1. MuJoCo/PyBullet入门 → 控制简单机械臂
2. Isaac Gym → GPU并行训练四足/人形机器人
3. 真实机器人验证(如宇树Go2/AIRBOT Play)
06 前沿与面试¶
6.1 2025-2026 前沿趋势¶
- VLA 大模型统一: 一个模型控制多种机器人执行多种任务
- 世界模型 for 机器人: 预测物理交互结果,辅助规划
- 人形机器人量产: 2025-2026 年中国人形机器人产业爆发期
- LLM 作为任务规划器: SayCan 、 Code-as-Policies
6.2 面试题精选( 10 题)¶
- 解释 Sim2Real Gap 及其解决方案
- VLA 模型和传统 RL 控制策略的区别?
- 扩散策略(Diffusion Policy)相比 BC 的优势?
- 如何设计一个机械臂抓取的完整 Pipeline ?
- 人形机器人的全身运动控制挑战?
- 对比模仿学习和强化学习在机器人中的使用场景
- 什么是域随机化?为什么有效?
- 解释 SLAM 的核心原理
- 如何处理机器人任务中的部分可观测问题?
- 描述从视觉输入到动作输出的端到端系统
6.3 推荐项目¶
- 入门: MuJoCo 上训练机械臂到达目标位置(PPO)
- 进阶: Isaac Gym 训练四足机器人在不平地形行走
- 高级: 用 OpenVLA 微调机械臂抓取任务
6.4 学习资源¶
- 课程: Stanford CS326(具身智能)、 Berkeley RAIL Lab
- 书籍: 《 Robotics, Vision and Control 》(Corke)
- 论文必读: RT-2 、 Diffusion Policy 、 Octo 、π0
最后更新: 2026 年 2 月