🤖 具身智能与机器人 AI¶

定位： 2026-2030 年 AI 最大增量方向之一，中国正大力发展人形机器人产业 就业前景：字节、小米、华为、宇树科技、智元机器人等大量招聘

目录¶

章节	内容	学时
01-具身智能概述	定义、发展历史、产业地图	2h
02-机器人感知	视觉、触觉、力觉、多传感器融合	4h
03-运动控制与规划	运动学、动力学、轨迹规划、强化学习控制	5h
04-视觉-语言-动作模型(VLA)	RT-2 、 Octo 、 OpenVLA 、 Pi 系列	4h
05-仿真环境与 Sim2Real	Isaac Sim 、 MuJoCo 、域随机化	3h
06-前沿与面试	最新论文、面试题、项目建议	2h

总学时：约 20 小时

01 具身智能概述¶

1.1 什么是具身智能(Embodied AI)¶

具身智能 = AI 大脑 + 物理身体 + 环境交互

传统 AI （如 ChatGPT ）只在虚拟世界中运行，具身智能要求 AI 系统能感知物理世界、做出决策、并通过身体执行动作。

1.2 发展脉络¶

Text Only

经典机器人(规则控制) → 深度RL控制(2015+) → 基础模型+机器人(2023+)
    ↓                      ↓                        ↓
 预编程动作            端到端策略学习          VLA大模型统一感知-决策-行动

1.3 产业地图（ 2026 年中国）¶

公司	方向	融资/估值
宇树科技	人形机器人(Unitree H1)	百亿级
智元机器人	通用机器人	数十亿
银河通用	人形机器人	数十亿
Figure AI	人形机器人(Figure 02)	百亿美元
小米	CyberOne/CyberDog	内部
华为	机器人生态	内部
特斯拉	Optimus	万亿美元(整体)

1.4 具身智能技术栈¶

Text Only

感知层: 视觉(CV) + 深度(LiDAR/ToF) + 触觉 + IMU + 力矩传感器
认知层: VLM(视觉语言理解) + 任务规划(LLM) + 世界模型(物理预测)
决策层: 强化学习策略 / VLA端到端模型 / 层次化规划
执行层: 运动控制 + 力控 + 手眼协调

02 机器人感知¶

2.1 视觉感知¶

RGB 相机：目标检测(YOLO)、语义分割(SAM)、位姿估计
深度相机： RealSense/ZED ，点云处理(Open3D/PCL)
3D 感知： PointNet/PointNet++、 3D Gaussian Splatting

2.2 触觉感知¶

GelSight/DIGIT 触觉传感器
触觉→力估计→抓取反馈

2.3 多传感器融合¶

相机+LiDAR+IMU 融合（卡尔曼滤波/因子图优化）
SLAM(同时定位与建图): ORB-SLAM3 、 LIO-SAM

2.4 开放词汇检测¶

机器人需要理解开放世界中的物体
GroundingDINO + SAM = 任意文本描述→分割任意物体

03 运动控制与规划¶

3.1 机器人运动学¶

正运动学: 关节角度 → 末端位姿（ DH 参数法）
逆运动学: 目标位姿 → 关节角度（解析解/数值迭代）

3.2 运动规划¶

传统方法: RRT(快速随机树)、 A*、势场法
学习方法: 强化学习策略(PPO/SAC)、模仿学习(Behavior Cloning)
层次化: 任务规划(LLM) → 技能选择 → 低层控制

3.3 强化学习在机器人中的应用¶

Python

# Isaac Gym示例 - 训练四足机器人行走
env = IsaacGymEnv("Anymal", num_envs=4096)  # GPU并行4096个环境
policy = PPO(obs_dim=48, act_dim=12)  # 12个关节
for epoch in range(1000):
    obs, reward, done = env.step(policy.act(obs))
    policy.update(obs, reward, done)

3.4 灵巧手操作¶

抓取规划: GraspNet 、 AnyGrasp
灵巧操作: 原地翻转、工具使用
触觉反馈控制: 力-位混合控制

04 视觉-语言-动作模型(VLA)¶

4.1 VLA 模型架构¶

Text Only

图像(视觉) + 语言指令(文本) → 基础模型(Transformer) → 动作序列(关节角/末端位姿)

4.2 代表模型¶

模型	机构	特点
RT-2	Google	PaLM-E + 机器人动作 token 化
Octo	Berkeley	开源通用机器人策略，支持多任务
OpenVLA	Stanford	开源 7B VLA ， Llama-2+DINOv2/SigLIP 双视觉编码器
π0	Physical Intelligence	多任务 FlowMatching(扩散策略)
GR-2	字节跳动	视频生成预训练+机器人微调

4.3 关键技术¶

动作 Token 化: 将连续动作离散化为 token ，用 LLM 架构统一处理
扩散策略(Diffusion Policy): 用扩散模型生成动作序列
模仿学习: 从人类演示数据中学习(ACT/行为克隆)

4.4 数据收集¶

遥操作： VR 手套/示教器控制机器人收集数据
人类视频： RT-2/GR-2 从大规模人类视频中学习
仿真合成： Isaac Sim 生成大量训练数据

05 仿真环境与 Sim2Real¶

5.1 主流仿真平台¶

平台	特点	适用
Isaac Sim/Gym	NVIDIA GPU 并行，最快	RL 训练、大规模仿真
MuJoCo	精确物理引擎， Google 开源	运动控制研究
PyBullet	轻量 Python 接口	教学、快速原型
Gazebo	ROS 生态集成	传统机器人开发

5.2 Sim2Real 迁移¶

域随机化(Domain Randomization): 随机化仿真参数(摩擦/质量/光照)
域适应(Domain Adaptation): 对齐仿真和真实数据分布
Teacher-Student: 仿真中训练 Teacher(有特权信息) → 蒸馏到 Student(只用传感器)

5.3 实践路线¶

Text Only

1. MuJoCo/PyBullet入门 → 控制简单机械臂
2. Isaac Gym → GPU并行训练四足/人形机器人
3. 真实机器人验证(如宇树Go2/AIRBOT Play)

06 前沿与面试¶

6.1 2025-2026 前沿趋势¶

VLA 大模型统一: 一个模型控制多种机器人执行多种任务
世界模型 for 机器人: 预测物理交互结果，辅助规划
人形机器人量产: 2025-2026 年中国人形机器人产业爆发期
LLM 作为任务规划器: SayCan 、 Code-as-Policies

6.2 面试题精选（ 10 题）¶

解释 Sim2Real Gap 及其解决方案
VLA 模型和传统 RL 控制策略的区别？
扩散策略(Diffusion Policy)相比 BC 的优势？
如何设计一个机械臂抓取的完整 Pipeline ？
人形机器人的全身运动控制挑战？
对比模仿学习和强化学习在机器人中的使用场景
什么是域随机化？为什么有效？
解释 SLAM 的核心原理
如何处理机器人任务中的部分可观测问题？
描述从视觉输入到动作输出的端到端系统

6.3 推荐项目¶

入门: MuJoCo 上训练机械臂到达目标位置(PPO)
进阶: Isaac Gym 训练四足机器人在不平地形行走
高级: 用 OpenVLA 微调机械臂抓取任务

6.4 学习资源¶

课程: Stanford CS326(具身智能)、 Berkeley RAIL Lab
书籍: 《 Robotics, Vision and Control 》(Corke)
论文必读: RT-2 、 Diffusion Policy 、 Octo 、π0

最后更新： 2026 年 2 月