跳转至

🤖 具身智能与机器人 AI

具身智能概述与 VLA 关系图

定位: 2026-2030 年 AI 最大增量方向之一,中国正大力发展人形机器人产业 就业前景:字节、小米、华为、宇树科技、智元机器人等大量招聘


目录

章节 内容 学时
01-具身智能概述 定义、发展历史、产业地图 2h
02-机器人感知 视觉、触觉、力觉、多传感器融合 4h
03-运动控制与规划 运动学、动力学、轨迹规划、强化学习控制 5h
04-视觉-语言-动作模型(VLA) RT-2 、 Octo 、 OpenVLA 、 Pi 系列 4h
05-仿真环境与 Sim2Real Isaac Sim 、 MuJoCo 、域随机化 3h
06-前沿与面试 最新论文、面试题、项目建议 2h

总学时:约 20 小时


01 具身智能概述

1.1 什么是具身智能(Embodied AI)

具身智能 = AI 大脑 + 物理身体 + 环境交互

传统 AI (如 ChatGPT )只在虚拟世界中运行,具身智能要求 AI 系统能感知物理世界、做出决策、并通过身体执行动作

1.2 发展脉络

Text Only
经典机器人(规则控制) → 深度RL控制(2015+) → 基础模型+机器人(2023+)
    ↓                      ↓                        ↓
 预编程动作            端到端策略学习          VLA大模型统一感知-决策-行动

1.3 产业地图( 2026 年中国)

公司 方向 融资/估值
宇树科技 人形机器人(Unitree H1) 百亿级
智元机器人 通用机器人 数十亿
银河通用 人形机器人 数十亿
Figure AI 人形机器人(Figure 02) 百亿美元
小米 CyberOne/CyberDog 内部
华为 机器人生态 内部
特斯拉 Optimus 万亿美元(整体)

1.4 具身智能技术栈

Text Only
感知层: 视觉(CV) + 深度(LiDAR/ToF) + 触觉 + IMU + 力矩传感器
认知层: VLM(视觉语言理解) + 任务规划(LLM) + 世界模型(物理预测)
决策层: 强化学习策略 / VLA端到端模型 / 层次化规划
执行层: 运动控制 + 力控 + 手眼协调

02 机器人感知

2.1 视觉感知

  • RGB 相机:目标检测(YOLO)、语义分割(SAM)、位姿估计
  • 深度相机: RealSense/ZED ,点云处理(Open3D/PCL)
  • 3D 感知: PointNet/PointNet++、 3D Gaussian Splatting

2.2 触觉感知

  • GelSight/DIGIT 触觉传感器
  • 触觉→力估计→抓取反馈

2.3 多传感器融合

  • 相机+LiDAR+IMU 融合(卡尔曼滤波/因子图优化)
  • SLAM(同时定位与建图): ORB-SLAM3 、 LIO-SAM

2.4 开放词汇检测

  • 机器人需要理解开放世界中的物体
  • GroundingDINO + SAM = 任意文本描述→分割任意物体

03 运动控制与规划

3.1 机器人运动学

  • 正运动学: 关节角度 → 末端位姿( DH 参数法)
  • 逆运动学: 目标位姿 → 关节角度(解析解/数值迭代)

3.2 运动规划

  • 传统方法: RRT(快速随机树)、 A*、势场法
  • 学习方法: 强化学习策略(PPO/SAC)、模仿学习(Behavior Cloning)
  • 层次化: 任务规划(LLM) → 技能选择 → 低层控制

3.3 强化学习在机器人中的应用

Python
# Isaac Gym示例 - 训练四足机器人行走
env = IsaacGymEnv("Anymal", num_envs=4096)  # GPU并行4096个环境
policy = PPO(obs_dim=48, act_dim=12)  # 12个关节
for epoch in range(1000):
    obs, reward, done = env.step(policy.act(obs))
    policy.update(obs, reward, done)

3.4 灵巧手操作

  • 抓取规划: GraspNet 、 AnyGrasp
  • 灵巧操作: 原地翻转、工具使用
  • 触觉反馈控制: 力-位混合控制

04 视觉-语言-动作模型(VLA)

4.1 VLA 模型架构

Text Only
图像(视觉) + 语言指令(文本) → 基础模型(Transformer) → 动作序列(关节角/末端位姿)

4.2 代表模型

模型 机构 特点
RT-2 Google PaLM-E + 机器人动作 token 化
Octo Berkeley 开源通用机器人策略,支持多任务
OpenVLA Stanford 开源 7B VLA , Llama-2+DINOv2/SigLIP 双视觉编码器
π0 Physical Intelligence 多任务 FlowMatching(扩散策略)
GR-2 字节跳动 视频生成预训练+机器人微调

4.3 关键技术

  • 动作 Token 化: 将连续动作离散化为 token ,用 LLM 架构统一处理
  • 扩散策略(Diffusion Policy): 用扩散模型生成动作序列
  • 模仿学习: 从人类演示数据中学习(ACT/行为克隆)

4.4 数据收集

  • 遥操作: VR 手套/示教器控制机器人收集数据
  • 人类视频: RT-2/GR-2 从大规模人类视频中学习
  • 仿真合成: Isaac Sim 生成大量训练数据

05 仿真环境与 Sim2Real

5.1 主流仿真平台

平台 特点 适用
Isaac Sim/Gym NVIDIA GPU 并行,最快 RL 训练、大规模仿真
MuJoCo 精确物理引擎, Google 开源 运动控制研究
PyBullet 轻量 Python 接口 教学、快速原型
Gazebo ROS 生态集成 传统机器人开发

5.2 Sim2Real 迁移

  • 域随机化(Domain Randomization): 随机化仿真参数(摩擦/质量/光照)
  • 域适应(Domain Adaptation): 对齐仿真和真实数据分布
  • Teacher-Student: 仿真中训练 Teacher(有特权信息) → 蒸馏到 Student(只用传感器)

5.3 实践路线

Text Only
1. MuJoCo/PyBullet入门 → 控制简单机械臂
2. Isaac Gym → GPU并行训练四足/人形机器人
3. 真实机器人验证(如宇树Go2/AIRBOT Play)

06 前沿与面试

6.1 2025-2026 前沿趋势

  1. VLA 大模型统一: 一个模型控制多种机器人执行多种任务
  2. 世界模型 for 机器人: 预测物理交互结果,辅助规划
  3. 人形机器人量产: 2025-2026 年中国人形机器人产业爆发期
  4. LLM 作为任务规划器: SayCan 、 Code-as-Policies

6.2 面试题精选( 10 题)

  1. 解释 Sim2Real Gap 及其解决方案
  2. VLA 模型和传统 RL 控制策略的区别?
  3. 扩散策略(Diffusion Policy)相比 BC 的优势?
  4. 如何设计一个机械臂抓取的完整 Pipeline ?
  5. 人形机器人的全身运动控制挑战?
  6. 对比模仿学习和强化学习在机器人中的使用场景
  7. 什么是域随机化?为什么有效?
  8. 解释 SLAM 的核心原理
  9. 如何处理机器人任务中的部分可观测问题?
  10. 描述从视觉输入到动作输出的端到端系统

6.3 推荐项目

  • 入门: MuJoCo 上训练机械臂到达目标位置(PPO)
  • 进阶: Isaac Gym 训练四足机器人在不平地形行走
  • 高级: 用 OpenVLA 微调机械臂抓取任务

6.4 学习资源

  • 课程: Stanford CS326(具身智能)、 Berkeley RAIL Lab
  • 书籍: 《 Robotics, Vision and Control 》(Corke)
  • 论文必读: RT-2 、 Diffusion Policy 、 Octo 、π0

最后更新: 2026 年 2 月