第 18 章 世界模型与视觉生成¶
📚 章节概述¶
世界模型( World Model )是近年 AI 研究和产业都高度关注的方向之一。从 Ha & Schmidhuber 在 2018 年提出"World Models"概念,到公开视频生成系统和可交互环境建模工作的持续推进,世界模型正从学术研究走向更多实际应用。本章将系统讲解世界模型的理论基础、核心架构( DiT/时空 Patch )、视频生成技术、 3D 生成技术,以及在自动驾驶和机器人领域的前沿应用。
学习时间: 5-7 天 难度等级:⭐⭐⭐⭐⭐ 前置知识:第 11 章生成模型与 GAN 、第 12 章视觉 Transformer 、扩散模型基础
🎯 学习目标¶
完成本章后,你将能够: - 理解世界模型的概念演进:从认知科学到 AI 实现 - 理解以 Sora 为代表的公开视频生成系统常见设计思路(如 DiT + 时空 Patch + 潜空间表示) - 了解代表性世界模型: Genie 、 UniSim 、 DIAMOND 、 Cosmos - 理解自动驾驶世界模型( GAIA-1 、 DriveDreamer 、 Vista )的设计 - 了解机器人世界模型( UniPi 、 RT-2 )的工作原理 - 掌握视频生成技术( CogVideoX 、 Kling 、 Runway Gen-3 )的技术路线 - 了解 3D 生成( Gaussian Splatting 、 NeRF 、 Zero-1-to-3 )的前沿进展 - 理解世界模型与 AGI 的关系 - 准备 6 道关键复盘题
18.1 世界模型概念¶
18.1.1 什么是世界模型¶
世界模型( World Model ) 是一个能够预测环境动态变化的内部模型。它学习"世界是如何运转的",可以在给定当前状态和动作的情况下,预测未来状态。
认知科学视角:人类大脑中存在一个内部世界模型( Internal World Model ),用于: - 预测物理世界的变化(球抛出后会落地) - 模拟未来场景(想象开车到达目的地的路径) - 理解因果关系(推门 → 门打开)
AI 视角的形式化定义:
其中 \(s_t\) 是当前状态,\(a_t\) 是动作,\(\hat{s}_{t+1}\) 是预测的下一个状态,\(f_\theta\) 是参数化的世界模型。
18.1.2 世界模型的发展历程¶
| 时间 | 里程碑 | 核心贡献 |
|---|---|---|
| 2018 | World Models (Ha & Schmidhuber) | VAE+RNN 的世界模型框架,在 Car Racing 中学会"做梦" |
| 2020 | DreamerV1 (Hafner et al.) | RSSM 用于模型-based RL ,样本效率大幅提升 |
| 2022 | DreamerV3 | 跨领域通用的世界模型(游戏、机器人、 DMC ) |
| 2023 | GAIA-1 (Wayve) | 自动驾驶领域首个大规模生成式世界模型 |
| 2024 | Sora (OpenAI) | 公开视频生成系统推动世界模型讨论继续升温 |
| 2024.02 | Genie (DeepMind) | 从视频中学习可交互环境的世界模型 |
| 2025 | Cosmos (NVIDIA) | 面向物理世界模拟的代表性路线之一 |
| 2024-2026 | Sora / 后续产品化版本 (OpenAI) | 闭源视频生成系统持续演进,具体产品名与开放范围需看官方更新 |
| 近年 | 持续活跃 | 世界模型在机器人、自动驾驶、游戏中持续推进 |
18.1.3 世界模型的核心组件¶
一个完整的世界模型通常包含:
环境观测(视频帧/传感器数据)
↓
┌─────────────────────────────┐
│ 1. 感知编码器 (Perception) │ 将观测编码为潜在表示
│ 2. 动力学模型 (Dynamics) │ 预测状态如何随时间/动作演化
│ 3. 解码器 (Decoder) │ 将潜在表示重建为可视化输出
│ 4. 奖励预测器 (Reward)* │ (用于RL:预测动作的回报)
└─────────────────────────────┘
↓
未来状态预测(视频帧/3D场景)
18.1.4 World Models (Ha & Schmidhuber, 2018)¶
这是世界模型概念的奠基之作。
架构: V I S I O N (VAE) + M E M O R Y (MDN-RNN) + C O N T R O L L E R
观测图像 → VAE Encoder → 潜在向量 z_t
↓
MDN-RNN (记忆模块): h_t = RNN(z_t, a_{t-1}, h_{t-1})
↓
预测下一状态: p(z_{t+1} | h_t, z_t, a_t)
↓
控制器: a_t = Controller(z_t, h_t)
核心创新:"在梦中训练"——智能体可以在世界模型生成的"想象"环境中进行策略优化,无需与真实环境交互。
18.2 Sora 架构解析¶
18.2.1 Sora 概述¶
Sora( OpenAI, 2024 年首次公开展示)是一个能够根据文本描述生成视频的闭源系统。对学习者来说,更重要的是把它视为“时空统一建模的视频世界模拟器”代表,而不是记忆某一时点的产品命名或开放范围。
公开展示中体现的代表性能力: - 生成较长时长、较高分辨率的视频片段 - 在许多案例中呈现较好的 3D 空间一致性(物体遮挡、反射、阴影) - 在部分场景中体现一定物理世界动态一致性 - 支持多角色、多场景的复杂叙事 - 支持多种视频生成与编辑形态,但具体开放模式应以官方产品更新为准
18.2.2 技术架构¶
Sora 的核心架构基于以下三大组件:
1. 视频 VAE ( Video Compression Network )
将视频压缩到低维潜在空间:
原始视频: T×H×W×3 (时间×高度×宽度×通道)
↓ Video Encoder (时空压缩)
潜在表示: t×h×w×C (压缩后的时空潜在)
↓ 处理后
↓ Video Decoder (时空解压)
重建视频: T×H×W×3
压缩率约为 8×8 (空间)× 4 (时间),大幅降低 Transformer 的计算负担。
2. 时空 Patch ( Spacetime Patch )
这是 Sora 的关键创新——将视频从时空潜在表示进一步切割为时空 Patch:
潜在视频: t×h×w×C
↓ Patchify (切割为3D patch)
Patch序列: [p_1, p_2, ..., p_N] (N = t'×h'×w')
↓
每个patch包含时间×空间的局部信息
类比 ViT: ViT 将 2D 图像切为 2D patch → Sora 将 3D 视频切为 3D 时空 patch
3. DiT ( Diffusion Transformer )
带噪声的时空Patch序列
↓
DiT Block × L:
- LayerNorm
- Multi-Head Self-Attention (时空注意力)
- Cross-Attention (文本条件)
- AdaLN-Zero (时间步条件注入)
- MLP
↓
去噪后的时空Patch序列
↓ Unpatchify
去噪的潜在视频
↓ Video Decoder
生成的视频
18.2.3 Sora 的关键设计选择¶
| 设计维度 | Sora 的选择 | 传统方法 |
|---|---|---|
| 骨干网络 | DiT (Transformer) | U-Net |
| 序列化方式 | 时空 Patch | 逐帧/3D 卷积 |
| 分辨率/时长 | 原生可变分辨率和时长 | 固定分辨率 |
| 潜在空间 | 时空联合 VAE | 逐帧 VAE (如 Stable Diffusion) |
| 条件注入 | Cross-Attention + AdaLN | Cross-Attention |
| 训练数据 | 未公开(估计数亿视频) | 公开数据集 |
18.2.4 Sora 公开展示中体现的代表性能力¶
公开演示与技术说明中, Sora 体现出若干值得学习的能力方向: 1. 3D 一致性:摄像机运动时 3D 场景保持一致 2. 长程时间一致性: 60 秒视频中人物/物体外观不漂移 3. 世界交互:画家在画布上留下笔触(状态持久变化) 4. 数字世界模拟:可以模拟 Minecraft 游戏画面
局限性: - 物理模拟不完美(如液体飞溅、手指数量) - 长视频后期可能出现不一致 - 因果推理能力有限
18.3 代表性世界模型¶
18.3.1 Genie (DeepMind, 2024)¶
论文:Genie: Generative Interactive Environments
核心定位:从互联网视频中学习可交互的 2D 世界模型。
架构: 1. Video Tokenizer:将视频帧编码为离散 token ( VQ-VAE ) 2. Latent Action Model:无监督推断帧之间的"潜在动作" 3. Dynamics Model:给定当前帧 token 和动作,预测下一帧 token
视频序列: [frame_1, frame_2, ..., frame_T]
↓
潜在动作推断: a_t = ActionModel(frame_t, frame_{t+1})
↓
动力学预测: frame_{t+1} = DynamicsModel(frame_t, a_t)
亮点: - 不需要动作标签——从纯视频中无监督学习动作空间 - 可以从单张图片生成可交互的虚拟世界 - 训练在 200K+小时的 2D 平台游戏视频上
18.3.2 UniSim (Google, 2024)¶
论文:UniSim: Learning Interactive Real-World Simulators
目标:构建一个统一的交互式真实世界模拟器。
关键特点: - 支持多种交互形式:文本指令、动作轨迹、摄像机运动 - 在多个领域训练:真实世界视频、机器人操作、导航 - 可以模拟机器人操作的视觉结果
18.3.3 DIAMOND (2024)¶
论文:Diffusion for World Modeling: Visual Details Matter in Atari
核心贡献:首次证明扩散模型可以作为世界模型来训练 RL 智能体。
方法: - 用扩散模型建模环境动态:\(p(s_{t+1}|s_t, a_t)\) - 在扩散世界模型中训练 RL 策略(在"想象中"训练) - 在 Atari 基准上取得了很强的实验结果;具体是否达到或超过人类水平,还需结合所选游戏、评价协议和论文口径理解
DIAMOND vs 传统世界模型: | 方面 | 传统 (Dreamer) | DIAMOND | |------|---------------|---------| | 生成模型 | VAE/RSSM | 扩散模型 | | 视觉质量 | 模糊、缺乏细节 | 清晰、保留关键细节 | | 信息保留 | 压缩导致信息丢失 | 扩散保留更多视觉信息 | | 关键观点 | 压缩表示足够 | 视觉细节对决策至关重要 |
18.3.4 Cosmos (NVIDIA, 2025)¶
定位:面向物理世界模拟的世界基础模型( World Foundation Model )。
两种架构: 1. Cosmos-Diffusion:基于扩散模型的视频世界模型 2. Cosmos-Autoregressive:基于自回归 Transformer 的视频世界模型
核心特点: - 专注物理世界的精确模拟(不仅是视觉质量) - 提供多种规模模型(从 4B 到 14B 参数) - 开源 tokenizer 和部分模型权重 - 面向机器人和自动驾驶应用优化
Cosmos Tokenizer: - 时空连续 tokenizer (比离散 tokenizer 重建质量更高) - 支持图像( 2D )和视频( 3D )的统一 tokenization
18.4 自动驾驶世界模型¶
自动驾驶是世界模型最重要的落地方向之一——驾驶世界模型可以生成逼真的驾驶场景,用于: 1. 模拟器数据增强( corner case 生成) 2. 端到端规划(在想象中预演驾驶决策) 3. 安全验证(测试极端场景)
18.4.1 GAIA-1 (Wayve, 2023)¶
论文:GAIA-1: A Generative World Model for Autonomous Driving
架构: 9B 参数的自回归 Transformer 生成式世界模型。
输入:
- 前方摄像头视频 (Video Tokenizer编码)
- 文本描述 (T5编码)
- 驾驶动作 (速度/转角)
↓
自回归Transformer (GPT-like)
↓
预测未来视频帧序列
能力: - 生成逼真的未来驾驶场景( 3-5 秒) - 理解天气、光照变化 - 响应不同的驾驶动作生成不同的未来 - 可用于不同驾驶策略的"what-if"分析
18.4.2 DriveDreamer (2023-2024)¶
论文:DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving
核心创新: - 结合结构化驾驶信息( 3D bbox 、 HDMap 、交通信号)作为条件 - 支持多视角生成 - DriveDreamer-2 :引入 LLM 将用户指令转化为驾驶场景描述
18.4.3 Vista (2024)¶
论文:Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability
关键特点: - 在大规模多样化驾驶数据上预训练 - 支持高保真度的长时间视频生成(>15 秒) - 多种控制信号:动作、文本、目标点 - 可作为驾驶模拟器用于端到端自动驾驶训练
18.4.4 自动驾驶世界模型对比¶
| 模型 | 参数量 | 架构 | 条件输入 | 生成时长 | 特色 |
|---|---|---|---|---|---|
| GAIA-1 | 9B | 自回归 Transformer | 视频+文本+动作 | 3-5 秒 | 首个大规模驾驶世界模型 |
| DriveDreamer | ~1B | 扩散模型 | 结构化信息+文本 | 2-5 秒 | 多视角+结构化条件 |
| Vista | ~2B | 扩散模型 | 动作+文本+目标 | 15+秒 | 长时间+通用性 |
| DriveWM | ~1B | 自回归 | 规划轨迹 | 4 秒 | 多视角一致性 |
18.5 机器人世界模型¶
18.5.1 UniPi (2023)¶
论文:UniPi: Learning Universal Policies via Text-Guided Video Generation
核心思想:将机器人规划问题转化为视频生成问题。
流程:
优势: - 无需为每个机器人单独设计策略——通过视频生成来规划 - 可以利用大量互联网视频进行预训练 - 自然地处理长时间规划
18.5.2 RT-2 (Google DeepMind, 2023)¶
论文:RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
核心思想:将大型视觉-语言模型( VLM )直接转化为机器人控制策略。
架构:
关键创新: - 动作 token 化:将连续动作离散化为特殊文本 token - 利用 VLM 在互联网数据上学到的世界知识来指导机器人 - 展现了强零样本泛化能力("把垃圾扔进垃圾桶",即使未见过该指令)
18.5.3 机器人世界模型对比¶
| 模型 | 方法 | 类型 | 关键特性 |
|---|---|---|---|
| UniPi | 视频生成→逆运动学 | 基于视频 | 利用扩散模型做规划 |
| RT-2 | VLM 直接输出动作 | 端到端 | 互联网知识迁移到机器人 |
| SuSIE | 子目标图像预测 | 分层规划 | 预测中间目标图像 |
| RoboDreamer | 世界模型+规划 | 模型-based | 在想象中进行试错 |
| GR-1 | GPT 风格自回归 | 统一模型 | 文本+视频+动作统一建模 |
18.6 世界模型与 AGI 的关系¶
18.6.1 LeCun 的世界模型理论¶
Yann LeCun 提出了以世界模型为核心的自主 AI 架构( JEPA - Joint Embedding Predictive Architecture ):
┌─────────────────────────────────────────────┐
│ 自主智能体架构 │
│ │
│ 感知 → 世界模型 → 行为者 → 动作 │
│ ↕ │
│ 记忆模块 │
│ ↕ │
│ 配置器(目标) │
│ ↕ │
│ 代价模块 │
└─────────────────────────────────────────────┘
LeCun 的核心论点: - LLM 只学习了"语言世界"的模型,缺乏对物理世界的理解 - AGI 需要一个内部世界模型来进行因果推理和规划 - 世界模型应该在表示空间(而非像素空间)中进行预测 - 自监督学习(而非生成式建模)是学习世界模型的正确方式
18.6.2 世界模型为什么重要¶
| 能力 | LLM | 世界模型 | 说明 |
|---|---|---|---|
| 语言理解 | ✅ | ❌ | LLM 擅长 |
| 物理直觉 | ❌ | ✅ | 理解重力、碰撞、流体 |
| 因果推理 | 弱 | ✅ | 模拟"如果...会怎样" |
| 长程规划 | 弱 | ✅ | 在想象中预演多步决策 |
| 空间推理 | 弱 | ✅ | 3D 空间理解 |
| 时间推理 | 弱 | ✅ | 动态变化预测 |
18.6.3 世界模型的开放挑战¶
- 物理精确性:当前模型生成的视频在物理规律上仍有大量错误
- 可控性:如何精确控制世界模型生成特定场景
- 组合泛化:面对从未见过的场景组合(新物体+新动作+新环境)
- 评估困难:缺乏统一的世界模型评估基准
- 计算成本:高质量视频生成的推理成本极高
- 因果 vs 相关:世界模型学到的是真正的因果关系还是统计相关?
18.7 视频生成技术¶
18.7.1 技术路线概览¶
当前视频生成主要有三条技术路线:
| 路线 | 代表模型 | 核心方法 |
|---|---|---|
| 扩散模型 | Sora, Runway Gen-3, Kling | DiT/U-Net + 时空注意力 |
| 自回归模型 | VideoPoet, Emu Video | Token 预测 (类似 LLM) |
| 混合方法 | CogVideoX | 自回归 + 扩散 |
18.7.2 CogVideoX (智谱 AI, 2024)¶
定位:开源的文本到视频生成模型。
架构: Expert Transformer ( 3D VAE + Expert Adaptive LayerNorm DiT )
关键特点: - 3D 因果 VAE :时空联合压缩,保持时间因果性 - Expert Transformer :将文本和视频 token 在同一 Transformer 中处理,但使用不同的 Expert FFN - 支持 6 秒/480p 视频生成 - 开源模型( 5B 参数)
代码示例:
# 使用diffusers库调用CogVideoX
from diffusers import CogVideoXPipeline
import torch
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-5b",
torch_dtype=torch.bfloat16,
)
# 二选一:显存够就直接上 GPU;显存紧张再启用 CPU offload
pipe.to("cuda")
prompt = "A golden retriever playing in the snow, cinematic lighting, 4K"
video = pipe(
prompt=prompt,
num_frames=49, # 约6秒 (8fps)
guidance_scale=6.0,
num_inference_steps=50,
).frames[0]
# 保存视频
from diffusers.utils import export_to_video
export_to_video(video, "output.mp4", fps=8)
18.7.3 Kling (快手, 2024)¶
定位:商用级高质量视频生成模型。
技术特点: - 3D 时空联合注意力 - 支持最长 2 分钟视频生成 - 1080p 高清画质 - 运动幅度大、物理一致性强 - 支持 Image-to-Video 、 Video Extension
18.7.4 Pika (2024-2025)¶
特色功能: - 视频中的物体编辑(替换、删除、添加) - Lip Sync (口型同步) - 3D 场景转换效果 - "Pikaffects"特效系统
18.7.5 Runway Gen-3 Alpha (2024)¶
技术特点: - 基于扩散 Transformer 架构 - 多模态条件:文本+图像+视频 - 高保真人物一致性 - 支持 Motion Brush (运动笔刷控制)
18.7.6 视频生成模型对比¶
| 模型 | 公司 | 最大时长 | 分辨率 | 开源 | 特色 |
|---|---|---|---|---|---|
| Sora | OpenAI | 以官方公开能力为准 | 以官方公开能力为准 | ❌ | 公开奖示中体现较强时空一致性 |
| CogVideoX | 智谱 | 6 秒 | 720p | ✅ | 开源标杆 |
| Kling 1.6 | 快手 | 2 分钟 | 1080p | ❌ | 长视频+高运动 |
| Pika 2.0 | Pika Labs | 10 秒 | 1080p | ❌ | 物体编辑 |
| Gen-3 Alpha | Runway | 10 秒 | 1080p+4K | ❌ | 人物一致性 |
| Veo 2 | 120 秒 | 4K | ❌ | 超长+超高清 | |
| HunyuanVideo | 腾讯 | 5 秒 | 720p | ✅ | 开源 |
| LTX-Video | Lightricks | 5 秒 | 768p | ✅ | 轻量开源 |
18.8 3D 生成技术¶
18.8.1 NeRF (Neural Radiance Fields)¶
论文:NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis( Mildenhall et al., ECCV 2020 )
核心思想:用神经网络表示 3D 场景,输入 3D 坐标和视角方向,输出颜色和密度。
渲染方式:沿光线积分(体渲染):
其中 \(T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) \, ds\right)\)
局限: - 训练慢( MLP 需要大量采样点) - 渲染慢(每个像素需要沿射线采样多点) - 静态场景为主
18.8.2 3D Gaussian Splatting (3DGS)¶
论文:3D Gaussian Splatting for Real-Time Radiance Field Rendering( Kerbl et al., SIGGRAPH 2023 )
核心思想:用大量 3D 高斯体素( Gaussian primitives )显式表示场景,通过"splatting"(喷溅)实现实时渲染。
每个高斯体素的属性: - 位置 \(\mu \in \mathbb{R}^3\)(均值) - 协方差矩阵 \(\Sigma \in \mathbb{R}^{3 \times 3}\)(形状和朝向) - 不透明度 \(\alpha \in [0, 1]\) - 球谐函数系数(表示视角相关的颜色)
渲染流程:
优势: - 实时渲染: 100+ FPS ( NeRF 仅~1 FPS ) - 质量高:与 NeRF 同级甚至更好 - 可编辑:显式表示便于编辑和操作 - 训练快:几分钟 vs NeRF 的几小时
3DGS 在 2024-2025 的演进: | 变体 | 核心改进 | |------|---------| | 4DGS | 扩展到动态场景(时间维度) | | GaussianEditor | 3D 场景编辑(文本驱动) | | DreamGaussian | 文本到 3D 生成 | | SUGAR | 网格提取(与传统渲染管线兼容) | | Gaussian Splatting + SLAM | 实时 3D 重建+定位 |
18.8.3 Zero-1-to-3¶
论文:Zero-1-to-3: Zero-shot One Image to 3D Object( Liu et al., ICCV 2023 )
核心思想:给定单张图像,生成任意视角的新视图,进而重建 3D 模型。
方法: 1. 利用 Stable Diffusion 的大量 2D 图像先验 2. 微调:输入一张图+目标视角 → 生成目标视角的图像 3. 配合 SDS ( Score Distillation Sampling )优化 3D 表示
18.8.4 其他重要 3D 生成方法¶
| 方法 | 年份 | 核心思路 | 输入 |
|---|---|---|---|
| DreamFusion | 2022 | SDS 损失优化 NeRF | 文本 |
| Magic3D | 2023 | 粗→细两阶段 | 文本 |
| Instant3D | 2024 | 前馈式(无需优化) | 单图 |
| TripoSR | 2024 | 快速单图 3D 重建 | 单图 |
| LGM | 2024 | 大型高斯重建模型 | 多视图 |
| Trellis | 2025 | 结构化 3D Token | 单图/文本 |
18.8.5 3D 生成代码示例¶
# 使用TripoSR进行单图3D重建(前馈式,无需优化)
import torch
from tsr.system import TSR
from PIL import Image
# 加载模型
model = TSR.from_pretrained(
"stabilityai/TripoSR",
config_name="config.yaml",
weight_name="model.ckpt",
)
model.to("cuda")
# 单图输入
image = Image.open("object.png").convert("RGB")
# 推理(约1秒)
with torch.no_grad(): # 禁用梯度计算,节省内存
scene_codes = model([image], device="cuda")
# 导出3D mesh
mesh = model.extract_mesh(scene_codes[0])
mesh.export("output.obj")
# 导出为3D Gaussian Splatting格式
# gaussians = model.extract_gaussians(scene_codes[0])
# gaussians.save_ply("output.ply")
18.9 练习题¶
基础题¶
- 简答题:
- 世界模型的核心组件有哪些?与传统视频生成模型有什么区别?
核心组件:①观察编码器(将接收到的观测编码为状态表征);②动态预测器/转移模型(根据当前状态和动作预测下一状态,\(\hat{s}_{t+1}=f(s_t,a_t)\));③解码器/渲染器(将潜在状态解码为可视化结果)。与视频生成模型的区别:世界模型支持动作输入和交互、要求物理一致性和因果理解、可用于 RL/机器人决策;视频生成模型主要追求视觉真实感,不需要可交互性和物理精确性。
- Sora 使用的时空 Patch 与 ViT 的 2D Patch 有什么异同?
相同点:都是将输入切分为非重叠的 patch 后投影为 token 序列送入 Transformer 。不同点: ViT 的 patch 是 2D 空间切块(如 16×16 像素), Sora 的时空 patch 是 3D 切块(空间+时间,如“帧数×高×宽”),能同时捕捉时间和空间关联;且 Sora 支持可变分辨率和时长,不同视频尺寸生成不同长度的序列。
-
解释 3D Gaussian Splatting 与 NeRF 的核心区别。
场景表示: NeRF 用隐式 MLP 表示场景, 3DGS 用显式的三维高斯体素集合。渲染方式: NeRF 沿光线采样 MLP 做体渲染(每像素多次 MLP 推理,很慢); 3DGS 将高斯体投影到图像平面后 Alpha 混合(利用 GPU 光栅化管线,可实时渲染)。可编辑性: 3DGS 显式表示可直接操作高斯体, NeRF 隐式表示难以编辑。
-
分析题:
- 比较扩散模型和自回归模型两条视频生成路线的优劣。
扩散模型(如 Sora 类路线):优势是通常生成质量较高、时间一致性较好、可全局建模;劣势是采样步数多导致生成慢、长视频扩展成本高。自回归模型(如 Genie 、 VideoPoet ):优势是天然支持任意长度生成、与 LLM 架构统一、便于交互式生成;劣势是离散化可能带来质量损失、误差更易累积,在不少公开视频基准上视觉质量常逊于强扩散模型。
- 为什么 LeCun 认为世界模型对 AGI 至关重要?你是否同意?
LeCun 认为 AGI 需要在表征空间中建立世界的内部模型——能够预测动作后果、进行计划和推理,而不是仅仅做模式匹配,这是从感知迈向理解的关键。支持观点:动物和人类确实依赖内部模拟进行决策;质疑观点:当前 LLM 已展现强大推理能力且未显式建模世界,“内部模型”的形式不一定是显式的世界模拟器。
进阶题¶
- 研究题:
- 阅读 DIAMOND 论文,分析扩散模型作为世界模型在 RL 中的优势。
- 比较 GAIA-1 和 Vista 在自动驾驶世界模型设计上的不同取舍。
18.10 关键复盘¶
高频复盘题¶
Q1: 什么是世界模型?它与普通视频生成模型有什么本质区别?
参考答案: 世界模型是能够预测环境动态变化的内部模型,形式化为 \(\hat{s}_{t+1} = f(s_t, a_t)\)。
与视频生成模型的区别: | 维度 | 视频生成模型 | 世界模型 | |------|------------|---------| | 核心目标 | 生成视觉上逼真的视频 | 模拟世界的运行规律 | | 可交互性 | 通常不支持交互 | 支持动作输入,预测未来 | | 物理一致性 | 不要求 | 核心要求 | | 因果理解 | 不需要 | 理想状态下需要 | | 应用场景 | 内容创作 | RL / 机器人 / 自动驾驶 |
Sora 模糊了这个边界——它以视频生成的形式展现了一定的世界模拟能力。
Q2: 请解释 Sora 的核心架构设计
参考答案: Sora 的架构基于三大组件:
- 视频 VAE:将视频时空联合压缩到低维潜在空间(约 32×压缩率)
- 时空 Patch:将潜在表示切割为 3D 时空 patch ,形成 token 序列
- DiT (Diffusion Transformer):
- 在潜在空间中做去噪扩散
- 使用 Transformer 替代 U-Net
- AdaLN-Zero 注入时间步条件
- Cross-Attention 注入文本条件
关键创新:原生可变分辨率和时长——不同尺寸的视频生成不同长度的 patch 序列,无需固定输入尺寸。
Q3: 3D Gaussian Splatting 为什么能实现 NeRF 无法达到的实时渲染?
参考答案: 核心区别在于表示方式和渲染方式:
| 方面 | NeRF | 3DGS |
|---|---|---|
| 场景表示 | 隐式( MLP ) | 显式(高斯体素集合) |
| 渲染方式 | 体渲染(沿光线采样 MLP ) | Splatting (投影+Alpha 混合) |
| 渲染速度 | 慢(每像素需多次 MLP 推理) | 快(光栅化, GPU 高度并行) |
| 可编辑性 | 困难(隐式) | 容易(显式操作高斯体素) |
3DGS 快的根本原因:从"每个像素查询场景"变为"每个高斯投影到图像"——前者计算量随分辨率增长,后者利用 GPU 光栅化管线天然并行。
Q4: 自动驾驶为什么需要世界模型?相比传统仿真器有什么优势?
参考答案: 需要世界模型的原因: 1. Corner Case 生成:真实道路很难采集到足够的极端场景 2. 端到端规划:在想象的未来中评估不同驾驶决策 3. 数据放大:从有限的真实数据生成大量多样化训练场景
相比传统仿真器的优势: | 维度 | 传统仿真器 (CARLA 等) | 生成式世界模型 | |------|---------------------|-------------| | 真实感 | 受渲染引擎限制 | 学习自真实世界数据 | | 场景多样性 | 需手动设计 | 自动生成多样场景 | | Domain Gap | 仿真与真实有差距 | 更接近真实数据分布 | | 物理精确性 | 精确(人工设计) | 近似(从数据学习) | | 创建成本 | 极高(建模+美术) | 较低(数据驱动) |
Q5: 比较 Genie 和 Sora 在世界模型设计上的不同思路
参考答案: | 维度 | Genie (DeepMind) | Sora (OpenAI) | |------|-----------------|--------------| | 核心方法 | 离散 token + 自回归 | 连续 latent + 扩散 | | 交互方式 | 潜在动作(无监督学习) | 文本条件 | | 学习信号 | 无标注视频中推断动作 | 文本-视频对 | | 目标场景 | 2D 可交互环境 | 通用视频生成 | | 物理理解 | 2D 游戏物理 | 3D 世界物理(有限) | | 开放性 | 学术论文 | 产品化 |
本质区别: Genie 更像"学习环境规则"(可以控制角色在环境中行动), Sora 更像"学习视觉世界的统计规律"(以逼真的方式描绘世界变化)。
Q6: 谈谈你对"世界模型是通向 AGI 的关键"这个观点的看法
参考答案(开放题,以下为一种分析思路):
支持观点: - 人类的智能核心依赖内部世界模型(想象、预测、规划) - 纯语言模型缺乏物理世界理解,难以通过具身智能测试 - 世界模型可以实现"在想象中试错",是高效学习的基础
质疑观点: - 当前世界模型学到的更多是"统计相关"而非"因果理解" - 从像素预测到真正理解世界规律之间可能存在根本鸿沟 - LLM 已经展现了超预期的推理能力,也许文本世界模型也是有效的
个人见解:世界模型很可能是通向更强通用智能的重要组件之一,但不一定需要以单一路线实现;更关键的是它如何与语言模型、推理模块、记忆系统形成互补。
18.11 前沿论文索引¶
世界模型核心论文¶
| 年份 | 论文 | 核心贡献 |
|---|---|---|
| 2018 | World Models (Ha & Schmidhuber) | 奠基之作: VAE+RNN 世界模型 |
| 2020 | DreamerV1 (Hafner et al.) | RSSM 用于高效模型-based RL |
| 2023 | DreamerV3 | 跨领域通用世界模型 |
| 2024 | Sora (OpenAI) | 视频级世界模拟器 |
| 2024 | Genie (DeepMind) | 无监督学习可交互世界 |
| 2024 | DIAMOND | 扩散模型作为世界模型 |
| 2024 | Cosmos (NVIDIA) | 物理世界基础模型 |
自动驾驶与机器人¶
| 年份 | 论文 | 核心贡献 |
|---|---|---|
| 2023 | GAIA-1 (Wayve) | 大规模驾驶世界模型 |
| 2023 | DriveDreamer | 结构化条件驾驶生成 |
| 2024 | Vista | 通用可控驾驶世界模型 |
| 2023 | UniPi | 视频生成驱动机器人规划 |
| 2023 | RT-2 (DeepMind) | VLM 到机器人动作 |
视频生成¶
| 年份 | 论文 | 核心贡献 |
|---|---|---|
| 2023 | DiT (Peebles & Xie) | Transformer 替代 U-Net 做扩散 |
| 2024 | CogVideoX (智谱) | 开源视频生成标杆 |
| 2024 | Movie Gen (Meta) | 大规模视频+音频生成 |
| 2024 | HunyuanVideo (腾讯) | 开源高质量视频生成 |
| 2024 | LTX-Video (Lightricks) | 轻量高效视频生成 |
3D 生成¶
| 年份 | 论文 | 核心贡献 |
|---|---|---|
| 2020 | NeRF (Mildenhall et al.) | 神经辐射场开创 |
| 2023 | 3D Gaussian Splatting | 实时高质量 3D 渲染 |
| 2023 | Zero-1-to-3 | 单图 3D 重建 |
| 2023 | DreamFusion | 文本到 3D (SDS 损失) |
| 2024 | TripoSR (Stability AI) | 快速前馈 3D 重建 |
| 2024 | LGM | 大型高斯重建模型 |
| 2025 | Trellis (Microsoft) | 结构化 3D 生成 |
18.12 本章小结¶
核心知识点¶
- 世界模型概念:从 Ha & Schmidhuber 2018 到 2024-2025 大爆发,世界模型从"在梦中训练"evolve 到"模拟真实世界"
- Sora 架构:视频 VAE + 时空 Patch + DiT = 视频级世界模拟器
- 代表性世界模型: Genie (可交互环境)、 DIAMOND ( RL 世界模型)、 Cosmos (物理世界基础模型)
- 自动驾驶: GAIA-1 、 DriveDreamer 、 Vista 解决 corner case 生成和端到端规划
- 机器人: UniPi (视频→动作)、 RT-2 ( VLM→机器人控制)
- 视频生成: CogVideoX (开源标杆)、 Kling/Pika/Gen-3 (商用方案)
- 3D 生成: NeRF → 3D Gaussian Splatting (实时)→ 单图/文本 3D 重建
- AGI 视角:世界模型可能是通向 AGI 的关键拼图之一
下一步¶
- 动手跑 CogVideoX 开源模型体验视频生成
- 用 nerfstudio 或 gsplat 尝试 3D Gaussian Splatting
- 阅读 Sora 技术报告和 Genie 论文理解世界模型设计
- 关注前沿:机器人世界模型和自动驾驶世界模型的最新进展
恭喜完成第 18 章! 世界模型是近年很值得持续跟踪的 AI 方向之一。从视频生成到 3D 重建,从自动驾驶到机器人,它正在推动 AI 对动态世界建模能力的提升。
⚠️ 核验说明(2026-04-03):本页已再次逐段人工复核。若文中涉及外部模型、API、版本号、价格、部署依赖或第三方产品名称,请以官方文档、论文原文和实际运行环境为准。
最后更新日期: 2026-04-03