跳转至

第 18 章 世界模型与视觉生成

📚 章节概述

世界模型( World Model )是近年 AI 研究和产业都高度关注的方向之一。从 Ha & Schmidhuber 在 2018 年提出"World Models"概念,到公开视频生成系统和可交互环境建模工作的持续推进,世界模型正从学术研究走向更多实际应用。本章将系统讲解世界模型的理论基础、核心架构( DiT/时空 Patch )、视频生成技术、 3D 生成技术,以及在自动驾驶和机器人领域的前沿应用。

学习时间: 5-7 天 难度等级:⭐⭐⭐⭐⭐ 前置知识:第 11 章生成模型与 GAN 、第 12 章视觉 Transformer 、扩散模型基础

🎯 学习目标

完成本章后,你将能够: - 理解世界模型的概念演进:从认知科学到 AI 实现 - 理解以 Sora 为代表的公开视频生成系统常见设计思路(如 DiT + 时空 Patch + 潜空间表示) - 了解代表性世界模型: Genie 、 UniSim 、 DIAMOND 、 Cosmos - 理解自动驾驶世界模型( GAIA-1 、 DriveDreamer 、 Vista )的设计 - 了解机器人世界模型( UniPi 、 RT-2 )的工作原理 - 掌握视频生成技术( CogVideoX 、 Kling 、 Runway Gen-3 )的技术路线 - 了解 3D 生成( Gaussian Splatting 、 NeRF 、 Zero-1-to-3 )的前沿进展 - 理解世界模型与 AGI 的关系 - 准备 6 道关键复盘题


18.1 世界模型概念

18.1.1 什么是世界模型

世界模型( World Model ) 是一个能够预测环境动态变化的内部模型。它学习"世界是如何运转的",可以在给定当前状态和动作的情况下,预测未来状态。

认知科学视角:人类大脑中存在一个内部世界模型( Internal World Model ),用于: - 预测物理世界的变化(球抛出后会落地) - 模拟未来场景(想象开车到达目的地的路径) - 理解因果关系(推门 → 门打开)

AI 视角的形式化定义

\[\hat{s}_{t+1} = f_\theta(s_t, a_t)\]

其中 \(s_t\) 是当前状态,\(a_t\) 是动作,\(\hat{s}_{t+1}\) 是预测的下一个状态,\(f_\theta\) 是参数化的世界模型。

18.1.2 世界模型的发展历程

时间 里程碑 核心贡献
2018 World Models (Ha & Schmidhuber) VAE+RNN 的世界模型框架,在 Car Racing 中学会"做梦"
2020 DreamerV1 (Hafner et al.) RSSM 用于模型-based RL ,样本效率大幅提升
2022 DreamerV3 跨领域通用的世界模型(游戏、机器人、 DMC )
2023 GAIA-1 (Wayve) 自动驾驶领域首个大规模生成式世界模型
2024 Sora (OpenAI) 公开视频生成系统推动世界模型讨论继续升温
2024.02 Genie (DeepMind) 从视频中学习可交互环境的世界模型
2025 Cosmos (NVIDIA) 面向物理世界模拟的代表性路线之一
2024-2026 Sora / 后续产品化版本 (OpenAI) 闭源视频生成系统持续演进,具体产品名与开放范围需看官方更新
近年 持续活跃 世界模型在机器人、自动驾驶、游戏中持续推进

18.1.3 世界模型的核心组件

一个完整的世界模型通常包含:

Text Only
环境观测(视频帧/传感器数据)
┌─────────────────────────────┐
│  1. 感知编码器 (Perception)   │  将观测编码为潜在表示
│  2. 动力学模型 (Dynamics)     │  预测状态如何随时间/动作演化
│  3. 解码器 (Decoder)          │  将潜在表示重建为可视化输出
│  4. 奖励预测器 (Reward)*      │  (用于RL:预测动作的回报)
└─────────────────────────────┘
未来状态预测(视频帧/3D场景)

18.1.4 World Models (Ha & Schmidhuber, 2018)

这是世界模型概念的奠基之作。

架构: V I S I O N (VAE) + M E M O R Y (MDN-RNN) + C O N T R O L L E R

Text Only
观测图像 → VAE Encoder → 潜在向量 z_t
             MDN-RNN (记忆模块): h_t = RNN(z_t, a_{t-1}, h_{t-1})
                          预测下一状态: p(z_{t+1} | h_t, z_t, a_t)
                   控制器: a_t = Controller(z_t, h_t)

核心创新:"在梦中训练"——智能体可以在世界模型生成的"想象"环境中进行策略优化,无需与真实环境交互。


18.2 Sora 架构解析

18.2.1 Sora 概述

Sora( OpenAI, 2024 年首次公开展示)是一个能够根据文本描述生成视频的闭源系统。对学习者来说,更重要的是把它视为“时空统一建模的视频世界模拟器”代表,而不是记忆某一时点的产品命名或开放范围。

公开展示中体现的代表性能力: - 生成较长时长、较高分辨率的视频片段 - 在许多案例中呈现较好的 3D 空间一致性(物体遮挡、反射、阴影) - 在部分场景中体现一定物理世界动态一致性 - 支持多角色、多场景的复杂叙事 - 支持多种视频生成与编辑形态,但具体开放模式应以官方产品更新为准

18.2.2 技术架构

Sora 的核心架构基于以下三大组件:

1. 视频 VAE ( Video Compression Network )

将视频压缩到低维潜在空间:

Text Only
原始视频: T×H×W×3 (时间×高度×宽度×通道)
    ↓  Video Encoder (时空压缩)
潜在表示: t×h×w×C  (压缩后的时空潜在)
    ↓  处理后
    ↓  Video Decoder (时空解压)
重建视频: T×H×W×3

压缩率约为 8×8 (空间)× 4 (时间),大幅降低 Transformer 的计算负担。

2. 时空 Patch ( Spacetime Patch )

这是 Sora 的关键创新——将视频从时空潜在表示进一步切割为时空 Patch

Text Only
潜在视频: t×h×w×C
    ↓ Patchify (切割为3D patch)
Patch序列: [p_1, p_2, ..., p_N]  (N = t'×h'×w')
每个patch包含时间×空间的局部信息

类比 ViT: ViT 将 2D 图像切为 2D patch → Sora 将 3D 视频切为 3D 时空 patch

3. DiT ( Diffusion Transformer )

Text Only
带噪声的时空Patch序列
DiT Block × L:
  - LayerNorm
  - Multi-Head Self-Attention (时空注意力)
  - Cross-Attention (文本条件)
  - AdaLN-Zero (时间步条件注入)
  - MLP
去噪后的时空Patch序列
    ↓ Unpatchify
去噪的潜在视频
    ↓ Video Decoder
生成的视频

18.2.3 Sora 的关键设计选择

设计维度 Sora 的选择 传统方法
骨干网络 DiT (Transformer) U-Net
序列化方式 时空 Patch 逐帧/3D 卷积
分辨率/时长 原生可变分辨率和时长 固定分辨率
潜在空间 时空联合 VAE 逐帧 VAE (如 Stable Diffusion)
条件注入 Cross-Attention + AdaLN Cross-Attention
训练数据 未公开(估计数亿视频) 公开数据集

18.2.4 Sora 公开展示中体现的代表性能力

公开演示与技术说明中, Sora 体现出若干值得学习的能力方向: 1. 3D 一致性:摄像机运动时 3D 场景保持一致 2. 长程时间一致性: 60 秒视频中人物/物体外观不漂移 3. 世界交互:画家在画布上留下笔触(状态持久变化) 4. 数字世界模拟:可以模拟 Minecraft 游戏画面

局限性: - 物理模拟不完美(如液体飞溅、手指数量) - 长视频后期可能出现不一致 - 因果推理能力有限


18.3 代表性世界模型

18.3.1 Genie (DeepMind, 2024)

论文Genie: Generative Interactive Environments

核心定位:从互联网视频中学习可交互的 2D 世界模型。

架构: 1. Video Tokenizer:将视频帧编码为离散 token ( VQ-VAE ) 2. Latent Action Model:无监督推断帧之间的"潜在动作" 3. Dynamics Model:给定当前帧 token 和动作,预测下一帧 token

Text Only
视频序列: [frame_1, frame_2, ..., frame_T]
潜在动作推断: a_t = ActionModel(frame_t, frame_{t+1})
动力学预测: frame_{t+1} = DynamicsModel(frame_t, a_t)

亮点: - 不需要动作标签——从纯视频中无监督学习动作空间 - 可以从单张图片生成可交互的虚拟世界 - 训练在 200K+小时的 2D 平台游戏视频上

18.3.2 UniSim (Google, 2024)

论文UniSim: Learning Interactive Real-World Simulators

目标:构建一个统一的交互式真实世界模拟器。

关键特点: - 支持多种交互形式:文本指令、动作轨迹、摄像机运动 - 在多个领域训练:真实世界视频、机器人操作、导航 - 可以模拟机器人操作的视觉结果

18.3.3 DIAMOND (2024)

论文Diffusion for World Modeling: Visual Details Matter in Atari

核心贡献:首次证明扩散模型可以作为世界模型来训练 RL 智能体。

方法: - 用扩散模型建模环境动态:\(p(s_{t+1}|s_t, a_t)\) - 在扩散世界模型中训练 RL 策略(在"想象中"训练) - 在 Atari 基准上取得了很强的实验结果;具体是否达到或超过人类水平,还需结合所选游戏、评价协议和论文口径理解

DIAMOND vs 传统世界模型: | 方面 | 传统 (Dreamer) | DIAMOND | |------|---------------|---------| | 生成模型 | VAE/RSSM | 扩散模型 | | 视觉质量 | 模糊、缺乏细节 | 清晰、保留关键细节 | | 信息保留 | 压缩导致信息丢失 | 扩散保留更多视觉信息 | | 关键观点 | 压缩表示足够 | 视觉细节对决策至关重要 |

18.3.4 Cosmos (NVIDIA, 2025)

定位:面向物理世界模拟的世界基础模型( World Foundation Model )。

两种架构: 1. Cosmos-Diffusion:基于扩散模型的视频世界模型 2. Cosmos-Autoregressive:基于自回归 Transformer 的视频世界模型

核心特点: - 专注物理世界的精确模拟(不仅是视觉质量) - 提供多种规模模型(从 4B 到 14B 参数) - 开源 tokenizer 和部分模型权重 - 面向机器人和自动驾驶应用优化

Cosmos Tokenizer: - 时空连续 tokenizer (比离散 tokenizer 重建质量更高) - 支持图像( 2D )和视频( 3D )的统一 tokenization


18.4 自动驾驶世界模型

自动驾驶是世界模型最重要的落地方向之一——驾驶世界模型可以生成逼真的驾驶场景,用于: 1. 模拟器数据增强( corner case 生成) 2. 端到端规划(在想象中预演驾驶决策) 3. 安全验证(测试极端场景)

18.4.1 GAIA-1 (Wayve, 2023)

论文GAIA-1: A Generative World Model for Autonomous Driving

架构: 9B 参数的自回归 Transformer 生成式世界模型。

Text Only
输入:
  - 前方摄像头视频 (Video Tokenizer编码)
  - 文本描述 (T5编码)
  - 驾驶动作 (速度/转角)
自回归Transformer (GPT-like)
预测未来视频帧序列

能力: - 生成逼真的未来驾驶场景( 3-5 秒) - 理解天气、光照变化 - 响应不同的驾驶动作生成不同的未来 - 可用于不同驾驶策略的"what-if"分析

18.4.2 DriveDreamer (2023-2024)

论文DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving

核心创新: - 结合结构化驾驶信息( 3D bbox 、 HDMap 、交通信号)作为条件 - 支持多视角生成 - DriveDreamer-2 :引入 LLM 将用户指令转化为驾驶场景描述

18.4.3 Vista (2024)

论文Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

关键特点: - 在大规模多样化驾驶数据上预训练 - 支持高保真度的长时间视频生成(>15 秒) - 多种控制信号:动作、文本、目标点 - 可作为驾驶模拟器用于端到端自动驾驶训练

18.4.4 自动驾驶世界模型对比

模型 参数量 架构 条件输入 生成时长 特色
GAIA-1 9B 自回归 Transformer 视频+文本+动作 3-5 秒 首个大规模驾驶世界模型
DriveDreamer ~1B 扩散模型 结构化信息+文本 2-5 秒 多视角+结构化条件
Vista ~2B 扩散模型 动作+文本+目标 15+秒 长时间+通用性
DriveWM ~1B 自回归 规划轨迹 4 秒 多视角一致性

18.5 机器人世界模型

18.5.1 UniPi (2023)

论文UniPi: Learning Universal Policies via Text-Guided Video Generation

核心思想:将机器人规划问题转化为视频生成问题。

流程

Text Only
文本指令: "Pick up the red cup"
视频生成模型 (基于扩散)
预测未来视频帧 (机器人完成任务的可视化)
逆运动学模块
机器人动作序列

优势: - 无需为每个机器人单独设计策略——通过视频生成来规划 - 可以利用大量互联网视频进行预训练 - 自然地处理长时间规划

18.5.2 RT-2 (Google DeepMind, 2023)

论文RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

核心思想:将大型视觉-语言模型( VLM )直接转化为机器人控制策略。

架构

Text Only
视觉观测 + 文本指令
VLM (PaLI-X 或 PaLM-E)
Token化的动作 (离散化为文本token)
机器人执行

关键创新: - 动作 token 化:将连续动作离散化为特殊文本 token - 利用 VLM 在互联网数据上学到的世界知识来指导机器人 - 展现了强零样本泛化能力("把垃圾扔进垃圾桶",即使未见过该指令)

18.5.3 机器人世界模型对比

模型 方法 类型 关键特性
UniPi 视频生成→逆运动学 基于视频 利用扩散模型做规划
RT-2 VLM 直接输出动作 端到端 互联网知识迁移到机器人
SuSIE 子目标图像预测 分层规划 预测中间目标图像
RoboDreamer 世界模型+规划 模型-based 在想象中进行试错
GR-1 GPT 风格自回归 统一模型 文本+视频+动作统一建模

18.6 世界模型与 AGI 的关系

18.6.1 LeCun 的世界模型理论

Yann LeCun 提出了以世界模型为核心的自主 AI 架构( JEPA - Joint Embedding Predictive Architecture ):

Text Only
┌─────────────────────────────────────────────┐
│            自主智能体架构                       │
│                                              │
│  感知 → 世界模型 → 行为者 → 动作              │
│           ↕                                  │
│        记忆模块                               │
│           ↕                                  │
│       配置器(目标)                             │
│           ↕                                  │
│        代价模块                               │
└─────────────────────────────────────────────┘

LeCun 的核心论点: - LLM 只学习了"语言世界"的模型,缺乏对物理世界的理解 - AGI 需要一个内部世界模型来进行因果推理和规划 - 世界模型应该在表示空间(而非像素空间)中进行预测 - 自监督学习(而非生成式建模)是学习世界模型的正确方式

18.6.2 世界模型为什么重要

能力 LLM 世界模型 说明
语言理解 LLM 擅长
物理直觉 理解重力、碰撞、流体
因果推理 模拟"如果...会怎样"
长程规划 在想象中预演多步决策
空间推理 3D 空间理解
时间推理 动态变化预测

18.6.3 世界模型的开放挑战

  1. 物理精确性:当前模型生成的视频在物理规律上仍有大量错误
  2. 可控性:如何精确控制世界模型生成特定场景
  3. 组合泛化:面对从未见过的场景组合(新物体+新动作+新环境)
  4. 评估困难:缺乏统一的世界模型评估基准
  5. 计算成本:高质量视频生成的推理成本极高
  6. 因果 vs 相关:世界模型学到的是真正的因果关系还是统计相关?

18.7 视频生成技术

18.7.1 技术路线概览

当前视频生成主要有三条技术路线:

路线 代表模型 核心方法
扩散模型 Sora, Runway Gen-3, Kling DiT/U-Net + 时空注意力
自回归模型 VideoPoet, Emu Video Token 预测 (类似 LLM)
混合方法 CogVideoX 自回归 + 扩散

18.7.2 CogVideoX (智谱 AI, 2024)

定位:开源的文本到视频生成模型。

架构: Expert Transformer ( 3D VAE + Expert Adaptive LayerNorm DiT )

关键特点: - 3D 因果 VAE :时空联合压缩,保持时间因果性 - Expert Transformer :将文本和视频 token 在同一 Transformer 中处理,但使用不同的 Expert FFN - 支持 6 秒/480p 视频生成 - 开源模型( 5B 参数)

代码示例

Python
# 使用diffusers库调用CogVideoX
from diffusers import CogVideoXPipeline
import torch

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16,
)
# 二选一:显存够就直接上 GPU;显存紧张再启用 CPU offload
pipe.to("cuda")

prompt = "A golden retriever playing in the snow, cinematic lighting, 4K"
video = pipe(
    prompt=prompt,
    num_frames=49,        # 约6秒 (8fps)
    guidance_scale=6.0,
    num_inference_steps=50,
).frames[0]

# 保存视频
from diffusers.utils import export_to_video
export_to_video(video, "output.mp4", fps=8)

18.7.3 Kling (快手, 2024)

定位:商用级高质量视频生成模型。

技术特点: - 3D 时空联合注意力 - 支持最长 2 分钟视频生成 - 1080p 高清画质 - 运动幅度大、物理一致性强 - 支持 Image-to-Video 、 Video Extension

18.7.4 Pika (2024-2025)

特色功能: - 视频中的物体编辑(替换、删除、添加) - Lip Sync (口型同步) - 3D 场景转换效果 - "Pikaffects"特效系统

18.7.5 Runway Gen-3 Alpha (2024)

技术特点: - 基于扩散 Transformer 架构 - 多模态条件:文本+图像+视频 - 高保真人物一致性 - 支持 Motion Brush (运动笔刷控制)

18.7.6 视频生成模型对比

模型 公司 最大时长 分辨率 开源 特色
Sora OpenAI 以官方公开能力为准 以官方公开能力为准 公开奖示中体现较强时空一致性
CogVideoX 智谱 6 秒 720p 开源标杆
Kling 1.6 快手 2 分钟 1080p 长视频+高运动
Pika 2.0 Pika Labs 10 秒 1080p 物体编辑
Gen-3 Alpha Runway 10 秒 1080p+4K 人物一致性
Veo 2 Google 120 秒 4K 超长+超高清
HunyuanVideo 腾讯 5 秒 720p 开源
LTX-Video Lightricks 5 秒 768p 轻量开源

18.8 3D 生成技术

18.8.1 NeRF (Neural Radiance Fields)

论文NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis( Mildenhall et al., ECCV 2020 )

核心思想:用神经网络表示 3D 场景,输入 3D 坐标和视角方向,输出颜色和密度。

\[F_\theta: (x, y, z, \theta, \phi) \rightarrow (r, g, b, \sigma)\]

渲染方式:沿光线积分(体渲染):

\[C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \cdot \sigma(\mathbf{r}(t)) \cdot \mathbf{c}(\mathbf{r}(t), \mathbf{d}) \, dt\]

其中 \(T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) \, ds\right)\)

局限: - 训练慢( MLP 需要大量采样点) - 渲染慢(每个像素需要沿射线采样多点) - 静态场景为主

18.8.2 3D Gaussian Splatting (3DGS)

论文3D Gaussian Splatting for Real-Time Radiance Field Rendering( Kerbl et al., SIGGRAPH 2023 )

核心思想:用大量 3D 高斯体素( Gaussian primitives )显式表示场景,通过"splatting"(喷溅)实现实时渲染。

每个高斯体素的属性: - 位置 \(\mu \in \mathbb{R}^3\)(均值) - 协方差矩阵 \(\Sigma \in \mathbb{R}^{3 \times 3}\)(形状和朝向) - 不透明度 \(\alpha \in [0, 1]\) - 球谐函数系数(表示视角相关的颜色)

渲染流程

Text Only
3D高斯体素集合
    ↓ 投影到2D图像平面
2D高斯 (splatting)
    ↓ 按深度排序
    ↓ Alpha Blending
渲染图像

优势: - 实时渲染: 100+ FPS ( NeRF 仅~1 FPS ) - 质量高:与 NeRF 同级甚至更好 - 可编辑:显式表示便于编辑和操作 - 训练快:几分钟 vs NeRF 的几小时

3DGS 在 2024-2025 的演进: | 变体 | 核心改进 | |------|---------| | 4DGS | 扩展到动态场景(时间维度) | | GaussianEditor | 3D 场景编辑(文本驱动) | | DreamGaussian | 文本到 3D 生成 | | SUGAR | 网格提取(与传统渲染管线兼容) | | Gaussian Splatting + SLAM | 实时 3D 重建+定位 |

18.8.3 Zero-1-to-3

论文Zero-1-to-3: Zero-shot One Image to 3D Object( Liu et al., ICCV 2023 )

核心思想:给定单张图像,生成任意视角的新视图,进而重建 3D 模型。

方法: 1. 利用 Stable Diffusion 的大量 2D 图像先验 2. 微调:输入一张图+目标视角 → 生成目标视角的图像 3. 配合 SDS ( Score Distillation Sampling )优化 3D 表示

Text Only
单张RGB图像 + 目标相机位姿 (R, θ, φ)
微调的Stable Diffusion
目标视角的图像
    ↓ (多个视角汇总)
3D重建 (NeRF 或 3DGS)

18.8.4 其他重要 3D 生成方法

方法 年份 核心思路 输入
DreamFusion 2022 SDS 损失优化 NeRF 文本
Magic3D 2023 粗→细两阶段 文本
Instant3D 2024 前馈式(无需优化) 单图
TripoSR 2024 快速单图 3D 重建 单图
LGM 2024 大型高斯重建模型 多视图
Trellis 2025 结构化 3D Token 单图/文本

18.8.5 3D 生成代码示例

Python
# 使用TripoSR进行单图3D重建(前馈式,无需优化)
import torch
from tsr.system import TSR
from PIL import Image

# 加载模型
model = TSR.from_pretrained(
    "stabilityai/TripoSR",
    config_name="config.yaml",
    weight_name="model.ckpt",
)
model.to("cuda")

# 单图输入
image = Image.open("object.png").convert("RGB")

# 推理(约1秒)
with torch.no_grad():  # 禁用梯度计算,节省内存
    scene_codes = model([image], device="cuda")

# 导出3D mesh
mesh = model.extract_mesh(scene_codes[0])
mesh.export("output.obj")

# 导出为3D Gaussian Splatting格式
# gaussians = model.extract_gaussians(scene_codes[0])
# gaussians.save_ply("output.ply")

18.9 练习题

基础题

  1. 简答题
  2. 世界模型的核心组件有哪些?与传统视频生成模型有什么区别?

    核心组件:①观察编码器(将接收到的观测编码为状态表征);②动态预测器/转移模型(根据当前状态和动作预测下一状态,\(\hat{s}_{t+1}=f(s_t,a_t)\));③解码器/渲染器(将潜在状态解码为可视化结果)。与视频生成模型的区别:世界模型支持动作输入和交互、要求物理一致性和因果理解、可用于 RL/机器人决策;视频生成模型主要追求视觉真实感,不需要可交互性和物理精确性。

  3. Sora 使用的时空 Patch 与 ViT 的 2D Patch 有什么异同?

    相同点:都是将输入切分为非重叠的 patch 后投影为 token 序列送入 Transformer 。不同点: ViT 的 patch 是 2D 空间切块(如 16×16 像素), Sora 的时空 patch 是 3D 切块(空间+时间,如“帧数×高×宽”),能同时捕捉时间和空间关联;且 Sora 支持可变分辨率和时长,不同视频尺寸生成不同长度的序列。

  4. 解释 3D Gaussian Splatting 与 NeRF 的核心区别。

    场景表示: NeRF 用隐式 MLP 表示场景, 3DGS 用显式的三维高斯体素集合。渲染方式: NeRF 沿光线采样 MLP 做体渲染(每像素多次 MLP 推理,很慢); 3DGS 将高斯体投影到图像平面后 Alpha 混合(利用 GPU 光栅化管线,可实时渲染)。可编辑性: 3DGS 显式表示可直接操作高斯体, NeRF 隐式表示难以编辑。

  5. 分析题

  6. 比较扩散模型和自回归模型两条视频生成路线的优劣。

    扩散模型(如 Sora 类路线):优势是通常生成质量较高、时间一致性较好、可全局建模;劣势是采样步数多导致生成慢、长视频扩展成本高。自回归模型(如 Genie 、 VideoPoet ):优势是天然支持任意长度生成、与 LLM 架构统一、便于交互式生成;劣势是离散化可能带来质量损失、误差更易累积,在不少公开视频基准上视觉质量常逊于强扩散模型。

  7. 为什么 LeCun 认为世界模型对 AGI 至关重要?你是否同意?

    LeCun 认为 AGI 需要在表征空间中建立世界的内部模型——能够预测动作后果、进行计划和推理,而不是仅仅做模式匹配,这是从感知迈向理解的关键。支持观点:动物和人类确实依赖内部模拟进行决策;质疑观点:当前 LLM 已展现强大推理能力且未显式建模世界,“内部模型”的形式不一定是显式的世界模拟器。

进阶题

  1. 研究题
  2. 阅读 DIAMOND 论文,分析扩散模型作为世界模型在 RL 中的优势。
  3. 比较 GAIA-1 和 Vista 在自动驾驶世界模型设计上的不同取舍。

18.10 关键复盘

高频复盘题

Q1: 什么是世界模型?它与普通视频生成模型有什么本质区别?

参考答案: 世界模型是能够预测环境动态变化的内部模型,形式化为 \(\hat{s}_{t+1} = f(s_t, a_t)\)

与视频生成模型的区别: | 维度 | 视频生成模型 | 世界模型 | |------|------------|---------| | 核心目标 | 生成视觉上逼真的视频 | 模拟世界的运行规律 | | 可交互性 | 通常不支持交互 | 支持动作输入,预测未来 | | 物理一致性 | 不要求 | 核心要求 | | 因果理解 | 不需要 | 理想状态下需要 | | 应用场景 | 内容创作 | RL / 机器人 / 自动驾驶 |

Sora 模糊了这个边界——它以视频生成的形式展现了一定的世界模拟能力。


Q2: 请解释 Sora 的核心架构设计

参考答案: Sora 的架构基于三大组件:

  1. 视频 VAE:将视频时空联合压缩到低维潜在空间(约 32×压缩率)
  2. 时空 Patch:将潜在表示切割为 3D 时空 patch ,形成 token 序列
  3. DiT (Diffusion Transformer)
  4. 在潜在空间中做去噪扩散
  5. 使用 Transformer 替代 U-Net
  6. AdaLN-Zero 注入时间步条件
  7. Cross-Attention 注入文本条件

关键创新:原生可变分辨率和时长——不同尺寸的视频生成不同长度的 patch 序列,无需固定输入尺寸。


Q3: 3D Gaussian Splatting 为什么能实现 NeRF 无法达到的实时渲染?

参考答案: 核心区别在于表示方式和渲染方式

方面 NeRF 3DGS
场景表示 隐式( MLP ) 显式(高斯体素集合)
渲染方式 体渲染(沿光线采样 MLP ) Splatting (投影+Alpha 混合)
渲染速度 慢(每像素需多次 MLP 推理) 快(光栅化, GPU 高度并行)
可编辑性 困难(隐式) 容易(显式操作高斯体素)

3DGS 快的根本原因:从"每个像素查询场景"变为"每个高斯投影到图像"——前者计算量随分辨率增长,后者利用 GPU 光栅化管线天然并行。


Q4: 自动驾驶为什么需要世界模型?相比传统仿真器有什么优势?

参考答案需要世界模型的原因: 1. Corner Case 生成:真实道路很难采集到足够的极端场景 2. 端到端规划:在想象的未来中评估不同驾驶决策 3. 数据放大:从有限的真实数据生成大量多样化训练场景

相比传统仿真器的优势: | 维度 | 传统仿真器 (CARLA 等) | 生成式世界模型 | |------|---------------------|-------------| | 真实感 | 受渲染引擎限制 | 学习自真实世界数据 | | 场景多样性 | 需手动设计 | 自动生成多样场景 | | Domain Gap | 仿真与真实有差距 | 更接近真实数据分布 | | 物理精确性 | 精确(人工设计) | 近似(从数据学习) | | 创建成本 | 极高(建模+美术) | 较低(数据驱动) |


Q5: 比较 Genie 和 Sora 在世界模型设计上的不同思路

参考答案: | 维度 | Genie (DeepMind) | Sora (OpenAI) | |------|-----------------|--------------| | 核心方法 | 离散 token + 自回归 | 连续 latent + 扩散 | | 交互方式 | 潜在动作(无监督学习) | 文本条件 | | 学习信号 | 无标注视频中推断动作 | 文本-视频对 | | 目标场景 | 2D 可交互环境 | 通用视频生成 | | 物理理解 | 2D 游戏物理 | 3D 世界物理(有限) | | 开放性 | 学术论文 | 产品化 |

本质区别: Genie 更像"学习环境规则"(可以控制角色在环境中行动), Sora 更像"学习视觉世界的统计规律"(以逼真的方式描绘世界变化)。


Q6: 谈谈你对"世界模型是通向 AGI 的关键"这个观点的看法

参考答案(开放题,以下为一种分析思路):

支持观点: - 人类的智能核心依赖内部世界模型(想象、预测、规划) - 纯语言模型缺乏物理世界理解,难以通过具身智能测试 - 世界模型可以实现"在想象中试错",是高效学习的基础

质疑观点: - 当前世界模型学到的更多是"统计相关"而非"因果理解" - 从像素预测到真正理解世界规律之间可能存在根本鸿沟 - LLM 已经展现了超预期的推理能力,也许文本世界模型也是有效的

个人见解:世界模型很可能是通向更强通用智能的重要组件之一,但不一定需要以单一路线实现;更关键的是它如何与语言模型、推理模块、记忆系统形成互补。


18.11 前沿论文索引

世界模型核心论文

年份 论文 核心贡献
2018 World Models (Ha & Schmidhuber) 奠基之作: VAE+RNN 世界模型
2020 DreamerV1 (Hafner et al.) RSSM 用于高效模型-based RL
2023 DreamerV3 跨领域通用世界模型
2024 Sora (OpenAI) 视频级世界模拟器
2024 Genie (DeepMind) 无监督学习可交互世界
2024 DIAMOND 扩散模型作为世界模型
2024 Cosmos (NVIDIA) 物理世界基础模型

自动驾驶与机器人

年份 论文 核心贡献
2023 GAIA-1 (Wayve) 大规模驾驶世界模型
2023 DriveDreamer 结构化条件驾驶生成
2024 Vista 通用可控驾驶世界模型
2023 UniPi 视频生成驱动机器人规划
2023 RT-2 (DeepMind) VLM 到机器人动作

视频生成

年份 论文 核心贡献
2023 DiT (Peebles & Xie) Transformer 替代 U-Net 做扩散
2024 CogVideoX (智谱) 开源视频生成标杆
2024 Movie Gen (Meta) 大规模视频+音频生成
2024 HunyuanVideo (腾讯) 开源高质量视频生成
2024 LTX-Video (Lightricks) 轻量高效视频生成

3D 生成

年份 论文 核心贡献
2020 NeRF (Mildenhall et al.) 神经辐射场开创
2023 3D Gaussian Splatting 实时高质量 3D 渲染
2023 Zero-1-to-3 单图 3D 重建
2023 DreamFusion 文本到 3D (SDS 损失)
2024 TripoSR (Stability AI) 快速前馈 3D 重建
2024 LGM 大型高斯重建模型
2025 Trellis (Microsoft) 结构化 3D 生成

18.12 本章小结

核心知识点

  1. 世界模型概念:从 Ha & Schmidhuber 2018 到 2024-2025 大爆发,世界模型从"在梦中训练"evolve 到"模拟真实世界"
  2. Sora 架构:视频 VAE + 时空 Patch + DiT = 视频级世界模拟器
  3. 代表性世界模型: Genie (可交互环境)、 DIAMOND ( RL 世界模型)、 Cosmos (物理世界基础模型)
  4. 自动驾驶: GAIA-1 、 DriveDreamer 、 Vista 解决 corner case 生成和端到端规划
  5. 机器人: UniPi (视频→动作)、 RT-2 ( VLM→机器人控制)
  6. 视频生成: CogVideoX (开源标杆)、 Kling/Pika/Gen-3 (商用方案)
  7. 3D 生成: NeRF → 3D Gaussian Splatting (实时)→ 单图/文本 3D 重建
  8. AGI 视角:世界模型可能是通向 AGI 的关键拼图之一

下一步

  • 动手跑 CogVideoX 开源模型体验视频生成
  • 用 nerfstudio 或 gsplat 尝试 3D Gaussian Splatting
  • 阅读 Sora 技术报告和 Genie 论文理解世界模型设计
  • 关注前沿:机器人世界模型和自动驾驶世界模型的最新进展

恭喜完成第 18 章! 世界模型是近年很值得持续跟踪的 AI 方向之一。从视频生成到 3D 重建,从自动驾驶到机器人,它正在推动 AI 对动态世界建模能力的提升。

⚠️ 核验说明(2026-04-03):本页已再次逐段人工复核。若文中涉及外部模型、API、版本号、价格、部署依赖或第三方产品名称,请以官方文档、论文原文和实际运行环境为准。


最后更新日期: 2026-04-03