第 18 章世界模型与视觉生成¶

📚 章节概述¶

世界模型（ World Model ）是近年 AI 研究和产业都高度关注的方向之一。从 Ha & Schmidhuber 在 2018 年提出"World Models"概念，到公开视频生成系统和可交互环境建模工作的持续推进，世界模型正从学术研究走向更多实际应用。本章将系统讲解世界模型的理论基础、核心架构（ DiT/时空 Patch ）、视频生成技术、 3D 生成技术，以及在自动驾驶和机器人领域的前沿应用。

学习时间： 5-7 天 难度等级：⭐⭐⭐⭐⭐ 前置知识：第 11 章生成模型与 GAN 、第 12 章视觉 Transformer 、扩散模型基础

🎯 学习目标¶

完成本章后，你将能够： - 理解世界模型的概念演进：从认知科学到 AI 实现 - 理解以 Sora 为代表的公开视频生成系统常见设计思路（如 DiT + 时空 Patch + 潜空间表示） - 了解代表性世界模型： Genie 、 UniSim 、 DIAMOND 、 Cosmos - 理解自动驾驶世界模型（ GAIA-1 、 DriveDreamer 、 Vista ）的设计 - 了解机器人世界模型（ UniPi 、 RT-2 ）的工作原理 - 掌握视频生成技术（ CogVideoX 、 Kling 、 Runway Gen-3 ）的技术路线 - 了解 3D 生成（ Gaussian Splatting 、 NeRF 、 Zero-1-to-3 ）的前沿进展 - 理解世界模型与 AGI 的关系 - 准备 6 道关键复盘题

18.1 世界模型概念¶

18.1.1 什么是世界模型¶

世界模型（ World Model ） 是一个能够预测环境动态变化的内部模型。它学习"世界是如何运转的"，可以在给定当前状态和动作的情况下，预测未来状态。

认知科学视角：人类大脑中存在一个内部世界模型（ Internal World Model ），用于： - 预测物理世界的变化（球抛出后会落地） - 模拟未来场景（想象开车到达目的地的路径） - 理解因果关系（推门 → 门打开）

AI 视角的形式化定义：

\[\hat{s}_{t+1} = f_\theta(s_t, a_t)\]

其中 \(s_t\) 是当前状态，\(a_t\) 是动作，\(\hat{s}_{t+1}\) 是预测的下一个状态，\(f_\theta\) 是参数化的世界模型。

18.1.2 世界模型的发展历程¶

时间	里程碑	核心贡献
2018	World Models (Ha & Schmidhuber)	VAE+RNN 的世界模型框架，在 Car Racing 中学会"做梦"
2020	DreamerV1 (Hafner et al.)	RSSM 用于模型-based RL ，样本效率大幅提升
2022	DreamerV3	跨领域通用的世界模型（游戏、机器人、 DMC ）
2023	GAIA-1 (Wayve)	自动驾驶领域首个大规模生成式世界模型
2024	Sora (OpenAI)	公开视频生成系统推动世界模型讨论继续升温
2024.02	Genie (DeepMind)	从视频中学习可交互环境的世界模型
2025	Cosmos (NVIDIA)	面向物理世界模拟的代表性路线之一
2024-2026	Sora / 后续产品化版本 (OpenAI)	闭源视频生成系统持续演进，具体产品名与开放范围需看官方更新
近年	持续活跃	世界模型在机器人、自动驾驶、游戏中持续推进

18.1.3 世界模型的核心组件¶

一个完整的世界模型通常包含：

Text Only

环境观测(视频帧/传感器数据)
     ↓
┌─────────────────────────────┐
│  1. 感知编码器 (Perception)   │  将观测编码为潜在表示
│  2. 动力学模型 (Dynamics)     │  预测状态如何随时间/动作演化
│  3. 解码器 (Decoder)          │  将潜在表示重建为可视化输出
│  4. 奖励预测器 (Reward)*      │  （用于RL：预测动作的回报）
└─────────────────────────────┘
     ↓
未来状态预测(视频帧/3D场景)

18.1.4 World Models (Ha & Schmidhuber, 2018)¶

这是世界模型概念的奠基之作。

架构： V I S I O N (VAE) + M E M O R Y (MDN-RNN) + C O N T R O L L E R

Text Only

观测图像 → VAE Encoder → 潜在向量 z_t
                                    ↓
             MDN-RNN (记忆模块): h_t = RNN(z_t, a_{t-1}, h_{t-1})
                                    ↓
                          预测下一状态: p(z_{t+1} | h_t, z_t, a_t)
                                    ↓
                   控制器: a_t = Controller(z_t, h_t)

核心创新："在梦中训练"——智能体可以在世界模型生成的"想象"环境中进行策略优化，无需与真实环境交互。

18.2 Sora 架构解析¶

18.2.1 Sora 概述¶

Sora（ OpenAI, 2024 年首次公开展示）是一个能够根据文本描述生成视频的闭源系统。对学习者来说，更重要的是把它视为“时空统一建模的视频世界模拟器”代表，而不是记忆某一时点的产品命名或开放范围。

公开展示中体现的代表性能力： - 生成较长时长、较高分辨率的视频片段 - 在许多案例中呈现较好的 3D 空间一致性（物体遮挡、反射、阴影） - 在部分场景中体现一定物理世界动态一致性 - 支持多角色、多场景的复杂叙事 - 支持多种视频生成与编辑形态，但具体开放模式应以官方产品更新为准

18.2.2 技术架构¶

Sora 的核心架构基于以下三大组件：

1. 视频 VAE （ Video Compression Network ）

将视频压缩到低维潜在空间：

Text Only

原始视频: T×H×W×3 (时间×高度×宽度×通道)
    ↓  Video Encoder (时空压缩)
潜在表示: t×h×w×C  (压缩后的时空潜在)
    ↓  处理后
    ↓  Video Decoder (时空解压)
重建视频: T×H×W×3

压缩率约为 8×8 （空间）× 4 （时间），大幅降低 Transformer 的计算负担。

2. 时空 Patch （ Spacetime Patch ）

这是 Sora 的关键创新——将视频从时空潜在表示进一步切割为时空 Patch：

Text Only

潜在视频: t×h×w×C
    ↓ Patchify (切割为3D patch)
Patch序列: [p_1, p_2, ..., p_N]  (N = t'×h'×w')
    ↓
每个patch包含时间×空间的局部信息

类比 ViT： ViT 将 2D 图像切为 2D patch → Sora 将 3D 视频切为 3D 时空 patch

3. DiT （ Diffusion Transformer ）

Text Only

带噪声的时空Patch序列
    ↓
DiT Block × L:
  - LayerNorm
  - Multi-Head Self-Attention (时空注意力)
  - Cross-Attention (文本条件)
  - AdaLN-Zero (时间步条件注入)
  - MLP
    ↓
去噪后的时空Patch序列
    ↓ Unpatchify
去噪的潜在视频
    ↓ Video Decoder
生成的视频

18.2.3 Sora 的关键设计选择¶

设计维度	Sora 的选择	传统方法
骨干网络	DiT (Transformer)	U-Net
序列化方式	时空 Patch	逐帧/3D 卷积
分辨率/时长	原生可变分辨率和时长	固定分辨率
潜在空间	时空联合 VAE	逐帧 VAE (如 Stable Diffusion)
条件注入	Cross-Attention + AdaLN	Cross-Attention
训练数据	未公开（估计数亿视频）	公开数据集

18.2.4 Sora 公开展示中体现的代表性能力¶

公开演示与技术说明中， Sora 体现出若干值得学习的能力方向： 1. 3D 一致性：摄像机运动时 3D 场景保持一致 2. 长程时间一致性： 60 秒视频中人物/物体外观不漂移 3. 世界交互：画家在画布上留下笔触（状态持久变化） 4. 数字世界模拟：可以模拟 Minecraft 游戏画面

局限性： - 物理模拟不完美（如液体飞溅、手指数量） - 长视频后期可能出现不一致 - 因果推理能力有限

18.3 代表性世界模型¶

18.3.1 Genie (DeepMind, 2024)¶

论文：Genie: Generative Interactive Environments

核心定位：从互联网视频中学习可交互的 2D 世界模型。

架构： 1. Video Tokenizer：将视频帧编码为离散 token （ VQ-VAE ） 2. Latent Action Model：无监督推断帧之间的"潜在动作" 3. Dynamics Model：给定当前帧 token 和动作，预测下一帧 token

Text Only

视频序列: [frame_1, frame_2, ..., frame_T]
           ↓
潜在动作推断: a_t = ActionModel(frame_t, frame_{t+1})
           ↓
动力学预测: frame_{t+1} = DynamicsModel(frame_t, a_t)

亮点： - 不需要动作标签——从纯视频中无监督学习动作空间 - 可以从单张图片生成可交互的虚拟世界 - 训练在 200K+小时的 2D 平台游戏视频上

18.3.2 UniSim (Google, 2024)¶

论文：UniSim: Learning Interactive Real-World Simulators

目标：构建一个统一的交互式真实世界模拟器。

关键特点： - 支持多种交互形式：文本指令、动作轨迹、摄像机运动 - 在多个领域训练：真实世界视频、机器人操作、导航 - 可以模拟机器人操作的视觉结果

18.3.3 DIAMOND (2024)¶

论文：Diffusion for World Modeling: Visual Details Matter in Atari

核心贡献：首次证明扩散模型可以作为世界模型来训练 RL 智能体。

方法： - 用扩散模型建模环境动态：\(p(s_{t+1}|s_t, a_t)\) - 在扩散世界模型中训练 RL 策略（在"想象中"训练） - 在 Atari 基准上取得了很强的实验结果；具体是否达到或超过人类水平，还需结合所选游戏、评价协议和论文口径理解

DIAMOND vs 传统世界模型： | 方面 | 传统 (Dreamer) | DIAMOND | |------|---------------|---------| | 生成模型 | VAE/RSSM | 扩散模型 | | 视觉质量 | 模糊、缺乏细节 | 清晰、保留关键细节 | | 信息保留 | 压缩导致信息丢失 | 扩散保留更多视觉信息 | | 关键观点 | 压缩表示足够 | 视觉细节对决策至关重要 |

18.3.4 Cosmos (NVIDIA, 2025)¶

定位：面向物理世界模拟的世界基础模型（ World Foundation Model ）。

两种架构： 1. Cosmos-Diffusion：基于扩散模型的视频世界模型 2. Cosmos-Autoregressive：基于自回归 Transformer 的视频世界模型

核心特点： - 专注物理世界的精确模拟（不仅是视觉质量） - 提供多种规模模型（从 4B 到 14B 参数） - 开源 tokenizer 和部分模型权重 - 面向机器人和自动驾驶应用优化

Cosmos Tokenizer： - 时空连续 tokenizer （比离散 tokenizer 重建质量更高） - 支持图像（ 2D ）和视频（ 3D ）的统一 tokenization

18.4 自动驾驶世界模型¶

自动驾驶是世界模型最重要的落地方向之一——驾驶世界模型可以生成逼真的驾驶场景，用于： 1. 模拟器数据增强（ corner case 生成） 2. 端到端规划（在想象中预演驾驶决策） 3. 安全验证（测试极端场景）

18.4.1 GAIA-1 (Wayve, 2023)¶

论文：GAIA-1: A Generative World Model for Autonomous Driving

架构： 9B 参数的自回归 Transformer 生成式世界模型。

Text Only

输入:
  - 前方摄像头视频 (Video Tokenizer编码)
  - 文本描述 (T5编码)
  - 驾驶动作 (速度/转角)
    ↓
自回归Transformer (GPT-like)
    ↓
预测未来视频帧序列

能力： - 生成逼真的未来驾驶场景（ 3-5 秒） - 理解天气、光照变化 - 响应不同的驾驶动作生成不同的未来 - 可用于不同驾驶策略的"what-if"分析

18.4.2 DriveDreamer (2023-2024)¶

论文：DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving

核心创新： - 结合结构化驾驶信息（ 3D bbox 、 HDMap 、交通信号）作为条件 - 支持多视角生成 - DriveDreamer-2 ：引入 LLM 将用户指令转化为驾驶场景描述

18.4.3 Vista (2024)¶

论文：Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

关键特点： - 在大规模多样化驾驶数据上预训练 - 支持高保真度的长时间视频生成（>15 秒） - 多种控制信号：动作、文本、目标点 - 可作为驾驶模拟器用于端到端自动驾驶训练

18.4.4 自动驾驶世界模型对比¶

模型	参数量	架构	条件输入	生成时长	特色
GAIA-1	9B	自回归 Transformer	视频+文本+动作	3-5 秒	首个大规模驾驶世界模型
DriveDreamer	~1B	扩散模型	结构化信息+文本	2-5 秒	多视角+结构化条件
Vista	~2B	扩散模型	动作+文本+目标	15+秒	长时间+通用性
DriveWM	~1B	自回归	规划轨迹	4 秒	多视角一致性

18.5 机器人世界模型¶

18.5.1 UniPi (2023)¶

论文：UniPi: Learning Universal Policies via Text-Guided Video Generation

核心思想：将机器人规划问题转化为视频生成问题。

流程：

Text Only

文本指令: "Pick up the red cup"
    ↓
视频生成模型 (基于扩散)
    ↓
预测未来视频帧 (机器人完成任务的可视化)
    ↓
逆运动学模块
    ↓
机器人动作序列

优势： - 无需为每个机器人单独设计策略——通过视频生成来规划 - 可以利用大量互联网视频进行预训练 - 自然地处理长时间规划

18.5.2 RT-2 (Google DeepMind, 2023)¶

论文：RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

核心思想：将大型视觉-语言模型（ VLM ）直接转化为机器人控制策略。

架构：

Text Only

视觉观测 + 文本指令
    ↓
VLM (PaLI-X 或 PaLM-E)
    ↓
Token化的动作 (离散化为文本token)
    ↓
机器人执行

关键创新： - 动作 token 化：将连续动作离散化为特殊文本 token - 利用 VLM 在互联网数据上学到的世界知识来指导机器人 - 展现了强零样本泛化能力（"把垃圾扔进垃圾桶"，即使未见过该指令）

18.5.3 机器人世界模型对比¶

模型	方法	类型	关键特性
UniPi	视频生成→逆运动学	基于视频	利用扩散模型做规划
RT-2	VLM 直接输出动作	端到端	互联网知识迁移到机器人
SuSIE	子目标图像预测	分层规划	预测中间目标图像
RoboDreamer	世界模型+规划	模型-based	在想象中进行试错
GR-1	GPT 风格自回归	统一模型	文本+视频+动作统一建模

18.6 世界模型与 AGI 的关系¶

18.6.1 LeCun 的世界模型理论¶

Yann LeCun 提出了以世界模型为核心的自主 AI 架构（ JEPA - Joint Embedding Predictive Architecture ）：

Text Only

┌─────────────────────────────────────────────┐
│            自主智能体架构                       │
│                                              │
│  感知 → 世界模型 → 行为者 → 动作              │
│           ↕                                  │
│        记忆模块                               │
│           ↕                                  │
│       配置器(目标)                             │
│           ↕                                  │
│        代价模块                               │
└─────────────────────────────────────────────┘

LeCun 的核心论点： - LLM 只学习了"语言世界"的模型，缺乏对物理世界的理解 - AGI 需要一个内部世界模型来进行因果推理和规划 - 世界模型应该在表示空间（而非像素空间）中进行预测 - 自监督学习（而非生成式建模）是学习世界模型的正确方式

18.6.2 世界模型为什么重要¶

能力	LLM	世界模型	说明
语言理解	✅	❌	LLM 擅长
物理直觉	❌	✅	理解重力、碰撞、流体
因果推理	弱	✅	模拟"如果...会怎样"
长程规划	弱	✅	在想象中预演多步决策
空间推理	弱	✅	3D 空间理解
时间推理	弱	✅	动态变化预测

18.6.3 世界模型的开放挑战¶

物理精确性：当前模型生成的视频在物理规律上仍有大量错误
可控性：如何精确控制世界模型生成特定场景
组合泛化：面对从未见过的场景组合（新物体+新动作+新环境）
评估困难：缺乏统一的世界模型评估基准
计算成本：高质量视频生成的推理成本极高
因果 vs 相关：世界模型学到的是真正的因果关系还是统计相关？

18.7 视频生成技术¶

18.7.1 技术路线概览¶

当前视频生成主要有三条技术路线：

路线	代表模型	核心方法
扩散模型	Sora, Runway Gen-3, Kling	DiT/U-Net + 时空注意力
自回归模型	VideoPoet, Emu Video	Token 预测 (类似 LLM)
混合方法	CogVideoX	自回归 + 扩散

18.7.2 CogVideoX (智谱 AI, 2024)¶

定位：开源的文本到视频生成模型。

架构： Expert Transformer （ 3D VAE + Expert Adaptive LayerNorm DiT ）

关键特点： - 3D 因果 VAE ：时空联合压缩，保持时间因果性 - Expert Transformer ：将文本和视频 token 在同一 Transformer 中处理，但使用不同的 Expert FFN - 支持 6 秒/480p 视频生成 - 开源模型（ 5B 参数）

代码示例：

Python

# 使用diffusers库调用CogVideoX
from diffusers import CogVideoXPipeline
import torch

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16,
)
# 二选一：显存够就直接上 GPU；显存紧张再启用 CPU offload
pipe.to("cuda")

prompt = "A golden retriever playing in the snow, cinematic lighting, 4K"
video = pipe(
    prompt=prompt,
    num_frames=49,        # 约6秒 (8fps)
    guidance_scale=6.0,
    num_inference_steps=50,
).frames[0]

# 保存视频
from diffusers.utils import export_to_video
export_to_video(video, "output.mp4", fps=8)

18.7.3 Kling (快手, 2024)¶

定位：商用级高质量视频生成模型。

技术特点： - 3D 时空联合注意力 - 支持最长 2 分钟视频生成 - 1080p 高清画质 - 运动幅度大、物理一致性强 - 支持 Image-to-Video 、 Video Extension

18.7.4 Pika (2024-2025)¶

特色功能： - 视频中的物体编辑（替换、删除、添加） - Lip Sync （口型同步） - 3D 场景转换效果 - "Pikaffects"特效系统

18.7.5 Runway Gen-3 Alpha (2024)¶

技术特点： - 基于扩散 Transformer 架构 - 多模态条件：文本+图像+视频 - 高保真人物一致性 - 支持 Motion Brush （运动笔刷控制）

18.7.6 视频生成模型对比¶

模型	公司	最大时长	分辨率	开源	特色
Sora	OpenAI	以官方公开能力为准	以官方公开能力为准	❌	公开奖示中体现较强时空一致性
CogVideoX	智谱	6 秒	720p	✅	开源标杆
Kling 1.6	快手	2 分钟	1080p	❌	长视频+高运动
Pika 2.0	Pika Labs	10 秒	1080p	❌	物体编辑
Gen-3 Alpha	Runway	10 秒	1080p+4K	❌	人物一致性
Veo 2	Google	120 秒	4K	❌	超长+超高清
HunyuanVideo	腾讯	5 秒	720p	✅	开源
LTX-Video	Lightricks	5 秒	768p	✅	轻量开源

18.8 3D 生成技术¶

18.8.1 NeRF (Neural Radiance Fields)¶

论文：NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis（ Mildenhall et al., ECCV 2020 ）

核心思想：用神经网络表示 3D 场景，输入 3D 坐标和视角方向，输出颜色和密度。

\[F_\theta: (x, y, z, \theta, \phi) \rightarrow (r, g, b, \sigma)\]

渲染方式：沿光线积分（体渲染）：

\[C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \cdot \sigma(\mathbf{r}(t)) \cdot \mathbf{c}(\mathbf{r}(t), \mathbf{d}) \, dt\]

其中 \(T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) \, ds\right)\)

局限： - 训练慢（ MLP 需要大量采样点） - 渲染慢（每个像素需要沿射线采样多点） - 静态场景为主

18.8.2 3D Gaussian Splatting (3DGS)¶

论文：3D Gaussian Splatting for Real-Time Radiance Field Rendering（ Kerbl et al., SIGGRAPH 2023 ）

核心思想：用大量 3D 高斯体素（ Gaussian primitives ）显式表示场景，通过"splatting"（喷溅）实现实时渲染。

每个高斯体素的属性： - 位置 \(\mu \in \mathbb{R}^3\)（均值） - 协方差矩阵 \(\Sigma \in \mathbb{R}^{3 \times 3}\)（形状和朝向） - 不透明度 \(\alpha \in [0, 1]\) - 球谐函数系数（表示视角相关的颜色）

渲染流程：

Text Only

3D高斯体素集合
    ↓ 投影到2D图像平面
2D高斯 (splatting)
    ↓ 按深度排序
    ↓ Alpha Blending
渲染图像

优势： - 实时渲染： 100+ FPS （ NeRF 仅~1 FPS ） - 质量高：与 NeRF 同级甚至更好 - 可编辑：显式表示便于编辑和操作 - 训练快：几分钟 vs NeRF 的几小时

3DGS 在 2024-2025 的演进： | 变体 | 核心改进 | |------|---------| | 4DGS | 扩展到动态场景（时间维度） | | GaussianEditor | 3D 场景编辑（文本驱动） | | DreamGaussian | 文本到 3D 生成 | | SUGAR | 网格提取（与传统渲染管线兼容） | | Gaussian Splatting + SLAM | 实时 3D 重建+定位 |

18.8.3 Zero-1-to-3¶

论文：Zero-1-to-3: Zero-shot One Image to 3D Object（ Liu et al., ICCV 2023 ）

核心思想：给定单张图像，生成任意视角的新视图，进而重建 3D 模型。

方法： 1. 利用 Stable Diffusion 的大量 2D 图像先验 2. 微调：输入一张图+目标视角 → 生成目标视角的图像 3. 配合 SDS （ Score Distillation Sampling ）优化 3D 表示

Text Only

单张RGB图像 + 目标相机位姿 (R, θ, φ)
    ↓
微调的Stable Diffusion
    ↓
目标视角的图像
    ↓ (多个视角汇总)
3D重建 (NeRF 或 3DGS)

18.8.4 其他重要 3D 生成方法¶

方法	年份	核心思路	输入
DreamFusion	2022	SDS 损失优化 NeRF	文本
Magic3D	2023	粗→细两阶段	文本
Instant3D	2024	前馈式（无需优化）	单图
TripoSR	2024	快速单图 3D 重建	单图
LGM	2024	大型高斯重建模型	多视图
Trellis	2025	结构化 3D Token	单图/文本

18.8.5 3D 生成代码示例¶

Python

# 使用TripoSR进行单图3D重建（前馈式，无需优化）
import torch
from tsr.system import TSR
from PIL import Image

# 加载模型
model = TSR.from_pretrained(
    "stabilityai/TripoSR",
    config_name="config.yaml",
    weight_name="model.ckpt",
)
model.to("cuda")

# 单图输入
image = Image.open("object.png").convert("RGB")

# 推理（约1秒）
with torch.no_grad():  # 禁用梯度计算，节省内存
    scene_codes = model([image], device="cuda")

# 导出3D mesh
mesh = model.extract_mesh(scene_codes[0])
mesh.export("output.obj")

# 导出为3D Gaussian Splatting格式
# gaussians = model.extract_gaussians(scene_codes[0])
# gaussians.save_ply("output.ply")

18.9 练习题¶

基础题¶

简答题：
世界模型的核心组件有哪些？与传统视频生成模型有什么区别？

核心组件：①观察编码器（将接收到的观测编码为状态表征）；②动态预测器/转移模型（根据当前状态和动作预测下一状态，\(\hat{s}_{t+1}=f(s_t,a_t)\)）；③解码器/渲染器（将潜在状态解码为可视化结果）。与视频生成模型的区别：世界模型支持动作输入和交互、要求物理一致性和因果理解、可用于 RL/机器人决策；视频生成模型主要追求视觉真实感，不需要可交互性和物理精确性。
Sora 使用的时空 Patch 与 ViT 的 2D Patch 有什么异同？

相同点：都是将输入切分为非重叠的 patch 后投影为 token 序列送入 Transformer 。不同点： ViT 的 patch 是 2D 空间切块（如 16×16 像素）， Sora 的时空 patch 是 3D 切块（空间+时间，如“帧数×高×宽”），能同时捕捉时间和空间关联；且 Sora 支持可变分辨率和时长，不同视频尺寸生成不同长度的序列。
解释 3D Gaussian Splatting 与 NeRF 的核心区别。

场景表示： NeRF 用隐式 MLP 表示场景， 3DGS 用显式的三维高斯体素集合。渲染方式： NeRF 沿光线采样 MLP 做体渲染（每像素多次 MLP 推理，很慢）； 3DGS 将高斯体投影到图像平面后 Alpha 混合（利用 GPU 光栅化管线，可实时渲染）。可编辑性： 3DGS 显式表示可直接操作高斯体， NeRF 隐式表示难以编辑。
分析题：
比较扩散模型和自回归模型两条视频生成路线的优劣。

扩散模型（如 Sora 类路线）：优势是通常生成质量较高、时间一致性较好、可全局建模；劣势是采样步数多导致生成慢、长视频扩展成本高。自回归模型（如 Genie 、 VideoPoet ）：优势是天然支持任意长度生成、与 LLM 架构统一、便于交互式生成；劣势是离散化可能带来质量损失、误差更易累积，在不少公开视频基准上视觉质量常逊于强扩散模型。
为什么 LeCun 认为世界模型对 AGI 至关重要？你是否同意？

LeCun 认为 AGI 需要在表征空间中建立世界的内部模型——能够预测动作后果、进行计划和推理，而不是仅仅做模式匹配，这是从感知迈向理解的关键。支持观点：动物和人类确实依赖内部模拟进行决策；质疑观点：当前 LLM 已展现强大推理能力且未显式建模世界，“内部模型”的形式不一定是显式的世界模拟器。

进阶题¶

研究题：
阅读 DIAMOND 论文，分析扩散模型作为世界模型在 RL 中的优势。
比较 GAIA-1 和 Vista 在自动驾驶世界模型设计上的不同取舍。

18.10 关键复盘¶

高频复盘题¶

Q1: 什么是世界模型？它与普通视频生成模型有什么本质区别？

参考答案：世界模型是能够预测环境动态变化的内部模型，形式化为 \(\hat{s}_{t+1} = f(s_t, a_t)\)。

与视频生成模型的区别： | 维度 | 视频生成模型 | 世界模型 | |------|------------|---------| | 核心目标 | 生成视觉上逼真的视频 | 模拟世界的运行规律 | | 可交互性 | 通常不支持交互 | 支持动作输入，预测未来 | | 物理一致性 | 不要求 | 核心要求 | | 因果理解 | 不需要 | 理想状态下需要 | | 应用场景 | 内容创作 | RL / 机器人 / 自动驾驶 |

Sora 模糊了这个边界——它以视频生成的形式展现了一定的世界模拟能力。

Q2: 请解释 Sora 的核心架构设计

参考答案： Sora 的架构基于三大组件：

视频 VAE：将视频时空联合压缩到低维潜在空间（约 32×压缩率）
时空 Patch：将潜在表示切割为 3D 时空 patch ，形成 token 序列
DiT (Diffusion Transformer)：
在潜在空间中做去噪扩散
使用 Transformer 替代 U-Net
AdaLN-Zero 注入时间步条件
Cross-Attention 注入文本条件

关键创新：原生可变分辨率和时长——不同尺寸的视频生成不同长度的 patch 序列，无需固定输入尺寸。

Q3: 3D Gaussian Splatting 为什么能实现 NeRF 无法达到的实时渲染？

参考答案：核心区别在于表示方式和渲染方式：

方面	NeRF	3DGS
场景表示	隐式（ MLP ）	显式（高斯体素集合）
渲染方式	体渲染（沿光线采样 MLP ）	Splatting （投影+Alpha 混合）
渲染速度	慢（每像素需多次 MLP 推理）	快（光栅化， GPU 高度并行）
可编辑性	困难（隐式）	容易（显式操作高斯体素）

3DGS 快的根本原因：从"每个像素查询场景"变为"每个高斯投影到图像"——前者计算量随分辨率增长，后者利用 GPU 光栅化管线天然并行。

Q4: 自动驾驶为什么需要世界模型？相比传统仿真器有什么优势？

参考答案： 需要世界模型的原因： 1. Corner Case 生成：真实道路很难采集到足够的极端场景 2. 端到端规划：在想象的未来中评估不同驾驶决策 3. 数据放大：从有限的真实数据生成大量多样化训练场景

相比传统仿真器的优势： | 维度 | 传统仿真器 (CARLA 等) | 生成式世界模型 | |------|---------------------|-------------| | 真实感 | 受渲染引擎限制 | 学习自真实世界数据 | | 场景多样性 | 需手动设计 | 自动生成多样场景 | | Domain Gap | 仿真与真实有差距 | 更接近真实数据分布 | | 物理精确性 | 精确（人工设计） | 近似（从数据学习） | | 创建成本 | 极高（建模+美术） | 较低（数据驱动） |

Q5: 比较 Genie 和 Sora 在世界模型设计上的不同思路

参考答案： | 维度 | Genie (DeepMind) | Sora (OpenAI) | |------|-----------------|--------------| | 核心方法 | 离散 token + 自回归 | 连续 latent + 扩散 | | 交互方式 | 潜在动作（无监督学习） | 文本条件 | | 学习信号 | 无标注视频中推断动作 | 文本-视频对 | | 目标场景 | 2D 可交互环境 | 通用视频生成 | | 物理理解 | 2D 游戏物理 | 3D 世界物理（有限） | | 开放性 | 学术论文 | 产品化 |

本质区别： Genie 更像"学习环境规则"（可以控制角色在环境中行动）， Sora 更像"学习视觉世界的统计规律"（以逼真的方式描绘世界变化）。

Q6: 谈谈你对"世界模型是通向 AGI 的关键"这个观点的看法

参考答案（开放题，以下为一种分析思路）：

支持观点： - 人类的智能核心依赖内部世界模型（想象、预测、规划） - 纯语言模型缺乏物理世界理解，难以通过具身智能测试 - 世界模型可以实现"在想象中试错"，是高效学习的基础

质疑观点： - 当前世界模型学到的更多是"统计相关"而非"因果理解" - 从像素预测到真正理解世界规律之间可能存在根本鸿沟 - LLM 已经展现了超预期的推理能力，也许文本世界模型也是有效的

个人见解：世界模型很可能是通向更强通用智能的重要组件之一，但不一定需要以单一路线实现；更关键的是它如何与语言模型、推理模块、记忆系统形成互补。

18.11 前沿论文索引¶

世界模型核心论文¶

年份	论文	核心贡献
2018	World Models (Ha & Schmidhuber)	奠基之作： VAE+RNN 世界模型
2020	DreamerV1 (Hafner et al.)	RSSM 用于高效模型-based RL
2023	DreamerV3	跨领域通用世界模型
2024	Sora (OpenAI)	视频级世界模拟器
2024	Genie (DeepMind)	无监督学习可交互世界
2024	DIAMOND	扩散模型作为世界模型
2024	Cosmos (NVIDIA)	物理世界基础模型

自动驾驶与机器人¶

年份	论文	核心贡献
2023	GAIA-1 (Wayve)	大规模驾驶世界模型
2023	DriveDreamer	结构化条件驾驶生成
2024	Vista	通用可控驾驶世界模型
2023	UniPi	视频生成驱动机器人规划
2023	RT-2 (DeepMind)	VLM 到机器人动作

视频生成¶

年份	论文	核心贡献
2023	DiT (Peebles & Xie)	Transformer 替代 U-Net 做扩散
2024	CogVideoX (智谱)	开源视频生成标杆
2024	Movie Gen (Meta)	大规模视频+音频生成
2024	HunyuanVideo (腾讯)	开源高质量视频生成
2024	LTX-Video (Lightricks)	轻量高效视频生成

3D 生成¶

年份	论文	核心贡献
2020	NeRF (Mildenhall et al.)	神经辐射场开创
2023	3D Gaussian Splatting	实时高质量 3D 渲染
2023	Zero-1-to-3	单图 3D 重建
2023	DreamFusion	文本到 3D (SDS 损失)
2024	TripoSR (Stability AI)	快速前馈 3D 重建
2024	LGM	大型高斯重建模型
2025	Trellis (Microsoft)	结构化 3D 生成

18.12 本章小结¶

核心知识点¶

世界模型概念：从 Ha & Schmidhuber 2018 到 2024-2025 大爆发，世界模型从"在梦中训练"evolve 到"模拟真实世界"
Sora 架构：视频 VAE + 时空 Patch + DiT = 视频级世界模拟器
代表性世界模型： Genie （可交互环境）、 DIAMOND （ RL 世界模型）、 Cosmos （物理世界基础模型）
自动驾驶： GAIA-1 、 DriveDreamer 、 Vista 解决 corner case 生成和端到端规划
机器人： UniPi （视频→动作）、 RT-2 （ VLM→机器人控制）
视频生成： CogVideoX （开源标杆）、 Kling/Pika/Gen-3 （商用方案）
3D 生成： NeRF → 3D Gaussian Splatting （实时）→ 单图/文本 3D 重建
AGI 视角：世界模型可能是通向 AGI 的关键拼图之一

下一步¶

动手跑 CogVideoX 开源模型体验视频生成
用 nerfstudio 或 gsplat 尝试 3D Gaussian Splatting
阅读 Sora 技术报告和 Genie 论文理解世界模型设计
关注前沿：机器人世界模型和自动驾驶世界模型的最新进展

恭喜完成第 18 章！ 世界模型是近年很值得持续跟踪的 AI 方向之一。从视频生成到 3D 重建，从自动驾驶到机器人，它正在推动 AI 对动态世界建模能力的提升。

⚠️ 核验说明（2026-04-03）：本页已再次逐段人工复核。若文中涉及外部模型、API、版本号、价格、部署依赖或第三方产品名称，请以官方文档、论文原文和实际运行环境为准。

最后更新日期： 2026-04-03

第 18 章 世界模型与视觉生成¶

📚 章节概述¶

🎯 学习目标¶

18.1 世界模型概念¶

18.1.1 什么是世界模型¶

18.1.2 世界模型的发展历程¶

18.1.3 世界模型的核心组件¶

18.1.4 World Models (Ha & Schmidhuber, 2018)¶

18.2 Sora 架构解析¶

18.2.1 Sora 概述¶

18.2.2 技术架构¶

18.2.3 Sora 的关键设计选择¶

18.2.4 Sora 公开展示中体现的代表性能力¶

18.3 代表性世界模型¶

18.3.1 Genie (DeepMind, 2024)¶

18.3.2 UniSim (Google, 2024)¶

18.3.3 DIAMOND (2024)¶

18.3.4 Cosmos (NVIDIA, 2025)¶

18.4 自动驾驶世界模型¶

18.4.1 GAIA-1 (Wayve, 2023)¶

18.4.2 DriveDreamer (2023-2024)¶

18.4.3 Vista (2024)¶

18.4.4 自动驾驶世界模型对比¶

18.5 机器人世界模型¶

18.5.1 UniPi (2023)¶

18.5.2 RT-2 (Google DeepMind, 2023)¶

18.5.3 机器人世界模型对比¶

18.6 世界模型与 AGI 的关系¶

18.6.1 LeCun 的世界模型理论¶

18.6.2 世界模型为什么重要¶

18.6.3 世界模型的开放挑战¶

18.7 视频生成技术¶

18.7.1 技术路线概览¶

18.7.2 CogVideoX (智谱 AI, 2024)¶

18.7.3 Kling (快手, 2024)¶

18.7.4 Pika (2024-2025)¶

18.7.5 Runway Gen-3 Alpha (2024)¶

18.7.6 视频生成模型对比¶

18.8 3D 生成技术¶

18.8.1 NeRF (Neural Radiance Fields)¶

18.8.2 3D Gaussian Splatting (3DGS)¶

18.8.3 Zero-1-to-3¶

18.8.4 其他重要 3D 生成方法¶

18.8.5 3D 生成代码示例¶

18.9 练习题¶

基础题¶

进阶题¶

18.10 关键复盘¶

高频复盘题¶

18.11 前沿论文索引¶

世界模型核心论文¶

自动驾驶与机器人¶

视频生成¶

3D 生成¶

18.12 本章小结¶

核心知识点¶

下一步¶

第 18 章世界模型与视觉生成¶