多模态 AI 系统设计¶

适配方向：多模态内容理解、VLM 应用、多模态搜索、视频理解、机器人/无人机感知与端云协同
面试信号：2028 年中国大厂对多模态岗位的要求，不再只是“会用 VLM”，而是要能把视觉、文本、音频、时序、检索、稳定性和成本一起讲清楚。

一、面试官真正想考什么¶

这类题不是单纯考你认不认识 CLIP、Qwen-VL、Whisper、SAM2。

真正考的是 5 件事：

你能不能先把业务目标拆清楚，而不是一上来就说模型名字。
你知不知道不同模态的处理链路完全不同，不能用一套思路硬套。
你能不能在 质量 / 延迟 / 成本 / 可解释性 / 安全 之间做工程取舍。
你知不知道生产环境通常是 级联架构，不是“一个超大 VLM 全部做完”。
你能不能回答追问：标注怎么做、评测怎么做、坏样本怎么处理、线上怎么回滚。

如果你能把这 5 件事讲完整，这一题就不再是“知道一点多模态概念”，而是“有生产级系统设计能力”。

二、回答多模态系统题的通用框架¶

无论题目是短视频理解、图文检索、视频审核、VLM 助手，还是机器人端云协同，都可以先按下面这套骨架回答：

Text Only

1. 明确任务
   - 输入模态是什么
   - 输出是什么
   - 实时还是离线
   - 质量指标是什么

2. 拆成子系统
   - 数据接入与预处理
   - 单模态特征抽取
   - 跨模态融合 / 推理
   - 检索 / 存储 / 下游消费
   - 评测 / 监控 / 回滚

3. 说明关键决策
   - 为什么要帧采样
   - 为什么要两阶段 / 多阶段
   - 为什么有的模态预计算，有的模态在线推理
   - 为什么复杂样本才升级到 VLM

4. 补充工程问题
   - 成本
   - 延迟
   - 资源隔离
   - 安全与内容风险
   - 线上稳定性

这套结构非常重要。很多候选人答多模态题会变成“模型名堆砌”，而不是“系统设计”。

三、题型一：设计短视频平台的多模态理解系统¶

这是最典型、也最适合字节、快手、腾讯视频、内容平台和多模态推荐方向的题型。

3.1 题目示例¶

面试官可能这样问：

设计一个短视频多模态理解系统，输入是 视频 + 音频 + 标题 + OCR 文本，输出结构化标签、内容风险判断和推荐特征，日处理 500 万条视频。

3.2 先做需求拆解¶

先别急着讲模型，先把目标说清楚：

Text Only

输入:
  - 视频帧
  - 音频
  - 标题 / 简介 / 话题
  - OCR 文本 / 字幕 / ASR 文本

输出:
  - 内容标签(场景/动作/实体/主题)
  - 风险标签(违规、擦边、误导、广告)
  - 推荐侧特征(embedding / topic / quality score)

非功能要求:
  - 大规模异步处理
  - 质量优先，但成本可控
  - 新热视频要支持快速回补
  - 标签可解释，支持抽检与复盘

这个时候面试官会知道你不是“背架构图”，而是在先框业务边界。

3.3 推荐的生产级架构¶

Text Only

视频上传
  -> 元数据入库
  -> 任务投递到消息队列

预处理层
  -> 视频抽帧(关键帧 + 均匀采样)
  -> 音频分离
  -> OCR / 字幕抽取
  -> ASR 转写

单模态理解层
  -> 图像编码器 / 视频编码器提取视觉特征
  -> ASR / 音频分类模型提取音频语义
  -> 文本编码器提取标题与字幕语义

级联推理层
  -> 第一层: 规则 + 轻量模型做粗分类
  -> 第二层: 多模态融合模型 / VLM 处理复杂样本
  -> 第三层: 风险策略与业务规则校正

特征与结果层
  -> 结构化标签写入特征库 / 检索库
  -> embedding 写入向量库
  -> 风险结果进入审核系统
  -> 推荐特征进入召回 / 排序链路

评测与治理层
  -> 离线评测
  -> 抽检平台
  -> 线上质量监控
  -> 灰度发布与回滚

3.4 为什么不要“一把梭 VLM”¶

这是面试高频坑点。

如果你直接说“全部交给大 VLM 理解”，通常会被追问到答不住：

成本怎么控制？
500 万条视频一天怎么跑？
简单样本为什么要付复杂模型成本？
输出不稳定怎么办？
模型升级后标签口径漂移怎么办？

更合理的说法是：

Text Only

生产环境用级联:
  - 简单样本: 轻量视觉模型 + OCR + ASR + 规则
  - 中等复杂样本: 多模态分类模型 / reranker
  - 边界样本: 调用 VLM 做深理解或解释

这样做的收益:
  - 把 VLM 留给复杂样本
  - 降低平均成本
  - 提高吞吐
  - 便于对高风险场景做人工校验

这比“我会用一个大模型”高一个层级。

3.5 关键设计点¶

1. 视频不是图片堆起来¶

视频系统最容易被问穿的一点是：你怎么处理时序信息？

你至少要讲出：

不能只取封面帧，否则动作、事件顺序、瞬态内容都会丢。
需要 关键帧 + 均匀采样 + 可选镜头切分。
对动作、事件、违规行为，要保留时间窗口信息。
视频特征和文本/OCR/ASR 要做时间对齐，而不是简单拼接。

2. OCR 和 ASR 很重要¶

很多视频内容的关键信息不在视觉主体，而在：

画面字幕
直播口播
背景音频
视频标题

所以工程上往往是：

Text Only

视觉信息负责:
  - 物体
  - 场景
  - 动作
  - 风险画面

文本/语音信息负责:
  - 主题补充
  - 精细语义
  - 广告/违规话术
  - 搜索友好的结构化标签

3. 标签体系不能混乱¶

线上系统不是“模型说啥就是啥”，而是要有清晰 taxonomy。

你可以这样讲：

Text Only

标签体系分层:
  - 一级: 内容大类(美食/体育/剧情/教育)
  - 二级: 细分类(篮球教学/减脂餐/职场分享)
  - 风险标签: 广告/导流/低俗/医疗风险
  - 运营标签: 热点、活动、商品关联

输出要结构化:
  {
    "topic": ...,
    "entities": [...],
    "risk_flags": [...],
    "confidence": ...,
    "evidence": [...]
  }

结构化输出比纯文本摘要更容易接下游系统。

3.6 线上评测怎么讲¶

多模态系统不能只说“准确率”。

至少要拆成 4 类指标：

指标层	例子	含义
基础服务	延迟、吞吐、失败率	系统能否稳定处理
识别质量	标签准确率、召回率、风险漏判率	模型质量
业务效果	推荐提升、审核命中率、人工复审通过率	是否真有价值
成本效率	单视频成本、GPU 利用率、复杂模型命中率	是否可持续

如果能再补一句“对边界样本做分层评测，不同品类单独看”，会更像真实团队。

四、题型二：设计多模态搜索 / 图文问答系统¶

另一类常见题是：

文本搜图
图搜图
图文混合检索
图片 + 文档 + 表格问答

这类题的核心不是审核，而是 表示对齐 + 检索链路 + rerank + grounding。

4.1 推荐回答框架¶

Text Only

离线:
  - 图片 / 文档页 / 截图抽特征
  - OCR / caption / metadata 结构化
  - 向量索引 + 关键词索引并存

在线:
  - 用户输入解析(文本 / 图片 / 混合查询)
  - 召回(向量检索 + 关键词检索)
  - rerank(跨模态重排)
  - 可选 VLM 生成解释 / 答案

治理:
  - 结果相关性评测
  - 低质量图片过滤
  - 权限控制
  - 引用与溯源

4.2 这类题的关键追问¶

面试官通常会追：

文本和图像 embedding 口径不同怎么办？
OCR 文本放哪里？
为什么只靠向量检索不够？
查询图片质量很差怎么办？
如果用户给一张图再问一句复杂问题，你怎么做 grounding？

一个比较强的回答是：

Text Only

召回层尽量广:
  - 语义向量召回
  - 关键词召回
  - metadata 过滤

排序层做精:
  - 跨模态 reranker
  - 业务规则
  - 新鲜度 / 权威性

生成层只在需要时开启:
  - 给解释
  - 做摘要
  - 生成带引用答案

五、题型三：设计机器人 / 无人机的多模态端云协同系统¶

如果方向偏大疆、机器人、具身、自动驾驶、VLA，这时重点就不是“内容标签”，而是 感知 + 决策 + 安全 + 端云分工。

5.1 先明确端侧和云侧的职责¶

这是最关键的一句话：

Text Only

安全关键、低延迟、强实时的能力放端侧；
高算力、低频规划、复杂语义理解的能力放云侧。

例如：

端侧	云侧
避障	高层任务理解
目标跟踪	复杂场景语义分析
SLAM / 状态估计	全局路径规划
局部控制	模型更新与策略下发

5.2 典型架构¶

Text Only

传感器输入
  -> 摄像头 / 深度 / IMU / GPS / 麦克风

端侧感知
  -> 检测 / 跟踪 / 深度估计 / 状态估计 / 局部地图

端侧控制
  -> 安全规则
  -> 局部规划
  -> 控制执行

端云同步
  -> 上传关键帧 / 状态摘要 / 任务上下文
  -> 云侧做复杂语义理解和全局规划
  -> 返回高层目标与约束

回到端侧
  -> 局部执行
  -> 实时纠偏
  -> 异常回退到保守模式

5.3 这一题必须讲到的点¶

网络不可靠时怎么办？
云侧响应慢时是否还能安全运行？
端侧模型漂移或误检时怎么处理？
指令理解错了，谁有最终裁决权？

比较稳的回答方式是：

Text Only

设计原则:
  - 安全链路不能依赖云
  - 云侧指令只能约束目标，不能直接绕过端侧安全控制
  - 关键操作要有 guardrail 和 fallback
  - 端云都要有日志和可回放能力

如果你能把“安全控制优先级高于大模型输出”明确讲出来，这题基本就稳了。

六、多模态系统的高频追问¶

这几类追问通常不是在考名词，而是在考你能不能把多模态系统讲成一套可落地工程方案。

6.1 为什么多模态系统常常要做两阶段甚至三阶段？¶

因为不同阶段目标不同：

召回层追求高覆盖、低成本
排序层追求更高精度
生成层负责解释、归纳和复杂推理

如果所有请求都走最贵模型，系统大概率成本失控。

6.2 多模态系统最难的不是模型，而是哪部分工程？¶

很多时候是下面这些：

数据标注口径不一致
OCR / ASR 噪声很大
帧采样不稳定导致信息丢失
标签体系频繁变化
不同模态时间对不齐
线上难以快速发现质量退化

说出这些，说明你知道“难点在系统，不只在模型”。

6.3 多模态系统怎么做离线评测？¶

一般要分桶：

按内容品类分桶
按视频时长分桶
按清晰度分桶
按风险等级分桶
按语言 / 方言 / 场景复杂度分桶

否则整体指标好看，不代表重要子场景真的好。

6.4 什么情况下不建议上大 VLM？¶

以下场景通常不值得：

标签固定、规则稳定、业务目标明确
低延迟和高吞吐要求极高
输出必须高度确定、可解释
输入模态简单、已有成熟模型足够

这时更适合：

轻量模型
embedding + classifier
规则 + 检索
小模型级联

七、面试时可以直接套用的回答模板¶

Text Only

这题我会先把系统拆成 5 层：

第一层是数据接入和预处理，重点解决抽帧、ASR、OCR、时间对齐。
第二层是单模态理解，把视觉、语音、文本分别转成可复用特征。
第三层是多模态融合和级联推理，简单样本走轻量链路，复杂样本升级到 VLM。
第四层是结果服务化，把标签、embedding、证据和风险结果分别给推荐、搜索、审核使用。
第五层是评测与治理，包括离线评测、抽检、线上监控、灰度和回滚。

核心取舍是：
我不会把所有样本都交给大 VLM，而是用多阶段架构在质量、成本和吞吐之间做平衡。
如果业务偏机器人或无人机，我会再强调端云分工，把安全关键能力放在端侧，把复杂语义理解和全局规划放在云侧。

八、这一章你应该带走什么¶

真正高质量的多模态系统设计，不是“我知道几个模型名”，而是：

先把任务和模态拆清楚
明白为什么生产上常用级联而不是单模型硬做
知道视觉、语音、文本、OCR、时序信息要怎么配合
能把评测、成本、稳定性、安全一起讲进去
在内容平台和端云协同两类场景里都能给出清晰取舍

如果你能把这一章讲顺，多模态题就不再只是“会一点 VLM”，而是能体现你具备面向 2028 岗位的系统设计能力。