多模态 AI 系统设计¶
适配方向:多模态内容理解、VLM 应用、多模态搜索、视频理解、机器人/无人机感知与端云协同
面试信号:2028 年中国大厂对多模态岗位的要求,不再只是“会用 VLM”,而是要能把视觉、文本、音频、时序、检索、稳定性和成本一起讲清楚。
一、面试官真正想考什么¶
这类题不是单纯考你认不认识 CLIP、Qwen-VL、Whisper、SAM2。
真正考的是 5 件事:
- 你能不能先把业务目标拆清楚,而不是一上来就说模型名字。
- 你知不知道不同模态的处理链路完全不同,不能用一套思路硬套。
- 你能不能在
质量 / 延迟 / 成本 / 可解释性 / 安全之间做工程取舍。 - 你知不知道生产环境通常是
级联架构,不是“一个超大 VLM 全部做完”。 - 你能不能回答追问:标注怎么做、评测怎么做、坏样本怎么处理、线上怎么回滚。
如果你能把这 5 件事讲完整,这一题就不再是“知道一点多模态概念”,而是“有生产级系统设计能力”。
二、回答多模态系统题的通用框架¶
无论题目是短视频理解、图文检索、视频审核、VLM 助手,还是机器人端云协同,都可以先按下面这套骨架回答:
1. 明确任务
- 输入模态是什么
- 输出是什么
- 实时还是离线
- 质量指标是什么
2. 拆成子系统
- 数据接入与预处理
- 单模态特征抽取
- 跨模态融合 / 推理
- 检索 / 存储 / 下游消费
- 评测 / 监控 / 回滚
3. 说明关键决策
- 为什么要帧采样
- 为什么要两阶段 / 多阶段
- 为什么有的模态预计算,有的模态在线推理
- 为什么复杂样本才升级到 VLM
4. 补充工程问题
- 成本
- 延迟
- 资源隔离
- 安全与内容风险
- 线上稳定性
这套结构非常重要。很多候选人答多模态题会变成“模型名堆砌”,而不是“系统设计”。
三、题型一:设计短视频平台的多模态理解系统¶
这是最典型、也最适合字节、快手、腾讯视频、内容平台和多模态推荐方向的题型。
3.1 题目示例¶
面试官可能这样问:
设计一个短视频多模态理解系统,输入是
视频 + 音频 + 标题 + OCR 文本,输出结构化标签、内容风险判断和推荐特征,日处理 500 万条视频。
3.2 先做需求拆解¶
先别急着讲模型,先把目标说清楚:
输入:
- 视频帧
- 音频
- 标题 / 简介 / 话题
- OCR 文本 / 字幕 / ASR 文本
输出:
- 内容标签(场景/动作/实体/主题)
- 风险标签(违规、擦边、误导、广告)
- 推荐侧特征(embedding / topic / quality score)
非功能要求:
- 大规模异步处理
- 质量优先,但成本可控
- 新热视频要支持快速回补
- 标签可解释,支持抽检与复盘
这个时候面试官会知道你不是“背架构图”,而是在先框业务边界。
3.3 推荐的生产级架构¶
视频上传
-> 元数据入库
-> 任务投递到消息队列
预处理层
-> 视频抽帧(关键帧 + 均匀采样)
-> 音频分离
-> OCR / 字幕抽取
-> ASR 转写
单模态理解层
-> 图像编码器 / 视频编码器提取视觉特征
-> ASR / 音频分类模型提取音频语义
-> 文本编码器提取标题与字幕语义
级联推理层
-> 第一层: 规则 + 轻量模型做粗分类
-> 第二层: 多模态融合模型 / VLM 处理复杂样本
-> 第三层: 风险策略与业务规则校正
特征与结果层
-> 结构化标签写入特征库 / 检索库
-> embedding 写入向量库
-> 风险结果进入审核系统
-> 推荐特征进入召回 / 排序链路
评测与治理层
-> 离线评测
-> 抽检平台
-> 线上质量监控
-> 灰度发布与回滚
3.4 为什么不要“一把梭 VLM”¶
这是面试高频坑点。
如果你直接说“全部交给大 VLM 理解”,通常会被追问到答不住:
- 成本怎么控制?
- 500 万条视频一天怎么跑?
- 简单样本为什么要付复杂模型成本?
- 输出不稳定怎么办?
- 模型升级后标签口径漂移怎么办?
更合理的说法是:
生产环境用级联:
- 简单样本: 轻量视觉模型 + OCR + ASR + 规则
- 中等复杂样本: 多模态分类模型 / reranker
- 边界样本: 调用 VLM 做深理解或解释
这样做的收益:
- 把 VLM 留给复杂样本
- 降低平均成本
- 提高吞吐
- 便于对高风险场景做人工校验
这比“我会用一个大模型”高一个层级。
3.5 关键设计点¶
1. 视频不是图片堆起来¶
视频系统最容易被问穿的一点是:你怎么处理时序信息?
你至少要讲出:
- 不能只取封面帧,否则动作、事件顺序、瞬态内容都会丢。
- 需要
关键帧 + 均匀采样 + 可选镜头切分。 - 对动作、事件、违规行为,要保留时间窗口信息。
- 视频特征和文本/OCR/ASR 要做时间对齐,而不是简单拼接。
2. OCR 和 ASR 很重要¶
很多视频内容的关键信息不在视觉主体,而在:
- 画面字幕
- 直播口播
- 背景音频
- 视频标题
所以工程上往往是:
3. 标签体系不能混乱¶
线上系统不是“模型说啥就是啥”,而是要有清晰 taxonomy。
你可以这样讲:
标签体系分层:
- 一级: 内容大类(美食/体育/剧情/教育)
- 二级: 细分类(篮球教学/减脂餐/职场分享)
- 风险标签: 广告/导流/低俗/医疗风险
- 运营标签: 热点、活动、商品关联
输出要结构化:
{
"topic": ...,
"entities": [...],
"risk_flags": [...],
"confidence": ...,
"evidence": [...]
}
结构化输出比纯文本摘要更容易接下游系统。
3.6 线上评测怎么讲¶
多模态系统不能只说“准确率”。
至少要拆成 4 类指标:
| 指标层 | 例子 | 含义 |
|---|---|---|
| 基础服务 | 延迟、吞吐、失败率 | 系统能否稳定处理 |
| 识别质量 | 标签准确率、召回率、风险漏判率 | 模型质量 |
| 业务效果 | 推荐提升、审核命中率、人工复审通过率 | 是否真有价值 |
| 成本效率 | 单视频成本、GPU 利用率、复杂模型命中率 | 是否可持续 |
如果能再补一句“对边界样本做分层评测,不同品类单独看”,会更像真实团队。
四、题型二:设计多模态搜索 / 图文问答系统¶
另一类常见题是:
- 文本搜图
- 图搜图
- 图文混合检索
- 图片 + 文档 + 表格问答
这类题的核心不是审核,而是 表示对齐 + 检索链路 + rerank + grounding。
4.1 推荐回答框架¶
离线:
- 图片 / 文档页 / 截图抽特征
- OCR / caption / metadata 结构化
- 向量索引 + 关键词索引并存
在线:
- 用户输入解析(文本 / 图片 / 混合查询)
- 召回(向量检索 + 关键词检索)
- rerank(跨模态重排)
- 可选 VLM 生成解释 / 答案
治理:
- 结果相关性评测
- 低质量图片过滤
- 权限控制
- 引用与溯源
4.2 这类题的关键追问¶
面试官通常会追:
- 文本和图像 embedding 口径不同怎么办?
- OCR 文本放哪里?
- 为什么只靠向量检索不够?
- 查询图片质量很差怎么办?
- 如果用户给一张图再问一句复杂问题,你怎么做 grounding?
一个比较强的回答是:
召回层尽量广:
- 语义向量召回
- 关键词召回
- metadata 过滤
排序层做精:
- 跨模态 reranker
- 业务规则
- 新鲜度 / 权威性
生成层只在需要时开启:
- 给解释
- 做摘要
- 生成带引用答案
五、题型三:设计机器人 / 无人机的多模态端云协同系统¶
如果方向偏大疆、机器人、具身、自动驾驶、VLA,这时重点就不是“内容标签”,而是 感知 + 决策 + 安全 + 端云分工。
5.1 先明确端侧和云侧的职责¶
这是最关键的一句话:
例如:
| 端侧 | 云侧 |
|---|---|
| 避障 | 高层任务理解 |
| 目标跟踪 | 复杂场景语义分析 |
| SLAM / 状态估计 | 全局路径规划 |
| 局部控制 | 模型更新与策略下发 |
5.2 典型架构¶
传感器输入
-> 摄像头 / 深度 / IMU / GPS / 麦克风
端侧感知
-> 检测 / 跟踪 / 深度估计 / 状态估计 / 局部地图
端侧控制
-> 安全规则
-> 局部规划
-> 控制执行
端云同步
-> 上传关键帧 / 状态摘要 / 任务上下文
-> 云侧做复杂语义理解和全局规划
-> 返回高层目标与约束
回到端侧
-> 局部执行
-> 实时纠偏
-> 异常回退到保守模式
5.3 这一题必须讲到的点¶
- 网络不可靠时怎么办?
- 云侧响应慢时是否还能安全运行?
- 端侧模型漂移或误检时怎么处理?
- 指令理解错了,谁有最终裁决权?
比较稳的回答方式是:
如果你能把“安全控制优先级高于大模型输出”明确讲出来,这题基本就稳了。
六、多模态系统的高频追问¶
这几类追问通常不是在考名词,而是在考你能不能把多模态系统讲成一套可落地工程方案。
6.1 为什么多模态系统常常要做两阶段甚至三阶段?¶
因为不同阶段目标不同:
- 召回层追求高覆盖、低成本
- 排序层追求更高精度
- 生成层负责解释、归纳和复杂推理
如果所有请求都走最贵模型,系统大概率成本失控。
6.2 多模态系统最难的不是模型,而是哪部分工程?¶
很多时候是下面这些:
- 数据标注口径不一致
- OCR / ASR 噪声很大
- 帧采样不稳定导致信息丢失
- 标签体系频繁变化
- 不同模态时间对不齐
- 线上难以快速发现质量退化
说出这些,说明你知道“难点在系统,不只在模型”。
6.3 多模态系统怎么做离线评测?¶
一般要分桶:
- 按内容品类分桶
- 按视频时长分桶
- 按清晰度分桶
- 按风险等级分桶
- 按语言 / 方言 / 场景复杂度分桶
否则整体指标好看,不代表重要子场景真的好。
6.4 什么情况下不建议上大 VLM?¶
以下场景通常不值得:
- 标签固定、规则稳定、业务目标明确
- 低延迟和高吞吐要求极高
- 输出必须高度确定、可解释
- 输入模态简单、已有成熟模型足够
这时更适合:
- 轻量模型
- embedding + classifier
- 规则 + 检索
- 小模型级联
七、面试时可以直接套用的回答模板¶
这题我会先把系统拆成 5 层:
第一层是数据接入和预处理,重点解决抽帧、ASR、OCR、时间对齐。
第二层是单模态理解,把视觉、语音、文本分别转成可复用特征。
第三层是多模态融合和级联推理,简单样本走轻量链路,复杂样本升级到 VLM。
第四层是结果服务化,把标签、embedding、证据和风险结果分别给推荐、搜索、审核使用。
第五层是评测与治理,包括离线评测、抽检、线上监控、灰度和回滚。
核心取舍是:
我不会把所有样本都交给大 VLM,而是用多阶段架构在质量、成本和吞吐之间做平衡。
如果业务偏机器人或无人机,我会再强调端云分工,把安全关键能力放在端侧,把复杂语义理解和全局规划放在云侧。
八、这一章你应该带走什么¶
真正高质量的多模态系统设计,不是“我知道几个模型名”,而是:
- 先把任务和模态拆清楚
- 明白为什么生产上常用级联而不是单模型硬做
- 知道视觉、语音、文本、OCR、时序信息要怎么配合
- 能把评测、成本、稳定性、安全一起讲进去
- 在内容平台和端云协同两类场景里都能给出清晰取舍
如果你能把这一章讲顺,多模态题就不再只是“会一点 VLM”,而是能体现你具备面向 2028 岗位的系统设计能力。