跳转至

多模态 AI 系统设计

适配方向:多模态内容理解、VLM 应用、多模态搜索、视频理解、机器人/无人机感知与端云协同
面试信号:2028 年中国大厂对多模态岗位的要求,不再只是“会用 VLM”,而是要能把视觉、文本、音频、时序、检索、稳定性和成本一起讲清楚。


一、面试官真正想考什么

这类题不是单纯考你认不认识 CLIPQwen-VLWhisperSAM2

真正考的是 5 件事:

  1. 你能不能先把业务目标拆清楚,而不是一上来就说模型名字。
  2. 你知不知道不同模态的处理链路完全不同,不能用一套思路硬套。
  3. 你能不能在 质量 / 延迟 / 成本 / 可解释性 / 安全 之间做工程取舍。
  4. 你知不知道生产环境通常是 级联架构,不是“一个超大 VLM 全部做完”。
  5. 你能不能回答追问:标注怎么做、评测怎么做、坏样本怎么处理、线上怎么回滚。

如果你能把这 5 件事讲完整,这一题就不再是“知道一点多模态概念”,而是“有生产级系统设计能力”。


二、回答多模态系统题的通用框架

无论题目是短视频理解、图文检索、视频审核、VLM 助手,还是机器人端云协同,都可以先按下面这套骨架回答:

Text Only
1. 明确任务
   - 输入模态是什么
   - 输出是什么
   - 实时还是离线
   - 质量指标是什么

2. 拆成子系统
   - 数据接入与预处理
   - 单模态特征抽取
   - 跨模态融合 / 推理
   - 检索 / 存储 / 下游消费
   - 评测 / 监控 / 回滚

3. 说明关键决策
   - 为什么要帧采样
   - 为什么要两阶段 / 多阶段
   - 为什么有的模态预计算,有的模态在线推理
   - 为什么复杂样本才升级到 VLM

4. 补充工程问题
   - 成本
   - 延迟
   - 资源隔离
   - 安全与内容风险
   - 线上稳定性

这套结构非常重要。很多候选人答多模态题会变成“模型名堆砌”,而不是“系统设计”。


三、题型一:设计短视频平台的多模态理解系统

这是最典型、也最适合字节、快手、腾讯视频、内容平台和多模态推荐方向的题型。

3.1 题目示例

面试官可能这样问:

设计一个短视频多模态理解系统,输入是 视频 + 音频 + 标题 + OCR 文本,输出结构化标签、内容风险判断和推荐特征,日处理 500 万条视频。

3.2 先做需求拆解

先别急着讲模型,先把目标说清楚:

Text Only
输入:
  - 视频帧
  - 音频
  - 标题 / 简介 / 话题
  - OCR 文本 / 字幕 / ASR 文本

输出:
  - 内容标签(场景/动作/实体/主题)
  - 风险标签(违规、擦边、误导、广告)
  - 推荐侧特征(embedding / topic / quality score)

非功能要求:
  - 大规模异步处理
  - 质量优先,但成本可控
  - 新热视频要支持快速回补
  - 标签可解释,支持抽检与复盘

这个时候面试官会知道你不是“背架构图”,而是在先框业务边界。

3.3 推荐的生产级架构

Text Only
视频上传
  -> 元数据入库
  -> 任务投递到消息队列

预处理层
  -> 视频抽帧(关键帧 + 均匀采样)
  -> 音频分离
  -> OCR / 字幕抽取
  -> ASR 转写

单模态理解层
  -> 图像编码器 / 视频编码器提取视觉特征
  -> ASR / 音频分类模型提取音频语义
  -> 文本编码器提取标题与字幕语义

级联推理层
  -> 第一层: 规则 + 轻量模型做粗分类
  -> 第二层: 多模态融合模型 / VLM 处理复杂样本
  -> 第三层: 风险策略与业务规则校正

特征与结果层
  -> 结构化标签写入特征库 / 检索库
  -> embedding 写入向量库
  -> 风险结果进入审核系统
  -> 推荐特征进入召回 / 排序链路

评测与治理层
  -> 离线评测
  -> 抽检平台
  -> 线上质量监控
  -> 灰度发布与回滚

3.4 为什么不要“一把梭 VLM”

这是面试高频坑点。

如果你直接说“全部交给大 VLM 理解”,通常会被追问到答不住:

  • 成本怎么控制?
  • 500 万条视频一天怎么跑?
  • 简单样本为什么要付复杂模型成本?
  • 输出不稳定怎么办?
  • 模型升级后标签口径漂移怎么办?

更合理的说法是:

Text Only
生产环境用级联:
  - 简单样本: 轻量视觉模型 + OCR + ASR + 规则
  - 中等复杂样本: 多模态分类模型 / reranker
  - 边界样本: 调用 VLM 做深理解或解释

这样做的收益:
  - 把 VLM 留给复杂样本
  - 降低平均成本
  - 提高吞吐
  - 便于对高风险场景做人工校验

这比“我会用一个大模型”高一个层级。

3.5 关键设计点

1. 视频不是图片堆起来

视频系统最容易被问穿的一点是:你怎么处理时序信息?

你至少要讲出:

  • 不能只取封面帧,否则动作、事件顺序、瞬态内容都会丢。
  • 需要 关键帧 + 均匀采样 + 可选镜头切分
  • 对动作、事件、违规行为,要保留时间窗口信息。
  • 视频特征和文本/OCR/ASR 要做时间对齐,而不是简单拼接。

2. OCR 和 ASR 很重要

很多视频内容的关键信息不在视觉主体,而在:

  • 画面字幕
  • 直播口播
  • 背景音频
  • 视频标题

所以工程上往往是:

Text Only
视觉信息负责:
  - 物体
  - 场景
  - 动作
  - 风险画面

文本/语音信息负责:
  - 主题补充
  - 精细语义
  - 广告/违规话术
  - 搜索友好的结构化标签

3. 标签体系不能混乱

线上系统不是“模型说啥就是啥”,而是要有清晰 taxonomy。

你可以这样讲:

Text Only
标签体系分层:
  - 一级: 内容大类(美食/体育/剧情/教育)
  - 二级: 细分类(篮球教学/减脂餐/职场分享)
  - 风险标签: 广告/导流/低俗/医疗风险
  - 运营标签: 热点、活动、商品关联

输出要结构化:
  {
    "topic": ...,
    "entities": [...],
    "risk_flags": [...],
    "confidence": ...,
    "evidence": [...]
  }

结构化输出比纯文本摘要更容易接下游系统。

3.6 线上评测怎么讲

多模态系统不能只说“准确率”。

至少要拆成 4 类指标:

指标层 例子 含义
基础服务 延迟、吞吐、失败率 系统能否稳定处理
识别质量 标签准确率、召回率、风险漏判率 模型质量
业务效果 推荐提升、审核命中率、人工复审通过率 是否真有价值
成本效率 单视频成本、GPU 利用率、复杂模型命中率 是否可持续

如果能再补一句“对边界样本做分层评测,不同品类单独看”,会更像真实团队。


四、题型二:设计多模态搜索 / 图文问答系统

另一类常见题是:

  • 文本搜图
  • 图搜图
  • 图文混合检索
  • 图片 + 文档 + 表格问答

这类题的核心不是审核,而是 表示对齐 + 检索链路 + rerank + grounding

4.1 推荐回答框架

Text Only
离线:
  - 图片 / 文档页 / 截图抽特征
  - OCR / caption / metadata 结构化
  - 向量索引 + 关键词索引并存

在线:
  - 用户输入解析(文本 / 图片 / 混合查询)
  - 召回(向量检索 + 关键词检索)
  - rerank(跨模态重排)
  - 可选 VLM 生成解释 / 答案

治理:
  - 结果相关性评测
  - 低质量图片过滤
  - 权限控制
  - 引用与溯源

4.2 这类题的关键追问

面试官通常会追:

  • 文本和图像 embedding 口径不同怎么办?
  • OCR 文本放哪里?
  • 为什么只靠向量检索不够?
  • 查询图片质量很差怎么办?
  • 如果用户给一张图再问一句复杂问题,你怎么做 grounding?

一个比较强的回答是:

Text Only
召回层尽量广:
  - 语义向量召回
  - 关键词召回
  - metadata 过滤

排序层做精:
  - 跨模态 reranker
  - 业务规则
  - 新鲜度 / 权威性

生成层只在需要时开启:
  - 给解释
  - 做摘要
  - 生成带引用答案

五、题型三:设计机器人 / 无人机的多模态端云协同系统

如果方向偏大疆、机器人、具身、自动驾驶、VLA,这时重点就不是“内容标签”,而是 感知 + 决策 + 安全 + 端云分工

5.1 先明确端侧和云侧的职责

这是最关键的一句话:

Text Only
安全关键、低延迟、强实时的能力放端侧;
高算力、低频规划、复杂语义理解的能力放云侧。

例如:

端侧 云侧
避障 高层任务理解
目标跟踪 复杂场景语义分析
SLAM / 状态估计 全局路径规划
局部控制 模型更新与策略下发

5.2 典型架构

Text Only
传感器输入
  -> 摄像头 / 深度 / IMU / GPS / 麦克风

端侧感知
  -> 检测 / 跟踪 / 深度估计 / 状态估计 / 局部地图

端侧控制
  -> 安全规则
  -> 局部规划
  -> 控制执行

端云同步
  -> 上传关键帧 / 状态摘要 / 任务上下文
  -> 云侧做复杂语义理解和全局规划
  -> 返回高层目标与约束

回到端侧
  -> 局部执行
  -> 实时纠偏
  -> 异常回退到保守模式

5.3 这一题必须讲到的点

  • 网络不可靠时怎么办?
  • 云侧响应慢时是否还能安全运行?
  • 端侧模型漂移或误检时怎么处理?
  • 指令理解错了,谁有最终裁决权?

比较稳的回答方式是:

Text Only
设计原则:
  - 安全链路不能依赖云
  - 云侧指令只能约束目标,不能直接绕过端侧安全控制
  - 关键操作要有 guardrail 和 fallback
  - 端云都要有日志和可回放能力

如果你能把“安全控制优先级高于大模型输出”明确讲出来,这题基本就稳了。


六、多模态系统的高频追问

这几类追问通常不是在考名词,而是在考你能不能把多模态系统讲成一套可落地工程方案。

6.1 为什么多模态系统常常要做两阶段甚至三阶段?

因为不同阶段目标不同:

  • 召回层追求高覆盖、低成本
  • 排序层追求更高精度
  • 生成层负责解释、归纳和复杂推理

如果所有请求都走最贵模型,系统大概率成本失控。

6.2 多模态系统最难的不是模型,而是哪部分工程?

很多时候是下面这些:

  • 数据标注口径不一致
  • OCR / ASR 噪声很大
  • 帧采样不稳定导致信息丢失
  • 标签体系频繁变化
  • 不同模态时间对不齐
  • 线上难以快速发现质量退化

说出这些,说明你知道“难点在系统,不只在模型”。

6.3 多模态系统怎么做离线评测?

一般要分桶:

  • 按内容品类分桶
  • 按视频时长分桶
  • 按清晰度分桶
  • 按风险等级分桶
  • 按语言 / 方言 / 场景复杂度分桶

否则整体指标好看,不代表重要子场景真的好。

6.4 什么情况下不建议上大 VLM?

以下场景通常不值得:

  • 标签固定、规则稳定、业务目标明确
  • 低延迟和高吞吐要求极高
  • 输出必须高度确定、可解释
  • 输入模态简单、已有成熟模型足够

这时更适合:

  • 轻量模型
  • embedding + classifier
  • 规则 + 检索
  • 小模型级联

七、面试时可以直接套用的回答模板

Text Only
这题我会先把系统拆成 5 层:

第一层是数据接入和预处理,重点解决抽帧、ASR、OCR、时间对齐。
第二层是单模态理解,把视觉、语音、文本分别转成可复用特征。
第三层是多模态融合和级联推理,简单样本走轻量链路,复杂样本升级到 VLM。
第四层是结果服务化,把标签、embedding、证据和风险结果分别给推荐、搜索、审核使用。
第五层是评测与治理,包括离线评测、抽检、线上监控、灰度和回滚。

核心取舍是:
我不会把所有样本都交给大 VLM,而是用多阶段架构在质量、成本和吞吐之间做平衡。
如果业务偏机器人或无人机,我会再强调端云分工,把安全关键能力放在端侧,把复杂语义理解和全局规划放在云侧。

八、这一章你应该带走什么

真正高质量的多模态系统设计,不是“我知道几个模型名”,而是:

  • 先把任务和模态拆清楚
  • 明白为什么生产上常用级联而不是单模型硬做
  • 知道视觉、语音、文本、OCR、时序信息要怎么配合
  • 能把评测、成本、稳定性、安全一起讲进去
  • 在内容平台和端云协同两类场景里都能给出清晰取舍

如果你能把这一章讲顺,多模态题就不再只是“会一点 VLM”,而是能体现你具备面向 2028 岗位的系统设计能力。