跳转至

AI 系统设计面试指南

这一章的目标不是给你一套“背诵模板”,而是给你一套在 2028 中国大厂 AI 面试 里仍然能打的答题框架。真正有区分度的候选人,不只是会画架构图,而是能把 业务目标、技术选择、评测方法、稳定性策略、成本权衡 一起讲清楚。

这章解决什么问题

传统系统设计框架对 AI 场景不够,因为 AI 系统多了几层关键复杂度:

  • 数据和特征
  • 模型训练和版本
  • 推理服务和资源
  • 离线与在线评测
  • 幻觉、安全、漂移、回滚

如果你只讲“服务怎么拆”,面试官会觉得你不懂 AI; 如果你只讲“模型怎么选”,面试官会觉得你不懂系统。

这一章的任务,就是把这两部分合起来。

学习目标

  • 建立适用于 AI 系统设计的统一答题顺序
  • 学会在 45 分钟里有层次地输出
  • 理解不同岗位主线下,面试官关注点如何变化
  • 知道 AI 题必须补哪些传统系统设计里没有的内容

先看一个总框架

建议你把 AI 系统设计题固定成下面 8 步。

Text Only
需求澄清
→ 规模估算
→ 整体链路
→ 核心模块
→ 数据/模型/评测
→ 稳定性与安全
→ 成本与容量
→ 发布、回滚与演进

这 8 步,基本能覆盖大多数 AI 系统设计题。

一套适合面试的答题框架

我建议你用下面这版,比单纯背 RESHADED 更适合现在的 AI 岗。

AIMS-DRIVE 框架

步骤 你要回答什么
A Ask 题目到底要解决什么业务问题
I Infer scale 数据量、QPS、延迟、模型大小大概多少
M Map pipeline 从输入到输出的主链路是什么
S Split components 每个关键模块怎么拆
D Data & Model 数据、特征、模型、索引如何组织
R Reliability 稳定性、监控、降级、回滚怎么做
I Inspection 离线、在线、红队、质量评测怎么做
V Value & cost 成本、资源、ROI 怎么权衡
E Evolution 未来如何扩展和持续演进

你不需要每次都逐字说框架名,但脑子里必须按这个顺序走。

第一步:先问清题目,而不是立刻画图

系统设计面试最忌讳一上来就画一大堆方框。

你先要确认:

  • 目标用户是谁
  • 主要业务目标是什么
  • 优先优化什么指标
  • 延迟、QPS、成本约束是什么
  • 是内部系统还是对外服务

例如

“设计一个企业知识库问答系统”,你至少要问:

  • 面向员工还是外部客户
  • 核心目标是准确率、覆盖率还是响应速度
  • 文档规模大概多少
  • 是否允许引用外部工具
  • 是否需要权限隔离

这一步的价值在于:你后面的所有设计才有边界。

第二步:做最小规模估算

很多人害怕估算,其实你只要做够支撑设计选择的最小估算就行。

常见要估的 6 个量

  • QPS
  • 峰值并发
  • 数据规模
  • 索引规模
  • 模型大小
  • 延迟预算

一个最小示例

Text Only
假设日活 100 万,每人每天 5 次请求,
则日请求量约 500 万,
平均 QPS 约 58,
峰值按 3 倍估算约 170。
如果每次请求需要检索 + 重排 + 生成,
那么在线大模型推理就不能无约束全量走,需要做缓存和模型分层。

你不是要算到非常精确,而是要让后面架构选择有依据。

第三步:先讲主链路,再拆模块

面试官最先想知道的是:你对系统主流程有没有全局把握。

一个标准表达模板

Text Only
我先给整体链路:
用户请求进入网关后,先做鉴权和限流;
然后进入查询理解/任务编排层;
再做检索或特征召回;
之后进入模型推理或重排模块;
最后把结果返回,并把日志、反馈和监控数据异步回流到评测和训练链路。

这类表达比一开始扎进单点模块更容易建立“你会系统设计”的印象。

第四步:关键模块要按“为什么这么拆”来讲

不要只是列模块名。你必须回答:

  • 这个模块为什么单独拆
  • 它和前后模块怎么交互
  • 为什么不用别的方案

常见模块示例

RAG / Agent 类系统

  • Query understanding
  • Retrieval
  • Rerank
  • Tool execution
  • Response synthesis
  • Eval / Trace / Feedback

推理服务类系统

  • API gateway
  • Request scheduler
  • Model router
  • Inference workers
  • Cache / KV / session state
  • Metrics / autoscaling

搜推类系统

  • Query intent
  • Multi-recall
  • Coarse rank
  • Fine rank
  • LLM rerank / explanation
  • Online experiment

第五步:AI 题必须补数据、模型和评测

这是和普通系统设计题最大的区别之一。

你至少要讲 4 件事:

  • 数据从哪里来
  • 模型或索引如何更新
  • 离线怎么评估
  • 在线怎么评估

最低限度的表达

Text Only
我会把数据链路拆成离线训练/索引构建和在线请求两条。
离线部分负责样本构造、索引更新、模型评估;
在线部分负责推理、监控和用户反馈回流。
评测方面,先看离线指标,再通过灰度和 AB 看线上指标是否一致提升。

如果没有这一段,AI 题就很容易答得像普通 Web 服务题。

第六步:一定要讲稳定性

2028 的 AI 系统设计题里,稳定性已经不是可选项。

你最好固定补下面这些点:

  • 限流
  • 超时
  • 重试
  • 降级
  • 熔断
  • 回滚
  • 错误预算

对 RAG/Agent 系统常见的稳定性点

  • 检索超时 fallback
  • 工具调用失败重试
  • 长链路 trace
  • 引用缺失时降级成保守回答

对推理服务常见的稳定性点

  • 模型池路由
  • 队列削峰
  • 热点缓存
  • token / session 限流

第七步:安全和风险不能省

尤其是 AI 应用类系统,面试官越来越可能追问:

  • prompt injection
  • 越权访问
  • 敏感数据泄露
  • 工具滥用
  • 幻觉和错误答案的风险

如果是搜索推荐、广告、风控类系统,也会追问:

  • 数据偏差
  • 作弊/攻击
  • 模型漂移
  • 误伤成本

你不需要每次讲得特别长,但必须表明你知道这些风险是系统设计的一部分。

第八步:成本和容量要能讲

很多候选人会讲出一个“理论上很强”的系统,但完全不考虑成本。

面试官真正想看的是你会不会权衡。

常见的成本维度

  • GPU 成本
  • 存储和索引成本
  • 网络带宽
  • 高峰扩容
  • 人工审核成本

一个好用的表达方式

Text Only
如果全量请求都走大模型重排,成本和延迟都不可接受。
所以我会采用分层策略:先用轻量召回和排序缩小候选,再只在高价值请求上启用高成本模块。

这类表达会明显提升系统设计的现实感。

不同岗位线的答题重心

同一道题,不同岗位线的重点不同。

1. AI 应用工程

更看重:

  • 用户链路
  • 任务编排
  • 评测体系
  • 容错和回滚

2. AI Infra / 平台

更看重:

  • 调度
  • 推理优化
  • GPU 利用率
  • 扩缩容
  • 队列与容量

3. 搜索推荐 + LLM

更看重:

  • 召回 / 排序 / 重排
  • query understanding
  • 在线实验
  • 时延与效果平衡

4. 多模态 / 具身

更看重:

  • 实时性
  • 模态融合
  • 感知到动作的闭环
  • 故障安全

答题时你要主动偏向你目标岗位关心的点。

45 分钟答题建议

下面这版时间分配很实用:

时间 做什么
0-5 分钟 需求澄清
5-8 分钟 规模估算
8-15 分钟 整体链路
15-28 分钟 核心模块设计
28-35 分钟 数据/模型/评测
35-40 分钟 稳定性、安全、回滚
40-45 分钟 成本、容量、演进

如果面试官中途打断,你也能保持结构稳定。

高频追问怎么准备

AI 系统设计面试的追问通常会集中在这 8 类:

  1. 为什么这么选模型或索引
  2. 如果延迟超了怎么办
  3. 如果成本太高怎么办
  4. 如何做灰度和回滚
  5. 如何做离线和在线评测
  6. 如何处理数据漂移或内容变化
  7. 如何做安全防护
  8. 如何在高峰流量下扩容

你可以提前为每一类题型准备这些追问答案。

你在面试里最容易犯的 6 个错误

1. 不问需求,直接开画

这是最常见的错误。

2. 只讲模型,不讲系统

会显得你偏研究、不懂工程。

3. 只讲服务,不讲 AI 特性

会显得你把 AI 题答成普通后端题。

4. 没有评测和监控

这会让系统显得不完整。

5. 没有降级和回滚

说明你没考虑上线后出问题的现实。

6. 完全不谈成本

现实感会明显不足。

一个可复用的开场模板

当你拿到题时,可以这样开场:

Text Only
我先澄清一下需求和约束,再做一个量级估算。
接着我会给出端到端主链路,
然后展开关键模块设计,
最后补上评测、稳定性、成本和演进方案。

这句话很简单,但能迅速建立结构感。

本章小结

  • AI 系统设计题必须同时回答“AI”和“系统”两个层面的问题
  • 最稳定的答题主线是:需求、规模、链路、模块、评测、稳定性、成本、演进
  • 2028 更有竞争力的候选人,会把回滚、安全、红队、SLO 和容量规划自然带进答案

下一步