AI 系统设计面试指南¶
这一章的目标不是给你一套“背诵模板”,而是给你一套在
2028 中国大厂 AI 面试里仍然能打的答题框架。真正有区分度的候选人,不只是会画架构图,而是能把业务目标、技术选择、评测方法、稳定性策略、成本权衡一起讲清楚。
这章解决什么问题¶
传统系统设计框架对 AI 场景不够,因为 AI 系统多了几层关键复杂度:
- 数据和特征
- 模型训练和版本
- 推理服务和资源
- 离线与在线评测
- 幻觉、安全、漂移、回滚
如果你只讲“服务怎么拆”,面试官会觉得你不懂 AI; 如果你只讲“模型怎么选”,面试官会觉得你不懂系统。
这一章的任务,就是把这两部分合起来。
学习目标¶
- 建立适用于 AI 系统设计的统一答题顺序
- 学会在 45 分钟里有层次地输出
- 理解不同岗位主线下,面试官关注点如何变化
- 知道 AI 题必须补哪些传统系统设计里没有的内容
先看一个总框架¶
建议你把 AI 系统设计题固定成下面 8 步。
这 8 步,基本能覆盖大多数 AI 系统设计题。
一套适合面试的答题框架¶
我建议你用下面这版,比单纯背 RESHADED 更适合现在的 AI 岗。
AIMS-DRIVE 框架¶
| 步骤 | 你要回答什么 |
|---|---|
A Ask | 题目到底要解决什么业务问题 |
I Infer scale | 数据量、QPS、延迟、模型大小大概多少 |
M Map pipeline | 从输入到输出的主链路是什么 |
S Split components | 每个关键模块怎么拆 |
D Data & Model | 数据、特征、模型、索引如何组织 |
R Reliability | 稳定性、监控、降级、回滚怎么做 |
I Inspection | 离线、在线、红队、质量评测怎么做 |
V Value & cost | 成本、资源、ROI 怎么权衡 |
E Evolution | 未来如何扩展和持续演进 |
你不需要每次都逐字说框架名,但脑子里必须按这个顺序走。
第一步:先问清题目,而不是立刻画图¶
系统设计面试最忌讳一上来就画一大堆方框。
你先要确认:
- 目标用户是谁
- 主要业务目标是什么
- 优先优化什么指标
- 延迟、QPS、成本约束是什么
- 是内部系统还是对外服务
例如¶
“设计一个企业知识库问答系统”,你至少要问:
- 面向员工还是外部客户
- 核心目标是准确率、覆盖率还是响应速度
- 文档规模大概多少
- 是否允许引用外部工具
- 是否需要权限隔离
这一步的价值在于:你后面的所有设计才有边界。
第二步:做最小规模估算¶
很多人害怕估算,其实你只要做够支撑设计选择的最小估算就行。
常见要估的 6 个量¶
- QPS
- 峰值并发
- 数据规模
- 索引规模
- 模型大小
- 延迟预算
一个最小示例¶
假设日活 100 万,每人每天 5 次请求,
则日请求量约 500 万,
平均 QPS 约 58,
峰值按 3 倍估算约 170。
如果每次请求需要检索 + 重排 + 生成,
那么在线大模型推理就不能无约束全量走,需要做缓存和模型分层。
你不是要算到非常精确,而是要让后面架构选择有依据。
第三步:先讲主链路,再拆模块¶
面试官最先想知道的是:你对系统主流程有没有全局把握。
一个标准表达模板¶
我先给整体链路:
用户请求进入网关后,先做鉴权和限流;
然后进入查询理解/任务编排层;
再做检索或特征召回;
之后进入模型推理或重排模块;
最后把结果返回,并把日志、反馈和监控数据异步回流到评测和训练链路。
这类表达比一开始扎进单点模块更容易建立“你会系统设计”的印象。
第四步:关键模块要按“为什么这么拆”来讲¶
不要只是列模块名。你必须回答:
- 这个模块为什么单独拆
- 它和前后模块怎么交互
- 为什么不用别的方案
常见模块示例¶
RAG / Agent 类系统¶
- Query understanding
- Retrieval
- Rerank
- Tool execution
- Response synthesis
- Eval / Trace / Feedback
推理服务类系统¶
- API gateway
- Request scheduler
- Model router
- Inference workers
- Cache / KV / session state
- Metrics / autoscaling
搜推类系统¶
- Query intent
- Multi-recall
- Coarse rank
- Fine rank
- LLM rerank / explanation
- Online experiment
第五步:AI 题必须补数据、模型和评测¶
这是和普通系统设计题最大的区别之一。
你至少要讲 4 件事:
- 数据从哪里来
- 模型或索引如何更新
- 离线怎么评估
- 在线怎么评估
最低限度的表达¶
我会把数据链路拆成离线训练/索引构建和在线请求两条。
离线部分负责样本构造、索引更新、模型评估;
在线部分负责推理、监控和用户反馈回流。
评测方面,先看离线指标,再通过灰度和 AB 看线上指标是否一致提升。
如果没有这一段,AI 题就很容易答得像普通 Web 服务题。
第六步:一定要讲稳定性¶
2028 的 AI 系统设计题里,稳定性已经不是可选项。
你最好固定补下面这些点:
- 限流
- 超时
- 重试
- 降级
- 熔断
- 回滚
- 错误预算
对 RAG/Agent 系统常见的稳定性点¶
- 检索超时 fallback
- 工具调用失败重试
- 长链路 trace
- 引用缺失时降级成保守回答
对推理服务常见的稳定性点¶
- 模型池路由
- 队列削峰
- 热点缓存
- token / session 限流
第七步:安全和风险不能省¶
尤其是 AI 应用类系统,面试官越来越可能追问:
- prompt injection
- 越权访问
- 敏感数据泄露
- 工具滥用
- 幻觉和错误答案的风险
如果是搜索推荐、广告、风控类系统,也会追问:
- 数据偏差
- 作弊/攻击
- 模型漂移
- 误伤成本
你不需要每次讲得特别长,但必须表明你知道这些风险是系统设计的一部分。
第八步:成本和容量要能讲¶
很多候选人会讲出一个“理论上很强”的系统,但完全不考虑成本。
面试官真正想看的是你会不会权衡。
常见的成本维度¶
- GPU 成本
- 存储和索引成本
- 网络带宽
- 高峰扩容
- 人工审核成本
一个好用的表达方式¶
这类表达会明显提升系统设计的现实感。
不同岗位线的答题重心¶
同一道题,不同岗位线的重点不同。
1. AI 应用工程¶
更看重:
- 用户链路
- 任务编排
- 评测体系
- 容错和回滚
2. AI Infra / 平台¶
更看重:
- 调度
- 推理优化
- GPU 利用率
- 扩缩容
- 队列与容量
3. 搜索推荐 + LLM¶
更看重:
- 召回 / 排序 / 重排
- query understanding
- 在线实验
- 时延与效果平衡
4. 多模态 / 具身¶
更看重:
- 实时性
- 模态融合
- 感知到动作的闭环
- 故障安全
答题时你要主动偏向你目标岗位关心的点。
45 分钟答题建议¶
下面这版时间分配很实用:
| 时间 | 做什么 |
|---|---|
| 0-5 分钟 | 需求澄清 |
| 5-8 分钟 | 规模估算 |
| 8-15 分钟 | 整体链路 |
| 15-28 分钟 | 核心模块设计 |
| 28-35 分钟 | 数据/模型/评测 |
| 35-40 分钟 | 稳定性、安全、回滚 |
| 40-45 分钟 | 成本、容量、演进 |
如果面试官中途打断,你也能保持结构稳定。
高频追问怎么准备¶
AI 系统设计面试的追问通常会集中在这 8 类:
- 为什么这么选模型或索引
- 如果延迟超了怎么办
- 如果成本太高怎么办
- 如何做灰度和回滚
- 如何做离线和在线评测
- 如何处理数据漂移或内容变化
- 如何做安全防护
- 如何在高峰流量下扩容
你可以提前为每一类题型准备这些追问答案。
你在面试里最容易犯的 6 个错误¶
1. 不问需求,直接开画¶
这是最常见的错误。
2. 只讲模型,不讲系统¶
会显得你偏研究、不懂工程。
3. 只讲服务,不讲 AI 特性¶
会显得你把 AI 题答成普通后端题。
4. 没有评测和监控¶
这会让系统显得不完整。
5. 没有降级和回滚¶
说明你没考虑上线后出问题的现实。
6. 完全不谈成本¶
现实感会明显不足。
一个可复用的开场模板¶
当你拿到题时,可以这样开场:
这句话很简单,但能迅速建立结构感。
本章小结¶
- AI 系统设计题必须同时回答“AI”和“系统”两个层面的问题
- 最稳定的答题主线是:需求、规模、链路、模块、评测、稳定性、成本、演进
- 2028 更有竞争力的候选人,会把回滚、安全、红队、SLO 和容量规划自然带进答案
下一步¶
- 先选和你岗位主线最接近的题型:
- 做 AI 应用工程就看 02-RAG 系统设计深入 和 03-多 Agent 系统设计
- 做 AI Infra 就看 04-LLM 推理服务架构设计 和 06-大模型训练平台设计
- 做搜推方向就结合 推荐系统/22-搜索推荐与LLM岗位路线 一起准备