AI 系统设计面试指南¶

这一章的目标不是给你一套“背诵模板”，而是给你一套在 2028 中国大厂 AI 面试 里仍然能打的答题框架。真正有区分度的候选人，不只是会画架构图，而是能把 业务目标、技术选择、评测方法、稳定性策略、成本权衡 一起讲清楚。

这章解决什么问题¶

传统系统设计框架对 AI 场景不够，因为 AI 系统多了几层关键复杂度：

数据和特征
模型训练和版本
推理服务和资源
离线与在线评测
幻觉、安全、漂移、回滚

如果你只讲“服务怎么拆”，面试官会觉得你不懂 AI；如果你只讲“模型怎么选”，面试官会觉得你不懂系统。

这一章的任务，就是把这两部分合起来。

学习目标¶

建立适用于 AI 系统设计的统一答题顺序
学会在 45 分钟里有层次地输出
理解不同岗位主线下，面试官关注点如何变化
知道 AI 题必须补哪些传统系统设计里没有的内容

先看一个总框架¶

建议你把 AI 系统设计题固定成下面 8 步。

Text Only

需求澄清
→ 规模估算
→ 整体链路
→ 核心模块
→ 数据/模型/评测
→ 稳定性与安全
→ 成本与容量
→ 发布、回滚与演进

这 8 步，基本能覆盖大多数 AI 系统设计题。

一套适合面试的答题框架¶

我建议你用下面这版，比单纯背 RESHADED 更适合现在的 AI 岗。

AIMS-DRIVE 框架¶

步骤	你要回答什么
`A` Ask	题目到底要解决什么业务问题
`I` Infer scale	数据量、QPS、延迟、模型大小大概多少
`M` Map pipeline	从输入到输出的主链路是什么
`S` Split components	每个关键模块怎么拆
`D` Data & Model	数据、特征、模型、索引如何组织
`R` Reliability	稳定性、监控、降级、回滚怎么做
`I` Inspection	离线、在线、红队、质量评测怎么做
`V` Value & cost	成本、资源、ROI 怎么权衡
`E` Evolution	未来如何扩展和持续演进

你不需要每次都逐字说框架名，但脑子里必须按这个顺序走。

第一步：先问清题目，而不是立刻画图¶

系统设计面试最忌讳一上来就画一大堆方框。

你先要确认：

目标用户是谁
主要业务目标是什么
优先优化什么指标
延迟、QPS、成本约束是什么
是内部系统还是对外服务

例如¶

“设计一个企业知识库问答系统”，你至少要问：

面向员工还是外部客户
核心目标是准确率、覆盖率还是响应速度
文档规模大概多少
是否允许引用外部工具
是否需要权限隔离

这一步的价值在于：你后面的所有设计才有边界。

第二步：做最小规模估算¶

很多人害怕估算，其实你只要做够支撑设计选择的最小估算就行。

常见要估的 6 个量¶

QPS
峰值并发
数据规模
索引规模
模型大小
延迟预算

一个最小示例¶

Text Only

假设日活 100 万，每人每天 5 次请求，
则日请求量约 500 万，
平均 QPS 约 58，
峰值按 3 倍估算约 170。
如果每次请求需要检索 + 重排 + 生成，
那么在线大模型推理就不能无约束全量走，需要做缓存和模型分层。

你不是要算到非常精确，而是要让后面架构选择有依据。

第三步：先讲主链路，再拆模块¶

面试官最先想知道的是：你对系统主流程有没有全局把握。

一个标准表达模板¶

Text Only

我先给整体链路：
用户请求进入网关后，先做鉴权和限流；
然后进入查询理解/任务编排层；
再做检索或特征召回；
之后进入模型推理或重排模块；
最后把结果返回，并把日志、反馈和监控数据异步回流到评测和训练链路。

这类表达比一开始扎进单点模块更容易建立“你会系统设计”的印象。

第四步：关键模块要按“为什么这么拆”来讲¶

不要只是列模块名。你必须回答：

这个模块为什么单独拆
它和前后模块怎么交互
为什么不用别的方案

常见模块示例¶

RAG / Agent 类系统¶

Query understanding
Retrieval
Rerank
Tool execution
Response synthesis
Eval / Trace / Feedback

推理服务类系统¶

API gateway
Request scheduler
Model router
Inference workers
Cache / KV / session state
Metrics / autoscaling

搜推类系统¶

Query intent
Multi-recall
Coarse rank
Fine rank
LLM rerank / explanation
Online experiment

第五步：AI 题必须补数据、模型和评测¶

这是和普通系统设计题最大的区别之一。

你至少要讲 4 件事：

数据从哪里来
模型或索引如何更新
离线怎么评估
在线怎么评估

最低限度的表达¶

Text Only

我会把数据链路拆成离线训练/索引构建和在线请求两条。
离线部分负责样本构造、索引更新、模型评估；
在线部分负责推理、监控和用户反馈回流。
评测方面，先看离线指标，再通过灰度和 AB 看线上指标是否一致提升。

如果没有这一段，AI 题就很容易答得像普通 Web 服务题。

第六步：一定要讲稳定性¶

2028 的 AI 系统设计题里，稳定性已经不是可选项。

你最好固定补下面这些点：

限流
超时
重试
降级
熔断
回滚
错误预算

对 RAG/Agent 系统常见的稳定性点¶

检索超时 fallback
工具调用失败重试
长链路 trace
引用缺失时降级成保守回答

对推理服务常见的稳定性点¶

模型池路由
队列削峰
热点缓存
token / session 限流

第七步：安全和风险不能省¶

尤其是 AI 应用类系统，面试官越来越可能追问：

prompt injection
越权访问
敏感数据泄露
工具滥用
幻觉和错误答案的风险

如果是搜索推荐、广告、风控类系统，也会追问：

数据偏差
作弊/攻击
模型漂移
误伤成本

你不需要每次讲得特别长，但必须表明你知道这些风险是系统设计的一部分。

第八步：成本和容量要能讲¶

很多候选人会讲出一个“理论上很强”的系统，但完全不考虑成本。

面试官真正想看的是你会不会权衡。

常见的成本维度¶

GPU 成本
存储和索引成本
网络带宽
高峰扩容
人工审核成本

一个好用的表达方式¶

Text Only

如果全量请求都走大模型重排，成本和延迟都不可接受。
所以我会采用分层策略：先用轻量召回和排序缩小候选，再只在高价值请求上启用高成本模块。

这类表达会明显提升系统设计的现实感。

不同岗位线的答题重心¶

同一道题，不同岗位线的重点不同。

1. AI 应用工程¶

更看重：

用户链路
任务编排
评测体系
容错和回滚

2. AI Infra / 平台¶

更看重：

调度
推理优化
GPU 利用率
扩缩容
队列与容量

3. 搜索推荐 + LLM¶

更看重：

召回 / 排序 / 重排
query understanding
在线实验
时延与效果平衡

4. 多模态 / 具身¶

更看重：

实时性
模态融合
感知到动作的闭环
故障安全

答题时你要主动偏向你目标岗位关心的点。

45 分钟答题建议¶

下面这版时间分配很实用：

时间	做什么
0-5 分钟	需求澄清
5-8 分钟	规模估算
8-15 分钟	整体链路
15-28 分钟	核心模块设计
28-35 分钟	数据/模型/评测
35-40 分钟	稳定性、安全、回滚
40-45 分钟	成本、容量、演进

如果面试官中途打断，你也能保持结构稳定。

高频追问怎么准备¶

AI 系统设计面试的追问通常会集中在这 8 类：

为什么这么选模型或索引
如果延迟超了怎么办
如果成本太高怎么办
如何做灰度和回滚
如何做离线和在线评测
如何处理数据漂移或内容变化
如何做安全防护
如何在高峰流量下扩容

你可以提前为每一类题型准备这些追问答案。

你在面试里最容易犯的 6 个错误¶

1. 不问需求，直接开画¶

这是最常见的错误。

2. 只讲模型，不讲系统¶

会显得你偏研究、不懂工程。

3. 只讲服务，不讲 AI 特性¶

会显得你把 AI 题答成普通后端题。

4. 没有评测和监控¶

这会让系统显得不完整。

5. 没有降级和回滚¶

说明你没考虑上线后出问题的现实。

6. 完全不谈成本¶

现实感会明显不足。

一个可复用的开场模板¶

当你拿到题时，可以这样开场：

Text Only

我先澄清一下需求和约束，再做一个量级估算。
接着我会给出端到端主链路，
然后展开关键模块设计，
最后补上评测、稳定性、成本和演进方案。

这句话很简单，但能迅速建立结构感。

本章小结¶

AI 系统设计题必须同时回答“AI”和“系统”两个层面的问题
最稳定的答题主线是：需求、规模、链路、模块、评测、稳定性、成本、演进
2028 更有竞争力的候选人，会把回滚、安全、红队、SLO 和容量规划自然带进答案

下一步¶

先选和你岗位主线最接近的题型：
做 AI 应用工程就看 02-RAG 系统设计深入和 03-多 Agent 系统设计
做 AI Infra 就看 04-LLM 推理服务架构设计和 06-大模型训练平台设计
做搜推方向就结合推荐系统/22-搜索推荐与LLM岗位路线一起准备