AI 系统设计面试¶

这一部分不只是给“算法岗系统设计轮”准备，而是面向 AI 应用工程、AI Infra、Agent 平台、搜索推荐 + LLM 等 2028 年更常见的真实面试场景。重点不是背模板，而是学会从 需求、系统、评测、稳定性、成本 五个维度讲清楚一个 AI 系统。

这部分解决什么问题¶

很多人在 AI 系统设计面试里会出现两种极端：

只讲模型，不讲系统
只讲服务架构，不讲 AI 特有问题

而真实面试想听的是：

这个 AI 系统为什么这样设计
数据、模型、推理、评测和运维怎么串起来
延迟、成本、质量、风险怎么权衡
如果线上出问题，如何降级、回滚和复盘

这套内容就是为了解决这个缺口。

学习目标¶

建立适用于 AI 场景的系统设计答题框架
能在 45 分钟内讲清一个 AI 系统的完整链路
知道不同岗位主线下，系统设计重点有何不同
把 SLO / 评测 / 安全 / 回滚 / 故障演练 纳入答题

2028 年最常见的 5 类 AI 系统设计题¶

题型	典型岗位	核心考点
RAG / Agent 系统	AI 应用工程	检索、工具调用、评测、可观测性
LLM 推理服务	AI Infra / 平台	延迟、吞吐、GPU、调度、成本
训练平台 / 数据平台	训练平台 / MLOps	数据、调度、容错、实验管理
搜索推荐 + LLM	搜推 / 算法工程	召回排序、语义模块、在线实验
多模态 / 具身系统	多模态 / 机器人	模态融合、控制闭环、实时性

你可以把后面章节理解成围绕这 5 大题型展开。

建议学习顺序¶

如果你是第一次系统学这一块，建议按下面顺序：

先看 01-AI系统设计面试指南
再看和自己主线最相关的系统题
再补 高频追问、SLO、回滚、Runbook、容量规划
最后用 45 分钟模拟答题做输出训练

章节地图¶

序号	章节	解决的问题
01	AI 系统设计面试指南	如何搭建统一答题框架
02	RAG 系统设计深入	知识库问答、检索、幻觉与评测
03	多 Agent 系统设计	多 agent 架构、状态、失败恢复
04	LLM 推理服务架构设计	推理服务、批处理、成本治理
05	多模态 AI 系统设计	多模态理解、端侧和工业场景
06	大模型训练平台设计	数据、训练、并行、故障恢复
07	AI 系统设计高频追问与深度题	面试官会怎么往下压深度
08	SLO、错误预算与事故复盘	稳定性和上线治理怎么讲
09	故障演练与降级、熔断、回滚	出问题时系统怎么保命
10	5 Whys 事故复盘模板与案例	如何把事故讲成有深度的复盘
11	LLM 应用安全红队与威胁建模	AI 系统安全题怎么答
12	可观测性、告警分级与值班 Runbook	告警、值班、处置怎么落地
13	容量规划与故障注入检查清单	峰值、压测、演练怎么做

这部分最重要的 6 个观念¶

1. AI 系统不是“模型 + API”这么简单¶

完整链路至少包括：

数据
索引/特征
模型
推理
评测
监控
发布治理

2. 评测和稳定性必须进入答题主体¶

很多人会提一句“后面再监控”，这在 2028 越来越不够。

3. AI 系统要同时回答效果和成本¶

系统设计不是只看能不能做出来，还要看：

latency
throughput
GPU / CPU 成本
存储和索引成本

4. 线上出问题时的策略很重要¶

你必须能讲：

fallback
熔断
降级
灰度
回滚

5. 不同岗位重心不同¶

同样是“设计一个 RAG 系统”，不同岗位的重点不同：

AI 应用工程：产品链路、评测、故障
AI Infra：推理服务、资源、容量
算法工程：检索效果、重排、实验

6. 系统设计题本质上也是表达题¶

你不只是要会想，还要会在 45 分钟里有条理地讲出来。

这部分和站内其他内容怎么联动¶

强相关页面：

如果你想把系统设计题转成简历和面试竞争力，上面这些页需要一起看。

适合哪些人优先学¶

优先级最高的人：

准备 2027 暑期实习和 2028 校招的 AI 岗
已经有项目，但讲不出系统层答案
想从“会用模型”升级到“会设计系统”

本部分小结¶

AI 系统设计题的核心是把 需求、系统、评测、稳定性、成本 串成一个闭环
2028 更高频的题型，已经明显覆盖 RAG / Agent / 推理服务 / 搜推+LLM / 多模态
这部分真正要训练的，不是记架构图，而是建立有职业区分度的答题框架

下一步¶

从 01-AI系统设计面试指南开始
看完后再按岗位主线选读后续章节