09-故障演练与降级、熔断、回滚¶

目标：把“我知道系统会出问题”升级成“我知道系统出问题时怎么有序止血”。

一、为什么故障演练对 AI 岗有区分度¶

AI 系统的故障不只来自基础设施，还可能来自：

模型切换
检索链路失效
Agent 工具行为失控
成本突然飙升
质量指标悄悄下降

所以高质量 AI 工程岗位非常看重你是否具备：

降级思维
熔断思维
回滚纪律
演练意识

二、四个核心动作¶

降级¶

目标：保住核心服务，牺牲部分能力。

示例：

关闭 reranker
缩短上下文长度
从大模型切到小模型
暂停部分 Agent 工具

熔断¶

目标：避免异常继续放大。

示例：

下游向量库异常时，不再无限重试
工具连续失败时，Agent 直接退出
GPU OOM 率过高时，拒绝高风险请求

回滚¶

目标：尽快回到已知稳定版本。

示例：

回滚模型版本
回滚 Prompt / 路由配置
回滚索引版本

演练¶

目标：不要等真事故来教你系统哪里脆弱。

示例：

模拟向量库超时
模拟模型池不可用
模拟缓存失效

三、AI 系统常见故障演练场景¶

场景	演练目标	观察指标
向量库超时	验证检索降级与超时保护	P99、失败率、降级成功率
GPU 节点异常	验证模型池切换与回滚	可用性、队列积压
Prompt / 路由变更失误	验证灰度与回滚	质量指标、成本指标
Agent 工具故障	验证最大步数、重试、人工接管	任务成功率、错误循环率
缓存整体失效	验证成本与延迟护栏	成本、P99、命中率

四、最小演练模板¶

Markdown

## 演练名称

- 目标：
- 假设：
- 影响范围：
- 预期行为：
- 观察指标：
- 止损条件：
- 回滚方式：
- 演练结果：
- 改进项：

五、面试中怎么讲¶

推荐结构：

先说明故障类型
再说止血手段：降级 / 熔断 / 回滚
再说哪些指标触发动作
最后说演练后补了什么监控或机制

六、自检清单¶

我能说出至少 3 个 AI 系统特有故障场景
我知道哪些动作属于降级、熔断、回滚
我有一套最小演练模板
我知道演练时看哪些指标

结论¶

故障演练的价值不在于“制造故障”，而在于让你提前知道系统会怎么坏，以及你能不能在 5 分钟内把它拉回来。