09-故障演练与降级、熔断、回滚¶
目标:把“我知道系统会出问题”升级成“我知道系统出问题时怎么有序止血”。
一、为什么故障演练对 AI 岗有区分度¶
AI 系统的故障不只来自基础设施,还可能来自:
- 模型切换
- 检索链路失效
- Agent 工具行为失控
- 成本突然飙升
- 质量指标悄悄下降
所以高质量 AI 工程岗位非常看重你是否具备:
- 降级思维
- 熔断思维
- 回滚纪律
- 演练意识
二、四个核心动作¶
降级¶
目标:保住核心服务,牺牲部分能力。
示例:
- 关闭 reranker
- 缩短上下文长度
- 从大模型切到小模型
- 暂停部分 Agent 工具
熔断¶
目标:避免异常继续放大。
示例:
- 下游向量库异常时,不再无限重试
- 工具连续失败时,Agent 直接退出
- GPU OOM 率过高时,拒绝高风险请求
回滚¶
目标:尽快回到已知稳定版本。
示例:
- 回滚模型版本
- 回滚 Prompt / 路由配置
- 回滚索引版本
演练¶
目标:不要等真事故来教你系统哪里脆弱。
示例:
- 模拟向量库超时
- 模拟模型池不可用
- 模拟缓存失效
三、AI 系统常见故障演练场景¶
| 场景 | 演练目标 | 观察指标 |
|---|---|---|
| 向量库超时 | 验证检索降级与超时保护 | P99、失败率、降级成功率 |
| GPU 节点异常 | 验证模型池切换与回滚 | 可用性、队列积压 |
| Prompt / 路由变更失误 | 验证灰度与回滚 | 质量指标、成本指标 |
| Agent 工具故障 | 验证最大步数、重试、人工接管 | 任务成功率、错误循环率 |
| 缓存整体失效 | 验证成本与延迟护栏 | 成本、P99、命中率 |
四、最小演练模板¶
五、面试中怎么讲¶
推荐结构:
- 先说明故障类型
- 再说止血手段:降级 / 熔断 / 回滚
- 再说哪些指标触发动作
- 最后说演练后补了什么监控或机制
六、自检清单¶
- 我能说出至少 3 个 AI 系统特有故障场景
- 我知道哪些动作属于降级、熔断、回滚
- 我有一套最小演练模板
- 我知道演练时看哪些指标
结论¶
故障演练的价值不在于“制造故障”,而在于让你提前知道系统会怎么坏,以及你能不能在 5 分钟内把它拉回来。