跳转至

09-故障演练与降级、熔断、回滚

目标:把“我知道系统会出问题”升级成“我知道系统出问题时怎么有序止血”。


一、为什么故障演练对 AI 岗有区分度

AI 系统的故障不只来自基础设施,还可能来自:

  • 模型切换
  • 检索链路失效
  • Agent 工具行为失控
  • 成本突然飙升
  • 质量指标悄悄下降

所以高质量 AI 工程岗位非常看重你是否具备:

  • 降级思维
  • 熔断思维
  • 回滚纪律
  • 演练意识

二、四个核心动作

降级

目标:保住核心服务,牺牲部分能力。

示例:

  • 关闭 reranker
  • 缩短上下文长度
  • 从大模型切到小模型
  • 暂停部分 Agent 工具

熔断

目标:避免异常继续放大。

示例:

  • 下游向量库异常时,不再无限重试
  • 工具连续失败时,Agent 直接退出
  • GPU OOM 率过高时,拒绝高风险请求

回滚

目标:尽快回到已知稳定版本。

示例:

  • 回滚模型版本
  • 回滚 Prompt / 路由配置
  • 回滚索引版本

演练

目标:不要等真事故来教你系统哪里脆弱。

示例:

  • 模拟向量库超时
  • 模拟模型池不可用
  • 模拟缓存失效

三、AI 系统常见故障演练场景

场景 演练目标 观察指标
向量库超时 验证检索降级与超时保护 P99、失败率、降级成功率
GPU 节点异常 验证模型池切换与回滚 可用性、队列积压
Prompt / 路由变更失误 验证灰度与回滚 质量指标、成本指标
Agent 工具故障 验证最大步数、重试、人工接管 任务成功率、错误循环率
缓存整体失效 验证成本与延迟护栏 成本、P99、命中率

四、最小演练模板

Markdown
## 演练名称

- 目标:
- 假设:
- 影响范围:
- 预期行为:
- 观察指标:
- 止损条件:
- 回滚方式:
- 演练结果:
- 改进项:

五、面试中怎么讲

推荐结构:

  1. 先说明故障类型
  2. 再说止血手段:降级 / 熔断 / 回滚
  3. 再说哪些指标触发动作
  4. 最后说演练后补了什么监控或机制

六、自检清单

  • 我能说出至少 3 个 AI 系统特有故障场景
  • 我知道哪些动作属于降级、熔断、回滚
  • 我有一套最小演练模板
  • 我知道演练时看哪些指标

结论

故障演练的价值不在于“制造故障”,而在于让你提前知道系统会怎么坏,以及你能不能在 5 分钟内把它拉回来。