跳转至

容量规划与故障注入检查清单

目标:把“我觉得扛得住”变成有容量余量、有故障注入、有退化预案的工程判断。


一、容量规划至少回答 5 个问题

  1. 平峰和峰值流量分别是多少?
  2. 哪个组件先到瓶颈?
  3. 需要多少安全余量?
  4. 缓存失效时还能不能扛住?
  5. 哪种故障会直接触发回滚?

二、容量规划模板

维度 当前值 峰值 安全余量 备注
QPS
并发
GPU/CPU
内存
存储

三、故障注入清单

故障类型 注入方式 预期行为 实际结果
上游超时
缓存失效
单节点失联
GPU OOM
索引延迟积压

四、最低合格标准

  • 有峰值容量估算
  • 有安全余量
  • 有至少 3 类故障注入记录
  • 有降级或回滚动作
  • 有实验结论而不是“理论可行”