容量规划与故障注入检查清单¶
目标:把“我觉得扛得住”变成有容量余量、有故障注入、有退化预案的工程判断。
一、容量规划至少回答 5 个问题¶
- 平峰和峰值流量分别是多少?
- 哪个组件先到瓶颈?
- 需要多少安全余量?
- 缓存失效时还能不能扛住?
- 哪种故障会直接触发回滚?
二、容量规划模板¶
| 维度 | 当前值 | 峰值 | 安全余量 | 备注 |
|---|---|---|---|---|
| QPS | ||||
| 并发 | ||||
| GPU/CPU | ||||
| 内存 | ||||
| 存储 |
三、故障注入清单¶
| 故障类型 | 注入方式 | 预期行为 | 实际结果 |
|---|---|---|---|
| 上游超时 | |||
| 缓存失效 | |||
| 单节点失联 | |||
| GPU OOM | |||
| 索引延迟积压 |
四、最低合格标准¶
- 有峰值容量估算
- 有安全余量
- 有至少 3 类故障注入记录
- 有降级或回滚动作
- 有实验结论而不是“理论可行”