事故复盘模板¶
目标:从“出过问题”变成“能系统复盘并防止再次发生”。
一、复盘不是写总结,而是写闭环¶
一份合格复盘必须同时覆盖:
- 影响面
- 时间线
- 根因
- 检测与响应
- 修复动作
- 长期治理
- 负责人和完成时间
二、推荐模板¶
Markdown
# 事故复盘
## 1. 事故摘要
- 时间:
- 等级:P0 / P1 / P2
- 影响范围:
- 影响指标:
## 2. 时间线
| 时间 | 事件 |
|------|------|
| | |
## 3. 用户影响
- 受影响请求数:
- 受影响用户数:
- 业务损失:
## 4. 根因分析
- 直接根因:
- 触发条件:
- 为什么未提前发现:
## 5. 5 Whys
1. 为什么:
2. 为什么:
3. 为什么:
4. 为什么:
5. 为什么:
## 6. 处置过程
- 临时止血:
- 回滚/降级:
- 恢复时间:
## 7. 行动项
| 动作 | 类型 | 负责人 | 截止日期 | 状态 |
|------|------|--------|----------|------|
| | 短期/长期 | | | |
## 8. 经验教训
- 应保留:
- 应禁止:
- 下次如何更早发现:
三、不同交付线的典型事故¶
- AI 应用工程:错召回、幻觉上升、工具误调用
- AI 基础设施:OOM、尾延迟抖动、路由异常
- 数据与平台工程:脏数据、迟到数据、索引错乱、在线离线不一致