跳转至

事故复盘模板

目标:从“出过问题”变成“能系统复盘并防止再次发生”。


一、复盘不是写总结,而是写闭环

一份合格复盘必须同时覆盖:

  • 影响面
  • 时间线
  • 根因
  • 检测与响应
  • 修复动作
  • 长期治理
  • 负责人和完成时间

二、推荐模板

Markdown
# 事故复盘

## 1. 事故摘要
- 时间:
- 等级:P0 / P1 / P2
- 影响范围:
- 影响指标:

## 2. 时间线
| 时间 | 事件 |
|------|------|
| | |

## 3. 用户影响
- 受影响请求数:
- 受影响用户数:
- 业务损失:

## 4. 根因分析
- 直接根因:
- 触发条件:
- 为什么未提前发现:

## 5. 5 Whys
1. 为什么:
2. 为什么:
3. 为什么:
4. 为什么:
5. 为什么:

## 6. 处置过程
- 临时止血:
- 回滚/降级:
- 恢复时间:

## 7. 行动项
| 动作 | 类型 | 负责人 | 截止日期 | 状态 |
|------|------|--------|----------|------|
| | 短期/长期 | | | |

## 8. 经验教训
- 应保留:
- 应禁止:
- 下次如何更早发现:

三、不同交付线的典型事故

  • AI 应用工程:错召回、幻觉上升、工具误调用
  • AI 基础设施:OOM、尾延迟抖动、路由异常
  • 数据与平台工程:脏数据、迟到数据、索引错乱、在线离线不一致