可观测性、告警分级与值班 Runbook¶
目标:把 SLO 文档变成可执行的日常运维动作,而不是只停留在指标定义。
一、AI 系统最少要有三层看板¶
| 层级 | 关注点 |
|---|---|
| 用户层 | 成功率、任务完成率、错答率、投诉率 |
| 系统层 | 可用性、P95/P99、错误率、超时率 |
| 资源层 | GPU/CPU、内存、缓存命中率、单请求成本 |
二、告警分级建议¶
| 级别 | 触发条件 | 要求 |
|---|---|---|
| P0 | 服务不可用、危险操作误执行、核心链路大面积失败 | 立即响应,必要时直接回滚 |
| P1 | P99 恶化、质量显著下降、成本异常飙升 | 30 分钟内定位并止血 |
| P2 | 单节点抖动、局部 bad case 上升、资源接近上限 | 排期处理并持续观察 |
三、值班 Runbook 最小模板¶
Markdown
# On-call Runbook
## 1. 首先确认
- 当前事故等级:
- 影响范围:
- 是否需要拉群:
## 2. 先看哪些图
- 可用性:
- 延迟:
- 错误率:
- 质量:
- 资源:
## 3. 常见处置动作
- 限流:
- 降级:
- 关闭实验:
- 回滚版本:
## 4. 何时升级
- 达到 P0:
- 持续时间超过:
- 波及范围超过:
四、适合补到你的项目里的内容¶
- 观测面板截图与字段说明
- 告警分级表
- on-call 处置步骤
- 发布值班记录