跳转至

可观测性、告警分级与值班 Runbook

目标:把 SLO 文档变成可执行的日常运维动作,而不是只停留在指标定义。


一、AI 系统最少要有三层看板

层级 关注点
用户层 成功率、任务完成率、错答率、投诉率
系统层 可用性、P95/P99、错误率、超时率
资源层 GPU/CPU、内存、缓存命中率、单请求成本

二、告警分级建议

级别 触发条件 要求
P0 服务不可用、危险操作误执行、核心链路大面积失败 立即响应,必要时直接回滚
P1 P99 恶化、质量显著下降、成本异常飙升 30 分钟内定位并止血
P2 单节点抖动、局部 bad case 上升、资源接近上限 排期处理并持续观察

三、值班 Runbook 最小模板

Markdown
# On-call Runbook

## 1. 首先确认
- 当前事故等级:
- 影响范围:
- 是否需要拉群:

## 2. 先看哪些图
- 可用性:
- 延迟:
- 错误率:
- 质量:
- 资源:

## 3. 常见处置动作
- 限流:
- 降级:
- 关闭实验:
- 回滚版本:

## 4. 何时升级
- 达到 P0:
- 持续时间超过:
- 波及范围超过:

四、适合补到你的项目里的内容

  • 观测面板截图与字段说明
  • 告警分级表
  • on-call 处置步骤
  • 发布值班记录