可观测性、告警分级与值班 Runbook¶

目标：把 SLO 文档变成可执行的日常运维动作，而不是只停留在指标定义。

一、AI 系统最少要有三层看板¶

层级	关注点
用户层	成功率、任务完成率、错答率、投诉率
系统层	可用性、P95/P99、错误率、超时率
资源层	GPU/CPU、内存、缓存命中率、单请求成本

二、告警分级建议¶

级别	触发条件	要求
P0	服务不可用、危险操作误执行、核心链路大面积失败	立即响应，必要时直接回滚
P1	P99 恶化、质量显著下降、成本异常飙升	30 分钟内定位并止血
P2	单节点抖动、局部 bad case 上升、资源接近上限	排期处理并持续观察

三、值班 Runbook 最小模板¶

Markdown

# On-call Runbook

## 1. 首先确认
- 当前事故等级：
- 影响范围：
- 是否需要拉群：

## 2. 先看哪些图
- 可用性：
- 延迟：
- 错误率：
- 质量：
- 资源：

## 3. 常见处置动作
- 限流：
- 降级：
- 关闭实验：
- 回滚版本：

## 4. 何时升级
- 达到 P0：
- 持续时间超过：
- 波及范围超过：

四、适合补到你的项目里的内容¶

观测面板截图与字段说明
告警分级表
on-call 处置步骤
发布值班记录