SLO与评测指标模板¶
目标:把“效果不错”变成可量化、可观测、可发布的指标体系。
一、指标必须分三层¶
| 层级 | 典型指标 |
|---|---|
| 质量/效果 | Recall@K、Faithfulness、任务成功率、命中率 |
| 系统/稳定性 | 可用性、P95/P99、错误率、超时率 |
| 资源/成本 | GPU 利用率、单请求成本、缓存命中率、tokens 成本 |
二、推荐文档结构¶
Markdown
# 指标与 SLO 文档
## 1. 指标总览
| 维度 | SLI | Baseline | 目标值 | 告警阈值 |
|------|-----|----------|--------|----------|
| | | | | |
## 2. 错误预算
- SLO:
- 月错误预算:
- 消耗策略:
- 超预算动作:
## 3. 评测方式
- 离线评测:
- 在线评测:
- 人工抽检:
- 灰度观察:
## 4. 仪表盘与告警
- 主看板:
- 次级看板:
- P0/P1/P2 告警:
## 5. 回滚触发条件
- 质量下降:
- 延迟恶化:
- 错误率上升:
- 成本异常:
三、建议至少定义的指标¶
AI 应用工程¶
- Recall@K
- Faithfulness / 引用准确率
- 任务成功率
- P99 延迟
- 单请求成本
AI 基础设施¶
- TTFT
- tokens/s
- req/s
- GPU 利用率
- OOM 率
- 单千 token 成本
数据与平台工程¶
- 数据新鲜度
- 流批延迟
- 查询 P99
- 数据质量通过率
- 索引更新时间
四、验收要求¶
- 没有 baseline,不能写“优化成功”。
- 没有告警阈值,SLO 只是口号。
- 没有回滚条件,发布策略不合格。