跳转至

SLO与评测指标模板

目标:把“效果不错”变成可量化、可观测、可发布的指标体系。


一、指标必须分三层

层级 典型指标
质量/效果 Recall@K、Faithfulness、任务成功率、命中率
系统/稳定性 可用性、P95/P99、错误率、超时率
资源/成本 GPU 利用率、单请求成本、缓存命中率、tokens 成本

二、推荐文档结构

Markdown
# 指标与 SLO 文档

## 1. 指标总览
| 维度 | SLI | Baseline | 目标值 | 告警阈值 |
|------|-----|----------|--------|----------|
| | | | | |

## 2. 错误预算
- SLO:
- 月错误预算:
- 消耗策略:
- 超预算动作:

## 3. 评测方式
- 离线评测:
- 在线评测:
- 人工抽检:
- 灰度观察:

## 4. 仪表盘与告警
- 主看板:
- 次级看板:
- P0/P1/P2 告警:

## 5. 回滚触发条件
- 质量下降:
- 延迟恶化:
- 错误率上升:
- 成本异常:

三、建议至少定义的指标

AI 应用工程

  • Recall@K
  • Faithfulness / 引用准确率
  • 任务成功率
  • P99 延迟
  • 单请求成本

AI 基础设施

  • TTFT
  • tokens/s
  • req/s
  • GPU 利用率
  • OOM 率
  • 单千 token 成本

数据与平台工程

  • 数据新鲜度
  • 流批延迟
  • 查询 P99
  • 数据质量通过率
  • 索引更新时间

四、验收要求

  • 没有 baseline,不能写“优化成功”。
  • 没有告警阈值,SLO 只是口号。
  • 没有回滚条件,发布策略不合格。