SLO与评测指标模板¶

目标：把“效果不错”变成可量化、可观测、可发布的指标体系。

一、指标必须分三层¶

层级	典型指标
质量/效果	Recall@K、Faithfulness、任务成功率、命中率
系统/稳定性	可用性、P95/P99、错误率、超时率
资源/成本	GPU 利用率、单请求成本、缓存命中率、tokens 成本

二、推荐文档结构¶

Markdown

# 指标与 SLO 文档

## 1. 指标总览
| 维度 | SLI | Baseline | 目标值 | 告警阈值 |
|------|-----|----------|--------|----------|
| | | | | |

## 2. 错误预算
- SLO：
- 月错误预算：
- 消耗策略：
- 超预算动作：

## 3. 评测方式
- 离线评测：
- 在线评测：
- 人工抽检：
- 灰度观察：

## 4. 仪表盘与告警
- 主看板：
- 次级看板：
- P0/P1/P2 告警：

## 5. 回滚触发条件
- 质量下降：
- 延迟恶化：
- 错误率上升：
- 成本异常：

三、建议至少定义的指标¶

AI 应用工程¶

Recall@K
Faithfulness / 引用准确率
任务成功率
P99 延迟
单请求成本

AI 基础设施¶

TTFT
tokens/s
req/s
GPU 利用率
OOM 率
单千 token 成本

数据与平台工程¶

数据新鲜度
流批延迟
查询 P99
数据质量通过率
索引更新时间

四、验收要求¶

没有 baseline，不能写“优化成功”。
没有告警阈值，SLO 只是口号。
没有回滚条件，发布策略不合格。