压测与Benchmark模板¶
目标:把“我测过了”升级成“我能复现实验、解释结果、说明边界”。
一、压测报告必须回答什么¶
- 环境是什么?
- baseline 是什么?
- 并发/输入规模如何设计?
- 最终结论是什么?
- 代价是什么?
二、推荐结构¶
Markdown
# 压测与 Benchmark 报告
## 1. 测试目标
- 想验证什么:
- 主要假设:
## 2. 测试环境
| 项目 | 配置 |
|------|------|
| CPU/GPU | |
| 内存 | |
| 模型版本 | |
| 数据规模 | |
## 3. 压测场景
| 场景 | 输入规模 | 并发 | 持续时间 |
|------|----------|------|----------|
| | | | |
## 4. Baseline 与对照方案
| 方案 | 说明 |
|------|------|
| Baseline | |
| New | |
## 5. 结果
| 指标 | Baseline | New | 变化 |
|------|----------|-----|------|
| | | | |
## 6. 结论
- 哪个指标变好了:
- 哪个指标变差了:
- 是否值得上线:
## 7. 复现方式
- 命令:
- 数据集:
- 版本:
三、常见无效压测¶
- 只测单次请求,不测并发和尾延迟
- 不写环境,结论无法复现
- 没有 baseline,只堆结果截图
- 不测退化输入
四、不同交付线的额外要求¶
AI 应用工程¶
- 加人工抽检或 bad case 对照
- 区分缓存命中和未命中
AI 基础设施¶
- 明确 TTFT、吞吐、显存、OOM
- 测平峰与高峰两组场景
数据与平台工程¶
- 区分写入、更新、查询三类负载
- 测积压恢复与索引重建时间