压测与Benchmark模板¶

目标：把“我测过了”升级成“我能复现实验、解释结果、说明边界”。

一、压测报告必须回答什么¶

环境是什么？
baseline 是什么？
并发/输入规模如何设计？
最终结论是什么？
代价是什么？

二、推荐结构¶

Markdown

# 压测与 Benchmark 报告

## 1. 测试目标
- 想验证什么：
- 主要假设：

## 2. 测试环境
| 项目 | 配置 |
|------|------|
| CPU/GPU | |
| 内存 | |
| 模型版本 | |
| 数据规模 | |

## 3. 压测场景
| 场景 | 输入规模 | 并发 | 持续时间 |
|------|----------|------|----------|
| | | | |

## 4. Baseline 与对照方案
| 方案 | 说明 |
|------|------|
| Baseline | |
| New | |

## 5. 结果
| 指标 | Baseline | New | 变化 |
|------|----------|-----|------|
| | | | |

## 6. 结论
- 哪个指标变好了：
- 哪个指标变差了：
- 是否值得上线：

## 7. 复现方式
- 命令：
- 数据集：
- 版本：

三、常见无效压测¶

只测单次请求，不测并发和尾延迟
不写环境，结论无法复现
没有 baseline，只堆结果截图
不测退化输入

四、不同交付线的额外要求¶

AI 应用工程¶

加人工抽检或 bad case 对照
区分缓存命中和未命中

AI 基础设施¶

明确 TTFT、吞吐、显存、OOM
测平峰与高峰两组场景

数据与平台工程¶

区分写入、更新、查询三类负载
测积压恢复与索引重建时间