跳转至

压测与Benchmark模板

目标:把“我测过了”升级成“我能复现实验、解释结果、说明边界”。


一、压测报告必须回答什么

  1. 环境是什么?
  2. baseline 是什么?
  3. 并发/输入规模如何设计?
  4. 最终结论是什么?
  5. 代价是什么?

二、推荐结构

Markdown
# 压测与 Benchmark 报告

## 1. 测试目标
- 想验证什么:
- 主要假设:

## 2. 测试环境
| 项目 | 配置 |
|------|------|
| CPU/GPU | |
| 内存 | |
| 模型版本 | |
| 数据规模 | |

## 3. 压测场景
| 场景 | 输入规模 | 并发 | 持续时间 |
|------|----------|------|----------|
| | | | |

## 4. Baseline 与对照方案
| 方案 | 说明 |
|------|------|
| Baseline | |
| New | |

## 5. 结果
| 指标 | Baseline | New | 变化 |
|------|----------|-----|------|
| | | | |

## 6. 结论
- 哪个指标变好了:
- 哪个指标变差了:
- 是否值得上线:

## 7. 复现方式
- 命令:
- 数据集:
- 版本:

三、常见无效压测

  • 只测单次请求,不测并发和尾延迟
  • 不写环境,结论无法复现
  • 没有 baseline,只堆结果截图
  • 不测退化输入

四、不同交付线的额外要求

AI 应用工程

  • 加人工抽检或 bad case 对照
  • 区分缓存命中和未命中

AI 基础设施

  • 明确 TTFT、吞吐、显存、OOM
  • 测平峰与高峰两组场景

数据与平台工程

  • 区分写入、更新、查询三类负载
  • 测积压恢复与索引重建时间