AI 基础设施交付线¶

面向岗位：AI 系统工程师、推理服务工程师、AI Infra 工程师、性能优化工程师

一、这条线的目标¶

让你最终拿出一个能体现系统深度的成果包，证明你能处理：

延迟
吞吐
显存
成本
可观测性
回滚与稳定性

这条线是你 2028 年前最抗替代、也最容易拉高上限的一条线。

二、适合做什么项目¶

优先项目：

高性能 LLM 推理服务
多模型路由与成本优化服务
vLLM / TensorRT / Triton 推理 benchmark 项目
流式推理 + 批处理 + 缓存协同服务

推荐参考：

站内现有项目绑定¶

目标项目	站内起点	这条交付线要补的材料
推理服务部署	LLM学习/03-系统与工程/03-推理服务部署	延迟/吞吐基线、版本切换、回滚预案
大模型部署	LLM应用/11-大模型部署	部署拓扑、容量规划、成本表、发布记录
模型优化实战	模型优化/06-实战项目	benchmark、优化前后对比、OOM/抖动复盘
边缘部署	模型优化/05-边缘部署	设备约束、时延预算、精度与功耗权衡
事故与可靠性	AI系统设计面试/08-SLO错误预算与事故复盘	SLO、错误预算、演练计划、事故闭环

三、最终必须交付什么¶

文件	重点
06-需求文档模板	目标 QPS、延迟目标、模型范围、成本约束
07-架构图与技术设计模板	网关、队列、推理池、缓存、监控、回滚
08-SLO与评测指标模板	P50/P95/P99、TTFT、tokens/s、GPU 利用率、OOM 率
09-压测与Benchmark模板	baseline vs 优化方案
10-成本报告模板	显存、GPU 数量、单千 token 成本
11-发布记录与回滚模板	灰度、回滚、版本切换
12-事故复盘模板	延迟抖动 / OOM / 路由异常事故
量化简历条目与项目包装模板	简历条目
30分钟技术面项目讲解稿模板	15-30 分钟讲解稿
15-AI基础设施完整交付包样板	一份可直接照着改成自己项目的完整交付包参考

核心指标：

P99 延迟
首 token 延迟（ TTFT ）
吞吐（tokens/s, req/s）
GPU 利用率
OOM 率
单千 token 成本
缓存命中率

四、8 周执行节奏¶

第 1-2 周：跑通 baseline¶

选框架
跑通单模型推理
记录基础延迟与吞吐

第 3-4 周：做第一轮优化¶

量化
批处理
KV Cache / Prefix Cache
路由

第 5-6 周：监控与可靠性¶

加 Prometheus / 日志 / Tracing
定义 SLO
做灰度和回滚策略

第 7-8 周：求职资产化¶

生成 benchmark 报告
写成本报告
补事故复盘
整理面试讲稿

五、面试官最关注什么¶

1. 你有没有真的测¶

必须有：

baseline
优化前后数据
测试环境说明
结论而不是截图

2. 你有没有理解系统权衡¶

你必须解释：

为什么提升了吞吐却可能恶化尾延迟
为什么某些量化会换来精度损失
为什么路由能降成本但会增加复杂度

3. 你有没有生产视角¶

你必须说明：

SLO 是什么
什么时候回滚
高峰期怎么降级
GPU 爆了怎么办

六、最推荐的第一条样板项目¶

样板：多模型推理服务 + 成本路由¶

最小目标：

小模型 / 中模型两级路由
流式输出
基础 benchmark
缓存策略
成本表
SLO 与回滚

这个项目能同时覆盖：

推理服务
系统设计
性能优化
成本控制

七、站内推荐搭配¶

八、验收标准¶

有真实 benchmark
有 3 个以上系统指标
有成本报告
有 SLO / 回滚 / 事故复盘
能清楚解释优化 trade-off
benchmark 原始数据、回滚条件和值班动作都能落盘

结论¶

AI 基础设施交付线最核心的，不是“会用 vLLM”，而是能证明你在性能、成本、稳定性之间做过真实权衡。