AI 基础设施交付线¶
面向岗位:AI 系统工程师、推理服务工程师、AI Infra 工程师、性能优化工程师
一、这条线的目标¶
让你最终拿出一个能体现系统深度的成果包,证明你能处理:
- 延迟
- 吞吐
- 显存
- 成本
- 可观测性
- 回滚与稳定性
这条线是你 2028 年前最抗替代、也最容易拉高上限的一条线。
二、适合做什么项目¶
优先项目:
- 高性能 LLM 推理服务
- 多模型路由与成本优化服务
- vLLM / TensorRT / Triton 推理 benchmark 项目
- 流式推理 + 批处理 + 缓存协同服务
推荐参考:
站内现有项目绑定¶
| 目标项目 | 站内起点 | 这条交付线要补的材料 |
|---|---|---|
| 推理服务部署 | LLM学习/03-系统与工程/03-推理服务部署 | 延迟/吞吐基线、版本切换、回滚预案 |
| 大模型部署 | LLM应用/11-大模型部署 | 部署拓扑、容量规划、成本表、发布记录 |
| 模型优化实战 | 模型优化/06-实战项目 | benchmark、优化前后对比、OOM/抖动复盘 |
| 边缘部署 | 模型优化/05-边缘部署 | 设备约束、时延预算、精度与功耗权衡 |
| 事故与可靠性 | AI系统设计面试/08-SLO错误预算与事故复盘 | SLO、错误预算、演练计划、事故闭环 |
三、最终必须交付什么¶
| 文件 | 重点 |
|---|---|
| 06-需求文档模板 | 目标 QPS、延迟目标、模型范围、成本约束 |
| 07-架构图与技术设计模板 | 网关、队列、推理池、缓存、监控、回滚 |
| 08-SLO与评测指标模板 | P50/P95/P99、TTFT、tokens/s、GPU 利用率、OOM 率 |
| 09-压测与Benchmark模板 | baseline vs 优化方案 |
| 10-成本报告模板 | 显存、GPU 数量、单千 token 成本 |
| 11-发布记录与回滚模板 | 灰度、回滚、版本切换 |
| 12-事故复盘模板 | 延迟抖动 / OOM / 路由异常事故 |
| 量化简历条目与项目包装模板 | 简历条目 |
| 30分钟技术面项目讲解稿模板 | 15-30 分钟讲解稿 |
| 15-AI基础设施完整交付包样板 | 一份可直接照着改成自己项目的完整交付包参考 |
核心指标:
- P99 延迟
- 首 token 延迟( TTFT )
- 吞吐(tokens/s, req/s)
- GPU 利用率
- OOM 率
- 单千 token 成本
- 缓存命中率
四、8 周执行节奏¶
第 1-2 周:跑通 baseline¶
- 选框架
- 跑通单模型推理
- 记录基础延迟与吞吐
第 3-4 周:做第一轮优化¶
- 量化
- 批处理
- KV Cache / Prefix Cache
- 路由
第 5-6 周:监控与可靠性¶
- 加 Prometheus / 日志 / Tracing
- 定义 SLO
- 做灰度和回滚策略
第 7-8 周:求职资产化¶
- 生成 benchmark 报告
- 写成本报告
- 补事故复盘
- 整理面试讲稿
五、面试官最关注什么¶
1. 你有没有真的测¶
必须有:
- baseline
- 优化前后数据
- 测试环境说明
- 结论而不是截图
2. 你有没有理解系统权衡¶
你必须解释:
- 为什么提升了吞吐却可能恶化尾延迟
- 为什么某些量化会换来精度损失
- 为什么路由能降成本但会增加复杂度
3. 你有没有生产视角¶
你必须说明:
- SLO 是什么
- 什么时候回滚
- 高峰期怎么降级
- GPU 爆了怎么办
六、最推荐的第一条样板项目¶
样板:多模型推理服务 + 成本路由¶
最小目标:
- 小模型 / 中模型两级路由
- 流式输出
- 基础 benchmark
- 缓存策略
- 成本表
- SLO 与回滚
这个项目能同时覆盖:
- 推理服务
- 系统设计
- 性能优化
- 成本控制
七、站内推荐搭配¶
- 系统设计:AI系统设计面试
- 推理优化:模型优化
- 工程化:MLOps与AI工程化
- 事故能力:08-SLO错误预算与事故复盘
- 完整样板:15-AI基础设施完整交付包样板
八、验收标准¶
- 有真实 benchmark
- 有 3 个以上系统指标
- 有成本报告
- 有 SLO / 回滚 / 事故复盘
- 能清楚解释优化 trade-off
- benchmark 原始数据、回滚条件和值班动作都能落盘
结论¶
AI 基础设施交付线最核心的,不是“会用 vLLM”,而是能证明你在性能、成本、稳定性之间做过真实权衡。