跳转至

AI 基础设施交付线

面向岗位:AI 系统工程师、推理服务工程师、AI Infra 工程师、性能优化工程师


一、这条线的目标

让你最终拿出一个能体现系统深度的成果包,证明你能处理:

  • 延迟
  • 吞吐
  • 显存
  • 成本
  • 可观测性
  • 回滚与稳定性

这条线是你 2028 年前最抗替代、也最容易拉高上限的一条线。


二、适合做什么项目

优先项目:

  1. 高性能 LLM 推理服务
  2. 多模型路由与成本优化服务
  3. vLLM / TensorRT / Triton 推理 benchmark 项目
  4. 流式推理 + 批处理 + 缓存协同服务

推荐参考:

站内现有项目绑定

目标项目 站内起点 这条交付线要补的材料
推理服务部署 LLM学习/03-系统与工程/03-推理服务部署 延迟/吞吐基线、版本切换、回滚预案
大模型部署 LLM应用/11-大模型部署 部署拓扑、容量规划、成本表、发布记录
模型优化实战 模型优化/06-实战项目 benchmark、优化前后对比、OOM/抖动复盘
边缘部署 模型优化/05-边缘部署 设备约束、时延预算、精度与功耗权衡
事故与可靠性 AI系统设计面试/08-SLO错误预算与事故复盘 SLO、错误预算、演练计划、事故闭环

三、最终必须交付什么

文件 重点
06-需求文档模板 目标 QPS、延迟目标、模型范围、成本约束
07-架构图与技术设计模板 网关、队列、推理池、缓存、监控、回滚
08-SLO与评测指标模板 P50/P95/P99、TTFT、tokens/s、GPU 利用率、OOM 率
09-压测与Benchmark模板 baseline vs 优化方案
10-成本报告模板 显存、GPU 数量、单千 token 成本
11-发布记录与回滚模板 灰度、回滚、版本切换
12-事故复盘模板 延迟抖动 / OOM / 路由异常事故
量化简历条目与项目包装模板 简历条目
30分钟技术面项目讲解稿模板 15-30 分钟讲解稿
15-AI基础设施完整交付包样板 一份可直接照着改成自己项目的完整交付包参考

核心指标:

  • P99 延迟
  • 首 token 延迟( TTFT )
  • 吞吐(tokens/s, req/s)
  • GPU 利用率
  • OOM 率
  • 单千 token 成本
  • 缓存命中率

四、8 周执行节奏

第 1-2 周:跑通 baseline

  • 选框架
  • 跑通单模型推理
  • 记录基础延迟与吞吐

第 3-4 周:做第一轮优化

  • 量化
  • 批处理
  • KV Cache / Prefix Cache
  • 路由

第 5-6 周:监控与可靠性

  • 加 Prometheus / 日志 / Tracing
  • 定义 SLO
  • 做灰度和回滚策略

第 7-8 周:求职资产化

  • 生成 benchmark 报告
  • 写成本报告
  • 补事故复盘
  • 整理面试讲稿

五、面试官最关注什么

1. 你有没有真的测

必须有:

  • baseline
  • 优化前后数据
  • 测试环境说明
  • 结论而不是截图

2. 你有没有理解系统权衡

你必须解释:

  • 为什么提升了吞吐却可能恶化尾延迟
  • 为什么某些量化会换来精度损失
  • 为什么路由能降成本但会增加复杂度

3. 你有没有生产视角

你必须说明:

  • SLO 是什么
  • 什么时候回滚
  • 高峰期怎么降级
  • GPU 爆了怎么办

六、最推荐的第一条样板项目

样板:多模型推理服务 + 成本路由

最小目标:

  • 小模型 / 中模型两级路由
  • 流式输出
  • 基础 benchmark
  • 缓存策略
  • 成本表
  • SLO 与回滚

这个项目能同时覆盖:

  • 推理服务
  • 系统设计
  • 性能优化
  • 成本控制

七、站内推荐搭配


八、验收标准

  • 有真实 benchmark
  • 有 3 个以上系统指标
  • 有成本报告
  • 有 SLO / 回滚 / 事故复盘
  • 能清楚解释优化 trade-off
  • benchmark 原始数据、回滚条件和值班动作都能落盘

结论

AI 基础设施交付线最核心的,不是“会用 vLLM”,而是能证明你在性能、成本、稳定性之间做过真实权衡。