跳转至

AI 应用工程交付线

面向岗位:RAG 工程师、Agent 工程师、LLM 应用工程师、企业 AI 应用工程师


一、这条线的目标

最终交付一个可以支撑求职的 AI 应用成果包,证明你不只是“会调 API”,而是能做:

  • 需求定义
  • 应用架构设计
  • 评测闭环
  • 安全与护栏
  • 发布与回滚
  • 业务价值表达

二、适合做什么项目

优先项目:

  1. 企业知识库 RAG
  2. Deep Research / 报告生成 Agent
  3. 代码助手 / 学习助手 / 流程 Agent
  4. 多 Agent 协作系统

推荐参考:

站内现有项目绑定

目标项目 站内起点 这条交付线要补的材料
企业知识库 RAG LLM应用/实战项目/01-RAG知识库问答系统 评测集、RAGAS/人工抽检、SLO、成本、bad case 复盘
Agent 工作流 LLM应用/实战项目/02-AI-Agent工作流 工具调用成功率、回滚策略、发布记录、面试讲稿
Deep Research Agent AI Agent开发实战/13-深度研究Agent 多步搜索评测、报告质量评审、失败样例、产品化说明
手写 Agent 框架 AI Agent开发实战/11-从零构建Agent框架 架构图、协议设计、性能对比、扩展性 trade-off
Agent 生产部署 AI Agent开发实战/06-Agent生产部署 灰度、监控、回滚、线上事故复盘

三、最终必须交付什么

文件 你要回答的问题
06-需求文档模板 用户是谁、痛点是什么、为什么要做
07-架构图与技术设计模板 检索、模型、缓存、日志、监控怎么串起来
08-SLO与评测指标模板 怎么定义效果变好、系统稳定、成本可控
09-压测与Benchmark模板 baseline 是什么,RAGAS / LLM-as-Judge 怎么跑
10-成本报告模板 单请求成本、缓存收益、模型路由收益
11-发布记录与回滚模板 如何灰度、如何回滚
12-事故复盘模板 一个真实 bad case 或线上事故
量化简历条目与项目包装模板 可直接进简历的量化条目
项目交付资产打包清单 GitHub / 文档 / 演示链接
14-AI应用工程完整交付包样板 一份可直接照着改成自己项目的完整交付包参考

关键指标建议至少包含:

  • 检索质量:Recall@K / Context Precision
  • 生成质量:Faithfulness / Relevancy
  • 任务质量:任务成功率 / 人工抽检通过率
  • 系统指标:P95/P99、错误率
  • 成本指标:单请求成本、缓存命中率

四、8 周执行节奏

第 1-2 周:需求与最小系统

  • 确定场景、目标用户、输入输出
  • 跑通最小可用版本
  • 确定 baseline

第 3-4 周:评测与质量

  • 建评测集
  • 跑自动评测
  • 做人工抽检
  • 建 bad case 表

第 5-6 周:工程化与稳定性

  • 加缓存、鉴权、日志、可观测性
  • 定义 SLO
  • 做灰度与回滚策略

第 7-8 周:求职资产化

  • 写简历条目
  • 写 STAR 讲稿
  • 准备演示链接
  • 做一次完整项目复盘

五、面试官最关心什么

1. 你是不是只做了 Demo

用这些材料证明不是:

  • baseline 对比
  • 评测报告
  • 成本报告
  • 发布记录

2. 你是不是理解了 trade-off

你必须能解释:

  • 为什么选 RAG 不选微调
  • 为什么选这个 embedding / reranker
  • 为什么这样分 chunk
  • 为什么这样做缓存与路由

3. 你有没有真实工程意识

你必须能说清:

  • 用户量上来后瓶颈在哪
  • 如何限流与回滚
  • 如何处理 bad case

六、最推荐的第一条样板项目

样板 1:企业技术知识库 RAG

理由:

  • 和当前教程库最契合
  • 容易做出评测闭环
  • 面试可讲性强
  • 能衍生出 Agent、评测、系统设计、可观测性、安全等多个话题

样板 2:Deep Research Agent

理由:

  • 差异化更强
  • 更接近 2026-2028 的热门岗位
  • 可以体现规划、搜索、评测、报告生成能力

七、站内推荐搭配


八、验收标准

  • 有一个能演示的系统
  • 有 baseline 和评测报告
  • 有 SLO 和发布策略
  • 有至少 1 个故障或 bad case 复盘
  • 有简历条目和讲解稿
  • 交付目录能按 13-三条交付线样板目录 直接整理出来

结论

AI 应用工程交付线的关键,不是“做出一个聊天页”,而是证明你能把一个 AI 应用从原型推进到可评估、可发布、可复盘的状态。