AI 项目证据链与作品集模板¶

适用对象：AI 算法岗、AI 工程岗、LLM/Agent 岗、AI 系统岗求职者
核心目标：把“我做过项目”升级成“我有一套能被面试官和招聘经理验证的证据”。

为什么这章很重要¶

AI Coding 越强，越多候选人都能在短时间内做出一个“看起来能跑”的 Demo。
真正拉开差距的，不再是“有没有项目页面”，而是下面这些东西你有没有：

清晰的问题定义
对照基线
可解释的指标
真实的压测与成本
失败案例与修复过程
稳定的系统设计
能在 3 分钟和 15 分钟两种粒度下讲清楚

如果缺这些，项目很容易被面试官判断为：

只是拼装；
只是调用现成 API ；
没有深入理解；
无法证明真实贡献。

一、什么叫“项目证据链”¶

项目证据链 = 一组相互支撑的材料，用来证明以下 5 件事：

这个问题是真实且值得解决的。
你知道正确的评估方式，而不是只看“能跑”。
你做过关键技术决策，并理解 trade-off 。
你能把系统做得稳定、可测、可解释。
这个项目能转化成简历、面试、实习和 offer 谈判中的硬证据。

二、每个高质量项目至少要交付什么¶

这一节列的不是“加分项”，而是高质量项目最少要能拿出来的证据底线。

2.1 一页项目摘要¶

必须包含：

项目名称
场景与目标用户
核心问题
技术栈
最关键的 3 个指标
你的具体职责
最终结果

推荐格式：

Text Only

项目：企业知识库 RAG 问答系统
场景：面向内部技术文档检索与问答
问题：原系统回答准确率低、延迟高、无法追溯来源
技术：BGE-M3 + 混合检索 + Reranker + Qwen + FastAPI + Redis
指标：Recall@5 / Faithfulness / P99 延迟
职责：负责检索链路、评测脚本、服务部署与缓存策略
结果：Recall@5 从 0.71 提升到 0.90；Faithfulness 从 0.62 提升到 0.87；P99 从 5.4s 降到 2.1s

2.2 架构图¶

至少画出：

用户请求入口
检索/模型/缓存/数据库/日志/监控
异常路径
发布与回滚点

面试时你能否 90 秒内讲清架构图，基本决定项目深挖时的第一印象。

2.3 评测设计¶

至少回答 4 个问题：

你怎么定义“效果变好了”？
你的 baseline 是什么？
离线评测和在线评测分别看什么？
你如何避免自己骗自己？

推荐表格：

维度	指标	Baseline	新方案	说明
检索	Recall@5	0.71	0.90	是否召回正确文档
生成	Faithfulness	0.62	0.87	是否忠于上下文
性能	P99 延迟	5.4s	2.1s	高峰时延
成本	单次请求成本	0.18 元	0.06 元	路由/缓存后下降

2.4 失败案例与边界条件¶

每个项目至少保留 3 类失败样例：

错召回 / 漏召回
幻觉 / 错工具调用
延迟抖动 / 超时 / 并发退化

面试官最爱问的不是“你会什么”，而是“你踩过什么坑”。

2.5 成本与资源¶

至少写清：

模型或服务调用成本
GPU / CPU / 内存需求
缓存命中前后成本差异
高并发时瓶颈在哪

如果你完全说不清成本，说明项目大概率还停留在 Demo 层。

2.6 稳定性与上线策略¶

至少要有：

SLI / SLO
告警条件
灰度发布
回滚方案
事故后的排查路径

三、面试官真正会拿什么来判断你¶

面试官关心什么	你要给什么证据
你是不是只是调 API	基线对比、架构图、评测脚本
你是不是真的做了核心部分	职责拆分、关键设计决策、代码/文档链接
你有没有工程意识	日志、监控、缓存、异常处理、回滚
你有没有系统思维	吞吐、延迟、成本、扩展性 trade-off
你是不是会复盘	失败案例、瓶颈分析、下一步优化

四、推荐你固定沉淀的 8 个项目材料¶

项目一页摘要
架构图
指标对比表
压测或 benchmark 结果
失败案例表
成本估算表
Git 仓库或站内文档链接
3 分钟版 / 15 分钟版讲解稿

五、可直接套用的模板¶

下面这些模板的目标是让你少花时间想格式，多花时间补真实内容和量化结果。

5.1 项目一页摘要模板¶

Markdown

## 项目名称

- 场景：
- 用户：
- 核心问题：
- 方案概述：
- 我的职责：
- 技术栈：
- 指标：
  - 离线：
  - 在线：
  - 性能：
  - 成本：
- 最终结果：
- 最大失败案例：
- 下一步优化：

5.2 技术决策模板¶

Markdown

## 关键技术决策

### 决策 1：为什么选 X 而不是 Y
- 备选方案：
- 评估维度：效果 / 延迟 / 成本 / 复杂度 / 可维护性
- 最终选择：
- 原因：
- 代价：

### 决策 2：上线前如何验证
- 离线评测：
- 人工抽检：
- 压测：
- 灰度策略：
- 回滚条件：

5.3 失败案例模板¶

Markdown

## Bad Case

- 输入：
- 错误表现：
- 根因：
- 修复方式：
- 修复后效果：
- 还有什么没解决：

六、适合你优先做成“作品集级别”的 3 类项目¶

不是所有项目都值得深包，优先把最能体现岗位密度和工程深度的三类项目做成标准资产。

6.1 RAG / Agent 项目¶

最低要求不是“能回答问题”，而是：

有检索指标
有事实性评估
有缓存/成本优化
有异常与安全防护

推荐参考：

6.2 AI 系统 / 推理服务项目¶

最低要求：

有吞吐与延迟指标
有并发测试
有模型路由或缓存策略
有资源与成本测算

推荐参考：

6.3 端侧 AI / 多模态 / 3D 视觉项目¶

仅当你明确冲大疆/影石时提高优先级。
一旦做，就不要只做“论文复现截图”，而要给出：

数据来源
精度或质量指标
推理速度
部署环境
实际场景价值

推荐参考：

七、如何把这个站点本身变成你的作品集资产¶

你已经有一个巨大的优势：yz520gzy.top 本身就是作品集基础设施。
正确用法不是只把它当“笔记网站”，而是把它升级成：

项目说明书库
技术复盘库
benchmark 报告库
求职材料支撑库

建议每个重点项目都在站内保留：

一篇项目总览
一篇评测与 benchmark 文档
一篇故障或 bad case 复盘
一页对外展示摘要

八、自检清单¶

我能用 30 秒说清项目做什么
我能用 3 分钟说清系统结构和结果
我能用 15 分钟讲清关键权衡、失败案例和优化过程
我有至少 1 个明确 baseline
我知道项目最贵的资源消耗在哪里
我能解释为什么我的结果可信
我能说出如果线上出问题该怎么回滚

九、结论¶

2028 年高质量 AI 岗位不会被“谁更会写提示词”决定，而会被“谁更能证明自己做出了真实价值”决定。
项目证据链的作用，就是把你的学习、研究、工程和求职叙事连接起来。