LLM 与推荐系统¶
这一章不把
LLM + 推荐写成一个时髦标签,而是把它放回真实工业链路里看。2028 年更有价值的方向,不是泛泛而谈“用大模型做推荐”,而是理解它在搜索 / 推荐 / 广告 / 内容理解 / 用户意图 / 评测 / RL里的具体位置。
为什么这章必须重写¶
很多旧内容把 LLM 推荐 写成:
- 用 prompt 让模型直接推荐
- 用 LoRA 微调一个推荐模型
- 做个对话式 demo
这些方向不是没价值,但不够贴近国内大厂的真实门槛。真实岗位更常见的是:
- 搜索与推荐融合
- 用户 query / intent 理解
- 内容和商品语义表示
- 生成式排序特征
- 创意、摘要、解释与理由生成
- RL / 奖励建模 / 评测
- 高并发推理和成本治理
所以这章的核心目标是:把 LLM 与推荐系统 写成可用于就业的能力图谱。
学习目标¶
- 理解 LLM 在推荐链路中的 6 个高价值插入点
- 区分“能做 demo”和“能进生产”的差别
- 明确搜推 + LLM 岗位真正看重的工程和算法能力
- 知道该做什么项目,才足够支撑 2028 面试
先看大局:推荐系统没有消失,只是被重写¶
到 2028,推荐系统不会被大模型替代,而是会形成新的分层:
真正的变化是:
- 传统 ID 信号仍然重要
- 语义理解能力大幅增强
- 搜索与推荐边界继续融合
- 生成式模块开始进入在线链路,但必须受延迟和成本约束
LLM 在推荐中的 6 个高价值位置¶
这 6 个位置不是平均用力的关系,真正落地时往往要按收益、风险和成本优先级来排。
1. 内容理解与表示¶
这是最稳、最容易落地的一层。
典型用途:
- 商品标题/描述编码
- 视频、图文、评论语义表示
- 冷启动物品建模
- 类目与标签增强
这层价值很高,因为它能直接改善:
- 新内容冷启动
- 语义召回
- 类目泛化
- query-item matching
你需要掌握:
- embedding 模型与向量检索
- ID 与 text 特征融合
- 召回评估指标
2. 用户 query 与意图理解¶
这在搜索推荐融合岗位里非常关键。
常见任务:
- query rewrite
- query 分类
- 需求补全
- 意图识别
- 多轮上下文理解
这层比“直接让大模型推荐”更实用,因为它能直接服务于现有检索与排序系统。
面试里很容易被追问:
- rewrite 做过度会怎样
- 怎么评估 rewrite 是不是提升了结果
- 如何做 fallback
- 延迟预算怎么控制
3. 召回与候选生成¶
LLM 通常不会直接取代大规模召回,但会增强召回。
典型做法:
- 用语义向量做召回
- 用生成式 query 扩展召回源
- 用用户历史总结生成兴趣摘要
- 用多模态表示增强候选覆盖
你需要理解:
- 双塔 / 多路召回
- ANN 检索
- embedding 更新与索引刷新
- 覆盖率、召回率、时延权衡
4. 排序与重排¶
这一层最容易被误解。真实生产中,大模型很少直接承担主排序器,而更常作为:
- 重排器
- 特征生成器
- 解释器
- judge 模块
因为主排序链路常常有极严格的时延和 QPS 约束。
更现实的做法是:
- 小模型做主排序
- LLM 提供语义特征、用户意图特征、解释特征
- 在高价值场景做有限范围重排
5. 生成式解释、摘要和创意¶
这是内容平台、电商、广告都很重视的一层。
包括:
- 推荐理由生成
- 商品摘要
- 评论总结
- 广告创意生成
- 搜索结果解释
这类任务的工程重点不是“会不会生成”,而是:
- 幻觉控制
- 品控和审核
- 风格一致性
- 在线实验设计
6. 在线优化、评测与 RL¶
这是最能拉开档次的方向之一,也是 2028 很值得提前布局的能力。
你应该至少知道:
- reward model 在推荐里的角色
- 如何把在线行为信号映射为优化目标
- 如何区分短期点击和长期满意度
- 如何设计 judge、离线评测和 online A/B
真正的高价值问题不是“模型能不能推荐”,而是:
传统推荐与 LLM 推荐不是二选一¶
最危险的误区是把它们对立起来。
更准确的理解:
| 能力 | 传统推荐 | LLM/多模态能力 |
|---|---|---|
| 大规模用户行为建模 | 强 | 通常配合使用 |
| 冷启动 | 弱 | 强 |
| 语义理解 | 弱 | 强 |
| 时延与成本 | 优 | 差一些 |
| 可控性 | 高 | 需要额外治理 |
| 生成式交互 | 弱 | 强 |
2028 更现实的工业方案仍然是融合:
- 行为信号
- 语义表示
- 多模态特征
- 业务规则
- 在线实验
一个真实可落地的系统图¶
用户请求
↓
Query/Intent 理解
↓
多路召回
├─ CF/图召回
├─ 语义向量召回
└─ 热门/规则召回
↓
粗排
↓
精排
↓
LLM 重排/解释/摘要
↓
结果返回与日志上报
↓
离线训练 / 在线评测 / 策略优化
这张图里最值得你准备的,不是单个模块,而是模块之间的接口与权衡。
2028 岗位真正会看什么¶
如果你想打的是高门槛岗位,面试官通常不会只听概念,而会从下面这些层面判断你是不是做过真工程。
路线 1:推荐算法 / 搜推算法¶
核心要求:
- 召回、排序、特征工程
- 样本构造与负采样
- 长短期兴趣建模
- 离线与在线指标理解
如果再叠加 LLM,通常还会看:
- embedding / 多模态表征
- query understanding
- 生成式特征
- RL 或 reward 相关理解
路线 2:搜索推荐 + LLM 应用工程¶
核心要求:
- 检索系统
- 向量数据库或 ANN
- RAG / query rewrite
- 服务化、缓存、降级
- 评测和 AB
这条路线对工程表达要求更高。
路线 3:推荐基础设施 / AI Infra¶
核心要求:
- 大规模特征与索引服务
- 推理服务部署
- 延迟与吞吐优化
- 批流一体、特征平台、在线实验平台
如果你面向这一条线,单纯会算法不够。
必须掌握的 8 个问题¶
- 冷启动怎么做
- query rewrite 为什么可能伤害效果
- LLM 排序为什么难直接上线
- 如何做离线与在线评测对齐
- 如何处理延迟、成本和效果的三角关系
- 为什么推荐系统仍然需要传统 ID 信号
- 如何设计生成式解释的审核与回滚
- 如何把用户长期满意度纳入优化目标
这 8 个问题,基本能覆盖大部分面试追问。
工程落地的 5 个关键约束¶
推荐系统一旦和 LLM 结合,工程约束会比传统推荐更复杂,这 5 个点通常绕不过去。
1. 延迟¶
推荐链路延迟预算非常紧。你必须知道哪些模块可以在线,哪些模块只能离线。
典型策略¶
- 离线预计算 embedding
- 小模型主排序
- 高价值请求才触发 LLM 重排
- 缓存热点结果
2. 成本¶
生成式模块一旦进入高 QPS 链路,成本会迅速失控。
你至少要会谈:
- 模型分层
- 量化
- 缓存
- 路由策略
3. 可控性¶
生成式解释和创意会面临:
- 不稳定
- 幻觉
- 风格飘移
- 合规风险
所以需要:
- 模板约束
- 规则校验
- 审核链路
4. 评测¶
离线高分不等于线上高收益。
你需要区分:
- 离线指标:Recall、NDCG、AUC、MRR
- 在线指标:CTR、CVR、时长、GMV、留存、投诉率
5. 回滚¶
任何生成式模块都必须能快速关闭或降级。
常见方案:
- 开关控制
- fallback 到旧策略
- 高频 query 白名单
- 熔断阈值
你应该做什么项目¶
如果你想投 2028 的搜推 + LLM 岗位,建议至少做下面 3 类中的 2 类。
项目 A:搜索推荐融合系统¶
建议包含:
- query rewrite
- 向量召回
- 规则召回
- 排序与重排
- AB 指标面板
项目 B:内容理解与冷启动增强¶
建议包含:
- 商品/视频语义 embedding
- 新内容冷启动
- 多模态特征
- 离线评测
项目 C:推荐解释与评测平台¶
建议包含:
- 推荐理由生成
- judge 或规则审查
- 投诉样本分析
- 失败案例回放
这三类项目比泛泛而谈“做了个 movie recommender”强得多。
简历怎么写更有效¶
差的写法:
好的写法:
再进一步:
面试表达框架¶
推荐按下面顺序讲:
- 业务问题是什么
- 你把 LLM 放在链路哪个位置
- 为什么放在那里而不是别处
- 如何做延迟和成本控制
- 如何评测效果
- 如果线上出问题怎么回滚
这比单纯讲模型结构更像真实工程师。
学习顺序建议¶
- 先补齐传统推荐:召回、排序、评测
- 再学 embedding、向量检索、query understanding
- 再做搜索推荐融合项目
- 最后补 reward、judge、online optimization
如果顺序反了,很容易只会讲 demo,不会讲系统。
本章小结¶
LLM 与推荐系统的主战场不是“让大模型直接推荐”,而是“让语义能力进入真实搜推链路”- 2028 最值得提前布局的是
搜索推荐融合 + 语义表示 + 评测/RL + 工程治理 - 高价值候选人能讲清楚模块位置、延迟成本、评测方法和回滚机制
下一步¶
- 继续看 17-现代推荐系统架构
- 再看 22-搜索推荐与LLM岗位路线
- 结合 简历与求职/09-岗位JD反向拆解与投递矩阵 准备投递