LLM 与推荐系统¶

这一章不把 LLM + 推荐 写成一个时髦标签，而是把它放回真实工业链路里看。2028 年更有价值的方向，不是泛泛而谈“用大模型做推荐”，而是理解它在 搜索 / 推荐 / 广告 / 内容理解 / 用户意图 / 评测 / RL 里的具体位置。

为什么这章必须重写¶

很多旧内容把 LLM 推荐 写成：

用 prompt 让模型直接推荐
用 LoRA 微调一个推荐模型
做个对话式 demo

这些方向不是没价值，但不够贴近国内大厂的真实门槛。真实岗位更常见的是：

搜索与推荐融合
用户 query / intent 理解
内容和商品语义表示
生成式排序特征
创意、摘要、解释与理由生成
RL / 奖励建模 / 评测
高并发推理和成本治理

所以这章的核心目标是：把 LLM 与推荐系统 写成可用于就业的能力图谱。

学习目标¶

理解 LLM 在推荐链路中的 6 个高价值插入点
区分“能做 demo”和“能进生产”的差别
明确搜推 + LLM 岗位真正看重的工程和算法能力
知道该做什么项目，才足够支撑 2028 面试

先看大局：推荐系统没有消失，只是被重写¶

到 2028，推荐系统不会被大模型替代，而是会形成新的分层：

Text Only

用户意图理解
    ↓
召回 / 搜索 / 检索增强
    ↓
粗排 / 精排 / 重排
    ↓
生成式解释 / 创意 / 交互反馈
    ↓
在线评测 / 策略优化 / RL

真正的变化是：

传统 ID 信号仍然重要
语义理解能力大幅增强
搜索与推荐边界继续融合
生成式模块开始进入在线链路，但必须受延迟和成本约束

LLM 在推荐中的 6 个高价值位置¶

这 6 个位置不是平均用力的关系，真正落地时往往要按收益、风险和成本优先级来排。

1. 内容理解与表示¶

这是最稳、最容易落地的一层。

典型用途：

商品标题/描述编码
视频、图文、评论语义表示
冷启动物品建模
类目与标签增强

这层价值很高，因为它能直接改善：

新内容冷启动
语义召回
类目泛化
query-item matching

你需要掌握：

embedding 模型与向量检索
ID 与 text 特征融合
召回评估指标

2. 用户 query 与意图理解¶

这在搜索推荐融合岗位里非常关键。

常见任务：

query rewrite
query 分类
需求补全
意图识别
多轮上下文理解

这层比“直接让大模型推荐”更实用，因为它能直接服务于现有检索与排序系统。

面试里很容易被追问：

rewrite 做过度会怎样
怎么评估 rewrite 是不是提升了结果
如何做 fallback
延迟预算怎么控制

3. 召回与候选生成¶

LLM 通常不会直接取代大规模召回，但会增强召回。

典型做法：

用语义向量做召回
用生成式 query 扩展召回源
用用户历史总结生成兴趣摘要
用多模态表示增强候选覆盖

你需要理解：

双塔 / 多路召回
ANN 检索
embedding 更新与索引刷新
覆盖率、召回率、时延权衡

4. 排序与重排¶

这一层最容易被误解。真实生产中，大模型很少直接承担主排序器，而更常作为：

重排器
特征生成器
解释器
judge 模块

因为主排序链路常常有极严格的时延和 QPS 约束。

更现实的做法是：

小模型做主排序
LLM 提供语义特征、用户意图特征、解释特征
在高价值场景做有限范围重排

5. 生成式解释、摘要和创意¶

这是内容平台、电商、广告都很重视的一层。

包括：

推荐理由生成
商品摘要
评论总结
广告创意生成
搜索结果解释

这类任务的工程重点不是“会不会生成”，而是：

幻觉控制
品控和审核
风格一致性
在线实验设计

6. 在线优化、评测与 RL¶

这是最能拉开档次的方向之一，也是 2028 很值得提前布局的能力。

你应该至少知道：

reward model 在推荐里的角色
如何把在线行为信号映射为优化目标
如何区分短期点击和长期满意度
如何设计 judge、离线评测和 online A/B

真正的高价值问题不是“模型能不能推荐”，而是：

Text Only

模型的推荐是否真的提升了长期业务指标，而且成本、时延、风险都可接受。

传统推荐与 LLM 推荐不是二选一¶

最危险的误区是把它们对立起来。

更准确的理解：

能力	传统推荐	LLM/多模态能力
大规模用户行为建模	强	通常配合使用
冷启动	弱	强
语义理解	弱	强
时延与成本	优	差一些
可控性	高	需要额外治理
生成式交互	弱	强

2028 更现实的工业方案仍然是融合：

行为信号
语义表示
多模态特征
业务规则
在线实验

一个真实可落地的系统图¶

Text Only

用户请求
   ↓
Query/Intent 理解
   ↓
多路召回
├─ CF/图召回
├─ 语义向量召回
└─ 热门/规则召回
   ↓
粗排
   ↓
精排
   ↓
LLM 重排/解释/摘要
   ↓
结果返回与日志上报
   ↓
离线训练 / 在线评测 / 策略优化

这张图里最值得你准备的，不是单个模块，而是模块之间的接口与权衡。

2028 岗位真正会看什么¶

如果你想打的是高门槛岗位，面试官通常不会只听概念，而会从下面这些层面判断你是不是做过真工程。

路线 1：推荐算法 / 搜推算法¶

核心要求：

召回、排序、特征工程
样本构造与负采样
长短期兴趣建模
离线与在线指标理解

如果再叠加 LLM，通常还会看：

embedding / 多模态表征
query understanding
生成式特征
RL 或 reward 相关理解

路线 2：搜索推荐 + LLM 应用工程¶

核心要求：

检索系统
向量数据库或 ANN
RAG / query rewrite
服务化、缓存、降级
评测和 AB

这条路线对工程表达要求更高。

路线 3：推荐基础设施 / AI Infra¶

核心要求：

大规模特征与索引服务
推理服务部署
延迟与吞吐优化
批流一体、特征平台、在线实验平台

如果你面向这一条线，单纯会算法不够。

必须掌握的 8 个问题¶

冷启动怎么做
query rewrite 为什么可能伤害效果
LLM 排序为什么难直接上线
如何做离线与在线评测对齐
如何处理延迟、成本和效果的三角关系
为什么推荐系统仍然需要传统 ID 信号
如何设计生成式解释的审核与回滚
如何把用户长期满意度纳入优化目标

这 8 个问题，基本能覆盖大部分面试追问。

工程落地的 5 个关键约束¶

推荐系统一旦和 LLM 结合，工程约束会比传统推荐更复杂，这 5 个点通常绕不过去。

1. 延迟¶

推荐链路延迟预算非常紧。你必须知道哪些模块可以在线，哪些模块只能离线。

典型策略¶

离线预计算 embedding
小模型主排序
高价值请求才触发 LLM 重排
缓存热点结果

2. 成本¶

生成式模块一旦进入高 QPS 链路，成本会迅速失控。

你至少要会谈：

模型分层
量化
缓存
路由策略

3. 可控性¶

生成式解释和创意会面临：

不稳定
幻觉
风格飘移
合规风险

所以需要：

模板约束
规则校验
审核链路

4. 评测¶

离线高分不等于线上高收益。

你需要区分：

离线指标：Recall、NDCG、AUC、MRR
在线指标：CTR、CVR、时长、GMV、留存、投诉率

5. 回滚¶

任何生成式模块都必须能快速关闭或降级。

常见方案：

开关控制
fallback 到旧策略
高频 query 白名单
熔断阈值

你应该做什么项目¶

如果你想投 2028 的搜推 + LLM 岗位，建议至少做下面 3 类中的 2 类。

项目 A：搜索推荐融合系统¶

建议包含：

query rewrite
向量召回
规则召回
排序与重排
AB 指标面板

项目 B：内容理解与冷启动增强¶

建议包含：

商品/视频语义 embedding
新内容冷启动
多模态特征
离线评测

项目 C：推荐解释与评测平台¶

建议包含：

推荐理由生成
judge 或规则审查
投诉样本分析
失败案例回放

这三类项目比泛泛而谈“做了个 movie recommender”强得多。

简历怎么写更有效¶

差的写法：

Text Only

使用大模型优化推荐系统效果。

好的写法：

Text Only

为搜索推荐链路增加 query rewrite 与语义召回模块，设计 fallback 与开关机制，并用离线 NDCG 和线上 CTR 评估效果。

再进一步：

Text Only

构建商品语义表示与冷启动增强链路，将文本/图像特征与原有 ID 特征融合，提升新内容前 24 小时曝光与点击表现。

面试表达框架¶

推荐按下面顺序讲：

业务问题是什么
你把 LLM 放在链路哪个位置
为什么放在那里而不是别处
如何做延迟和成本控制
如何评测效果
如果线上出问题怎么回滚

这比单纯讲模型结构更像真实工程师。

学习顺序建议¶

先补齐传统推荐：召回、排序、评测
再学 embedding、向量检索、query understanding
再做搜索推荐融合项目
最后补 reward、judge、online optimization

如果顺序反了，很容易只会讲 demo，不会讲系统。

本章小结¶

LLM 与推荐系统 的主战场不是“让大模型直接推荐”，而是“让语义能力进入真实搜推链路”
2028 最值得提前布局的是 搜索推荐融合 + 语义表示 + 评测/RL + 工程治理
高价值候选人能讲清楚模块位置、延迟成本、评测方法和回滚机制

LLM 与推荐系统¶

为什么这章必须重写¶

学习目标¶

先看大局：推荐系统没有消失，只是被重写¶

LLM 在推荐中的 6 个高价值位置¶

1. 内容理解与表示¶

2. 用户 query 与意图理解¶

3. 召回与候选生成¶

4. 排序与重排¶

5. 生成式解释、摘要和创意¶

6. 在线优化、评测与 RL¶

传统推荐与 LLM 推荐不是二选一¶

一个真实可落地的系统图¶

2028 岗位真正会看什么¶

路线 1：推荐算法 / 搜推算法¶

路线 2：搜索推荐 + LLM 应用工程¶

路线 3：推荐基础设施 / AI Infra¶

必须掌握的 8 个问题¶

工程落地的 5 个关键约束¶

1. 延迟¶

典型策略¶

2. 成本¶

3. 可控性¶

4. 评测¶

5. 回滚¶

你应该做什么项目¶

项目 A：搜索推荐融合系统¶

项目 B：内容理解与冷启动增强¶

项目 C：推荐解释与评测平台¶

简历怎么写更有效¶

面试表达框架¶

学习顺序建议¶

本章小结¶

下一步¶