跳转至

LLM 与推荐系统

这一章不把 LLM + 推荐 写成一个时髦标签,而是把它放回真实工业链路里看。2028 年更有价值的方向,不是泛泛而谈“用大模型做推荐”,而是理解它在 搜索 / 推荐 / 广告 / 内容理解 / 用户意图 / 评测 / RL 里的具体位置。

为什么这章必须重写

很多旧内容把 LLM 推荐 写成:

  • 用 prompt 让模型直接推荐
  • 用 LoRA 微调一个推荐模型
  • 做个对话式 demo

这些方向不是没价值,但不够贴近国内大厂的真实门槛。真实岗位更常见的是:

  • 搜索与推荐融合
  • 用户 query / intent 理解
  • 内容和商品语义表示
  • 生成式排序特征
  • 创意、摘要、解释与理由生成
  • RL / 奖励建模 / 评测
  • 高并发推理和成本治理

所以这章的核心目标是:把 LLM 与推荐系统 写成可用于就业的能力图谱。

学习目标

  • 理解 LLM 在推荐链路中的 6 个高价值插入点
  • 区分“能做 demo”和“能进生产”的差别
  • 明确搜推 + LLM 岗位真正看重的工程和算法能力
  • 知道该做什么项目,才足够支撑 2028 面试

先看大局:推荐系统没有消失,只是被重写

到 2028,推荐系统不会被大模型替代,而是会形成新的分层:

Text Only
用户意图理解
召回 / 搜索 / 检索增强
粗排 / 精排 / 重排
生成式解释 / 创意 / 交互反馈
在线评测 / 策略优化 / RL

真正的变化是:

  • 传统 ID 信号仍然重要
  • 语义理解能力大幅增强
  • 搜索与推荐边界继续融合
  • 生成式模块开始进入在线链路,但必须受延迟和成本约束

LLM 在推荐中的 6 个高价值位置

这 6 个位置不是平均用力的关系,真正落地时往往要按收益、风险和成本优先级来排。

1. 内容理解与表示

这是最稳、最容易落地的一层。

典型用途:

  • 商品标题/描述编码
  • 视频、图文、评论语义表示
  • 冷启动物品建模
  • 类目与标签增强

这层价值很高,因为它能直接改善:

  • 新内容冷启动
  • 语义召回
  • 类目泛化
  • query-item matching

你需要掌握:

  • embedding 模型与向量检索
  • ID 与 text 特征融合
  • 召回评估指标

2. 用户 query 与意图理解

这在搜索推荐融合岗位里非常关键。

常见任务:

  • query rewrite
  • query 分类
  • 需求补全
  • 意图识别
  • 多轮上下文理解

这层比“直接让大模型推荐”更实用,因为它能直接服务于现有检索与排序系统。

面试里很容易被追问:

  • rewrite 做过度会怎样
  • 怎么评估 rewrite 是不是提升了结果
  • 如何做 fallback
  • 延迟预算怎么控制

3. 召回与候选生成

LLM 通常不会直接取代大规模召回,但会增强召回。

典型做法:

  • 用语义向量做召回
  • 用生成式 query 扩展召回源
  • 用用户历史总结生成兴趣摘要
  • 用多模态表示增强候选覆盖

你需要理解:

  • 双塔 / 多路召回
  • ANN 检索
  • embedding 更新与索引刷新
  • 覆盖率、召回率、时延权衡

4. 排序与重排

这一层最容易被误解。真实生产中,大模型很少直接承担主排序器,而更常作为:

  • 重排器
  • 特征生成器
  • 解释器
  • judge 模块

因为主排序链路常常有极严格的时延和 QPS 约束。

更现实的做法是:

  • 小模型做主排序
  • LLM 提供语义特征、用户意图特征、解释特征
  • 在高价值场景做有限范围重排

5. 生成式解释、摘要和创意

这是内容平台、电商、广告都很重视的一层。

包括:

  • 推荐理由生成
  • 商品摘要
  • 评论总结
  • 广告创意生成
  • 搜索结果解释

这类任务的工程重点不是“会不会生成”,而是:

  • 幻觉控制
  • 品控和审核
  • 风格一致性
  • 在线实验设计

6. 在线优化、评测与 RL

这是最能拉开档次的方向之一,也是 2028 很值得提前布局的能力。

你应该至少知道:

  • reward model 在推荐里的角色
  • 如何把在线行为信号映射为优化目标
  • 如何区分短期点击和长期满意度
  • 如何设计 judge、离线评测和 online A/B

真正的高价值问题不是“模型能不能推荐”,而是:

Text Only
模型的推荐是否真的提升了长期业务指标,而且成本、时延、风险都可接受。

传统推荐与 LLM 推荐不是二选一

最危险的误区是把它们对立起来。

更准确的理解:

能力 传统推荐 LLM/多模态能力
大规模用户行为建模 通常配合使用
冷启动
语义理解
时延与成本 差一些
可控性 需要额外治理
生成式交互

2028 更现实的工业方案仍然是融合:

  • 行为信号
  • 语义表示
  • 多模态特征
  • 业务规则
  • 在线实验

一个真实可落地的系统图

Text Only
用户请求
Query/Intent 理解
多路召回
├─ CF/图召回
├─ 语义向量召回
└─ 热门/规则召回
粗排
精排
LLM 重排/解释/摘要
结果返回与日志上报
离线训练 / 在线评测 / 策略优化

这张图里最值得你准备的,不是单个模块,而是模块之间的接口与权衡。

2028 岗位真正会看什么

如果你想打的是高门槛岗位,面试官通常不会只听概念,而会从下面这些层面判断你是不是做过真工程。

路线 1:推荐算法 / 搜推算法

核心要求:

  • 召回、排序、特征工程
  • 样本构造与负采样
  • 长短期兴趣建模
  • 离线与在线指标理解

如果再叠加 LLM,通常还会看:

  • embedding / 多模态表征
  • query understanding
  • 生成式特征
  • RL 或 reward 相关理解

路线 2:搜索推荐 + LLM 应用工程

核心要求:

  • 检索系统
  • 向量数据库或 ANN
  • RAG / query rewrite
  • 服务化、缓存、降级
  • 评测和 AB

这条路线对工程表达要求更高。

路线 3:推荐基础设施 / AI Infra

核心要求:

  • 大规模特征与索引服务
  • 推理服务部署
  • 延迟与吞吐优化
  • 批流一体、特征平台、在线实验平台

如果你面向这一条线,单纯会算法不够。

必须掌握的 8 个问题

  1. 冷启动怎么做
  2. query rewrite 为什么可能伤害效果
  3. LLM 排序为什么难直接上线
  4. 如何做离线与在线评测对齐
  5. 如何处理延迟、成本和效果的三角关系
  6. 为什么推荐系统仍然需要传统 ID 信号
  7. 如何设计生成式解释的审核与回滚
  8. 如何把用户长期满意度纳入优化目标

这 8 个问题,基本能覆盖大部分面试追问。

工程落地的 5 个关键约束

推荐系统一旦和 LLM 结合,工程约束会比传统推荐更复杂,这 5 个点通常绕不过去。

1. 延迟

推荐链路延迟预算非常紧。你必须知道哪些模块可以在线,哪些模块只能离线。

典型策略

  • 离线预计算 embedding
  • 小模型主排序
  • 高价值请求才触发 LLM 重排
  • 缓存热点结果

2. 成本

生成式模块一旦进入高 QPS 链路,成本会迅速失控。

你至少要会谈:

  • 模型分层
  • 量化
  • 缓存
  • 路由策略

3. 可控性

生成式解释和创意会面临:

  • 不稳定
  • 幻觉
  • 风格飘移
  • 合规风险

所以需要:

  • 模板约束
  • 规则校验
  • 审核链路

4. 评测

离线高分不等于线上高收益。

你需要区分:

  • 离线指标:Recall、NDCG、AUC、MRR
  • 在线指标:CTR、CVR、时长、GMV、留存、投诉率

5. 回滚

任何生成式模块都必须能快速关闭或降级。

常见方案:

  • 开关控制
  • fallback 到旧策略
  • 高频 query 白名单
  • 熔断阈值

你应该做什么项目

如果你想投 2028 的搜推 + LLM 岗位,建议至少做下面 3 类中的 2 类。

项目 A:搜索推荐融合系统

建议包含:

  • query rewrite
  • 向量召回
  • 规则召回
  • 排序与重排
  • AB 指标面板

项目 B:内容理解与冷启动增强

建议包含:

  • 商品/视频语义 embedding
  • 新内容冷启动
  • 多模态特征
  • 离线评测

项目 C:推荐解释与评测平台

建议包含:

  • 推荐理由生成
  • judge 或规则审查
  • 投诉样本分析
  • 失败案例回放

这三类项目比泛泛而谈“做了个 movie recommender”强得多。

简历怎么写更有效

差的写法:

Text Only
使用大模型优化推荐系统效果。

好的写法:

Text Only
为搜索推荐链路增加 query rewrite 与语义召回模块,设计 fallback 与开关机制,并用离线 NDCG 和线上 CTR 评估效果。

再进一步:

Text Only
构建商品语义表示与冷启动增强链路,将文本/图像特征与原有 ID 特征融合,提升新内容前 24 小时曝光与点击表现。

面试表达框架

推荐按下面顺序讲:

  1. 业务问题是什么
  2. 你把 LLM 放在链路哪个位置
  3. 为什么放在那里而不是别处
  4. 如何做延迟和成本控制
  5. 如何评测效果
  6. 如果线上出问题怎么回滚

这比单纯讲模型结构更像真实工程师。

学习顺序建议

  1. 先补齐传统推荐:召回、排序、评测
  2. 再学 embedding、向量检索、query understanding
  3. 再做搜索推荐融合项目
  4. 最后补 reward、judge、online optimization

如果顺序反了,很容易只会讲 demo,不会讲系统。

本章小结

  • LLM 与推荐系统 的主战场不是“让大模型直接推荐”,而是“让语义能力进入真实搜推链路”
  • 2028 最值得提前布局的是 搜索推荐融合 + 语义表示 + 评测/RL + 工程治理
  • 高价值候选人能讲清楚模块位置、延迟成本、评测方法和回滚机制

下一步