现代推荐系统架构¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

📖 章节导读¶

2024-2025 年，推荐系统正经历从"多阶段 Pipeline"到"端到端生成"、从"模型为中心"到"Agent 为中心"的范式变革。生成式推荐、扩散模型推荐、推荐 Agent 等新技术层出不穷，同时公平性、隐私和合规要求也日益严格。本章将全面覆盖这些前沿趋势和工程实践，帮助你紧跟行业最新发展。

🎯 学习目标¶

掌握 2024-2025 年推荐系统五大新趋势
理解生成式推荐和扩散模型推荐的核心原理
掌握推荐 Agent 系统设计方法
了解大规模推荐系统的 MLOps 最新实践
理解推荐系统的公平性、偏差与合规要求
能够回答现代推荐架构高频面试题

17.1 2024-2025 推荐系统新趋势¶

17.1.1 多场景多任务统一模型（ Multi-Scenario Multi-Task ）¶

传统做法为每个场景（首页推荐、搜索推荐、详情页推荐）独立训练模型，存在数据孤岛和模型重复建设问题。多场景多任务统一模型通过共享底层表征，联合学习多个场景和任务。

核心架构：

Text Only

┌───────────────────────────────────────────────────────┐
│                    统一输入层                           │
│  (用户特征 + 物品特征 + 上下文特征 + 场景标识)           │
└──────────────────────┬────────────────────────────────┘
                       ↓
┌──────────────────────────────────────────────────────┐
│              共享底层Embedding + 特征交叉               │
│              (场景自适应的Expert网络)                    │
└──────────────────────┬───────────────────────────────┘
                       ↓
         ┌─────────────┼─────────────┐
         ↓             ↓             ↓
   ┌─────────┐   ┌─────────┐   ┌─────────┐
   │ 场景A   │   │ 场景B   │   │ 场景C   │
   │ (首页)  │   │ (搜索)  │   │ (详情页)│
   └────┬────┘   └────┬────┘   └────┬────┘
        ↓              ↓              ↓
   ┌────┴────┐   ┌────┴────┐   ┌────┴────┐
   │CTR+CVR  │   │CTR+相关 │   │ CTR+   │
   │ 多任务  │   │性 多任务 │   │停留时长  │
   └─────────┘   └─────────┘   └─────────┘

关键技术： - 场景自适应 Expert：基于 PLE/MMoE 的扩展，加入场景 Gate - 场景感知 Embedding：同一物品在不同场景有不同表征 - 梯度平衡：解决多场景多任务间的梯度冲突

论文参考："SASS: Scenario-Adaptive Multi-Task Learning for Multi-Scenario Recommendation"（ Li et al., 2024, KDD ）提出了场景自适应的多任务学习框架。

Python

import torch
import torch.nn as nn

class ScenarioAdaptiveExpert(nn.Module):  # 继承nn.Module定义网络层
    """场景自适应的Expert网络（简化版）"""

    def __init__(self, input_dim, expert_dim, num_experts, num_scenarios):
        super().__init__()  # super()调用父类方法
        self.num_experts = num_experts

        # 共享Expert网络
        self.experts = nn.ModuleList([
            nn.Sequential(
                nn.Linear(input_dim, expert_dim),
                nn.ReLU(),
                nn.Linear(expert_dim, expert_dim)
            ) for _ in range(num_experts)
        ])

        # 场景感知的Gate网络
        self.scenario_gates = nn.ModuleList([
            nn.Sequential(
                nn.Linear(input_dim + num_scenarios, num_experts),
                nn.Softmax(dim=-1)
            ) for _ in range(num_scenarios)
        ])

        self.num_scenarios = num_scenarios

    def forward(self, x, scenario_id):
        """
        x: [batch_size, input_dim]
        scenario_id: [batch_size] 场景ID (0 ~ num_scenarios-1)
        """
        # 计算所有Expert的输出
        expert_outputs = [expert(x) for expert in self.experts]
        expert_outputs = torch.stack(expert_outputs, dim=1)  # [B, num_experts, expert_dim]  # torch.stack沿新维度拼接张量

        # 场景One-hot编码
        scenario_onehot = torch.zeros(x.size(0), self.num_scenarios, device=x.device)
        scenario_onehot.scatter_(1, scenario_id.unsqueeze(1), 1)  # unsqueeze增加一个维度

        # 场景感知Gate
        gate_input = torch.cat([x, scenario_onehot], dim=-1)  # torch.cat沿已有维度拼接张量

        # 按场景选择Gate
        outputs = torch.zeros_like(expert_outputs[:, 0])
        for s in range(self.num_scenarios):
            mask = (scenario_id == s)
            if mask.any():  # any()任一为True则返回True
                gate_weights = self.scenario_gates[s](gate_input[mask])
                outputs[mask] = torch.einsum('be,bed->bd', gate_weights, expert_outputs[mask])

        return outputs

17.1.2 端到端推荐（ End-to-End Recommendation ）¶

传统推荐系统采用多阶段 Pipeline：召回(1M→1K) → 粗排(1K→100) → 精排(100→20) → 重排(20→10)。每个阶段独立优化，存在误差累积问题。

端到端推荐的核心思想是用单一模型直接从全库中检索最终推荐结果，消除中间阶段。

代表方案：

方案	思路	论文
DSI	用模型记忆物品 ID ，直接生成	"Transformer Memory as a Differentiable Search Index"（ Tay et al., 2022, NeurIPS ）
TIGER	语义 ID 编码 + 生成式检索	"Recommender Systems with Generative Retrieval"（ Rajput et al., 2023, NeurIPS ）
全库检索	GPU 加速 ANN ，直接从全库精排	Meta 2024 Industry Practice

论文参考："Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations"（ Meta, ICML 2024 ）展示了超大规模端到端推荐的可行性。

17.1.3 生成式推荐（ Generative Recommendation ）¶

生成式推荐是 2024 年最热门的推荐研究方向，其核心思想是将推荐视为生成任务——不是从候选集中选择，而是直接"生成"推荐结果。

三种生成范式：

1. 基于语义 ID 的生成（ TIGER / LC-Rec ）

Text Only

用户行为序列 → Transformer Encoder → Decoder → 生成语义Token序列 → 映射为物品

TIGER（ Rajput et al., 2023, NeurIPS ）：将物品编码为语义 Tokenized ID ，用 seq2seq 模型自回归生成
LC-Rec（ Zheng et al., 2024, WWW ）：基于学习的物品编码方式，比 RQ-VAE 效果更好

2. 基于语言的生成（直接生成物品名称/描述）

Text Only

用户偏好描述 → LLM → 直接输出推荐物品名称/描述

3. 基于扩散模型的生成（ DiffRec / DreamRec ）

Text Only

用户交互向量 → 加噪 → 扩散模型去噪 → 生成推荐物品的Embedding → 最近邻检索

论文参考："Generative Recommendation: Towards Next-generation Recommender Paradigm"（ Li et al., 2024, arXiv ）综述了生成式推荐的全景。

17.1.4 基于扩散模型的推荐¶

扩散模型（ Diffusion Models ）在图像生成中大获成功后，正在被引入推荐系统。

DiffRec（ Wang et al., 2023, SIGIR ）： - 对用户-物品交互矩阵添加高斯噪声 - 训练扩散模型逐步去噪，恢复真实交互 - 去噪后的交互矩阵对应推荐概率

Python

import torch
import torch.nn as nn
import torch.nn.functional as F

class DiffRecSimplified(nn.Module):
    """DiffRec简化实现 —— 基于扩散过程的协同过滤"""

    def __init__(self, num_items, hidden_dim=256, num_steps=50):
        super().__init__()
        self.num_items = num_items
        self.num_steps = num_steps

        # 噪声调度 (线性beta schedule)
        # 使用register_buffer确保.to(device)时自动迁移到正确设备
        betas = torch.linspace(1e-4, 0.02, num_steps)
        self.register_buffer('betas', betas)
        self.register_buffer('alphas', 1.0 - betas)
        self.register_buffer('alpha_cumprod', torch.cumprod(self.alphas, dim=0))

        # 去噪网络 (U-Net简化为MLP)
        self.denoise_net = nn.Sequential(
            nn.Linear(num_items + 1, hidden_dim),  # +1 for timestep
            nn.SiLU(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.SiLU(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.SiLU(),
            nn.Linear(hidden_dim, num_items),
        )

    def forward_diffusion(self, x_0, t):
        """前向扩散：给干净数据加噪"""
        alpha_t = self.alpha_cumprod[t].unsqueeze(-1).to(x_0.device)
        noise = torch.randn_like(x_0)
        x_t = torch.sqrt(alpha_t) * x_0 + torch.sqrt(1 - alpha_t) * noise
        return x_t, noise

    def predict_noise(self, x_t, t):
        """预测噪声"""
        t_normalized = t.float() / self.num_steps
        t_embed = t_normalized.unsqueeze(-1)
        net_input = torch.cat([x_t, t_embed], dim=-1)
        return self.denoise_net(net_input)

    def training_step(self, user_interactions):
        """
        训练步骤
        user_interactions: [batch_size, num_items] 用户交互矩阵的一行
        """
        batch_size = user_interactions.size(0)

        # 随机采样时间步
        t = torch.randint(0, self.num_steps, (batch_size,), device=user_interactions.device)

        # 前向扩散
        x_t, noise = self.forward_diffusion(user_interactions, t)

        # 预测噪声
        predicted_noise = self.predict_noise(x_t, t)

        # MSE损失
        loss = F.mse_loss(predicted_noise, noise)  # F.xxx PyTorch函数式API
        return loss

    @torch.no_grad()  # 禁用梯度计算，节省内存
    def recommend(self, user_interactions, top_k=10):
        """推理：去噪生成推荐"""
        x_t = torch.randn_like(user_interactions)

        for t in reversed(range(self.num_steps)):
            t_batch = torch.full((x_t.size(0),), t, device=x_t.device, dtype=torch.long)
            predicted_noise = self.predict_noise(x_t, t_batch)

            alpha_t = self.alphas[t]
            alpha_cumprod_t = self.alpha_cumprod[t]

            x_t = (1 / torch.sqrt(alpha_t)) * (
                x_t - (self.betas[t] / torch.sqrt(1 - alpha_cumprod_t)) * predicted_noise
            )

            if t > 0:
                x_t += torch.sqrt(self.betas[t]) * torch.randn_like(x_t)

        # 屏蔽已交互物品
        x_t[user_interactions > 0] = -float('inf')

        # 返回Top-K推荐
        _, top_indices = torch.topk(x_t, top_k, dim=-1)
        return top_indices

DreamRec（ Yang et al., 2024, AAAI ）： - 将序列推荐建模为条件扩散过程 - 用用户行为序列作为条件，生成下一个物品的 Embedding - 在 Embedding 空间做扩散，效率更高

论文参考："Diffusion Recommender Model"（ Wang et al., 2023, SIGIR ）首次将扩散模型引入推荐。"DreamRec: Large Language Models Empowered Diffusion Model for Personalized Recommendation"（ Yang et al., 2024, AAAI ）结合 LLM 与扩散模型。

17.2 推荐系统与 Agents¶

17.2.1 推荐 Agent 系统设计¶

推荐 Agent 是 2024-2025 年推荐系统最前沿的架构模式——将 LLM 作为推荐系统的"大脑"，具备自主规划、工具调用和持续学习能力。

推荐 Agent 标准架构：

Text Only

┌─────────────────────────────────────────────────────┐
│                  推荐Agent系统                        │
│                                                      │
│  ┌─────────┐    ┌──────────┐    ┌──────────────┐    │
│  │ 用户意图 │ →  │ 策略规划  │ →  │ 结果生成     │    │
│  │ 理解模块 │    │ (Planning)│    │ (Generation) │    │
│  └─────────┘    └────┬─────┘    └──────────────┘    │
│                      │                               │
│                      ↓                               │
│              ┌───────────────┐                       │
│              │   工具调用层   │                       │
│              ├───────────────┤                       │
│              │• 搜索引擎     │                       │
│              │• 知识图谱     │                       │
│              │• 用户画像     │                       │
│              │• 推荐模型API  │                       │
│              │• 评论分析     │                       │
│              └───────┬───────┘                       │
│                      │                               │
│                      ↓                               │
│              ┌───────────────┐                       │
│              │   记忆模块    │                       │
│              ├───────────────┤                       │
│              │• 短期记忆     │  当前会话偏好           │
│              │• 长期记忆     │  用户历史画像           │
│              │• 工作记忆     │  当前推理链             │
│              └───────────────┘                       │
│                                                      │
│  ┌─────────────────────────────────────────────┐    │
│  │              反馈学习模块                     │    │
│  │  用户点击/评分/对话反馈 → 更新策略和记忆       │    │
│  └─────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────┘

Agent 推荐标准流程：

Python

class RecommendationAgent:
    """推荐Agent核心框架"""

    def __init__(self, llm, tools, memory):
        self.llm = llm          # LLM作为推理引擎
        self.tools = tools      # 工具集合
        self.memory = memory    # 记忆模块

    def recommend(self, user_query: str, user_id: str) -> dict:
        """完整推荐流程"""

        # Step 1: 意图理解
        intent = self._understand_intent(user_query)
        # {"type": "探索式", "domain": "电影", "constraints": ["科幻", "2024年"]}

        # Step 2: 策略规划
        plan = self._plan_strategy(intent, user_id)
        # ["查询用户画像", "召回候选集", "语义重排", "生成解释"]

        # Step 3: 工具调用执行
        results = self._execute_plan(plan, user_id)

        # Step 4: 结果生成
        recommendations = self._generate_results(results, intent)

        # Step 5: 记忆更新
        self.memory.update(user_id, intent, recommendations)

        return recommendations

    def _understand_intent(self, query):
        """用LLM理解用户意图"""
        prompt = f"分析用户推荐请求的意图：\n{query}\n提取：类型、领域、约束条件"
        return self.llm.analyze(prompt)

    def _plan_strategy(self, intent, user_id):
        """基于意图和用户历史规划推荐策略"""
        user_history = self.memory.get_long_term(user_id)
        prompt = f"根据意图{intent}和用户历史，规划推荐步骤"
        return self.llm.plan(prompt)

    def _execute_plan(self, plan, user_id):
        """依次执行计划中的工具调用"""
        results = {}
        for step in plan:
            tool = self.tools.get(step)
            if tool:
                results[step] = tool.execute(user_id=user_id)
        return results

    def _generate_results(self, results, intent):
        """整合工具结果，生成最终推荐"""
        prompt = f"根据以下信息生成推荐：\n工具结果：{results}\n用户意图：{intent}"
        return self.llm.generate(prompt)

17.2.2 工具增强推荐¶

推荐 Agent 的核心优势在于工具调用——通过调用外部工具获取实时信息：

工具类型	功能	应用场景
搜索引擎	获取物品最新信息	新物品推荐、时效性推荐
知识图谱	实体关系推理	关联推荐、基于知识的解释
用户画像	获取用户历史和偏好	个性化推荐
推荐模型 API	调用传统推荐模型	协同过滤结果作为参考
评论分析器	分析用户评论情感	口碑推荐
价格比较器	比较不同渠道价格	电商推荐

17.2.3 RecAgent ：模拟用户行为的 LLM Agent¶

RecAgent（ Wang et al., 2023 ）是一个创新的推荐系统研究框架——用 LLM Agent 模拟用户行为来评测推荐系统。

核心思路： - 每个用户由一个 LLM Agent 模拟，具有个性化的偏好 Profile - Agent 自主浏览、点击、评价物品 - 通过观察 Agent 群体行为来评测推荐算法效果 - 替代昂贵的真实用户 AB 测试

论文参考："RecAgent: A Novel Simulation Paradigm for Recommender Systems"（ Wang et al., 2023 ）

17.3 大规模推荐工程更新¶

17.3.1 特征存储 Feature Store 最新实践¶

Feature Store 已成为推荐系统工程的标配基础设施， 2024-2025 年主流方案：

方案	特点	适用场景
Feast	开源、 Python 原生、支持多种存储后端	中小规模团队
Tecton	商业 SaaS 、自动特征工程、低延迟	大规模生产环境
Hopsworks	开源+商业、完整 MLOps 集成	需要全链路管理
字节内部 FeatureStore	支持 PB 级数据、毫秒延迟	超大规模场景

Python

# Feast Feature Store 示例
from feast import FeatureStore

# 初始化Feature Store
store = FeatureStore(repo_path="feature_repo/")

# 在线获取用户特征（低延迟）
user_features = store.get_online_features(
    features=[
        "user_profile:age",
        "user_profile:gender",
        "user_behavior:click_count_7d",
        "user_behavior:purchase_count_30d",
        "user_embedding:embedding_vector",
    ],
    entity_rows=[{"user_id": "12345"}]
).to_dict()

# 离线获取训练数据（批量）
training_df = store.get_historical_features(
    entity_df=entity_df,  # 包含user_id和timestamp的DataFrame
    features=[
        "user_profile:age",
        "item_features:category",
        "item_features:price",
        "user_item_cross:ctr_history",
    ]
).to_df()

17.3.2 实时推荐（ Flink + 在线推理）¶

Text Only

┌──────┐    ┌────────┐    ┌──────────┐    ┌──────────┐
│ 用户  │ →  │ Kafka  │ →  │  Flink   │ →  │ 实时特征 │
│ 行为  │    │ 消息队列│    │ 流处理   │    │ 计算     │
└──────┘    └────────┘    └──────────┘    └────┬─────┘
                                               │
                                               ↓
                          ┌──────────┐    ┌──────────┐
                          │ 在线模型  │ ←  │ Feature  │
                          │ Serving  │    │ Store    │
                          └────┬─────┘    └──────────┘
                               │
                               ↓
                          ┌──────────┐
                          │ 推荐结果  │
                          │ 返回用户  │
                          └──────────┘

关键指标： - 特征更新延迟：< 1 秒（ Flink 实时窗口计算） - 模型推理延迟：< 20ms （ TensorRT/ONNX Runtime ） - 端到端延迟：< 100ms

17.3.3 向量检索升级¶

2024-2025 年向量检索技术的重要进展：

技术	核心创新	性能
ScaNN (Google)	量化+各向异性权重	10 亿级秒级检索
DiskANN (Microsoft)	SSD-based ANN ，内存效率高	10 亿+级，低内存
GPU-ANN (NVIDIA)	RAFT 库， GPU 加速暴力/IVF 检索	超低延迟（<1ms ）
Milvus 2.x	云原生、混合检索（向量+标量）	生产级向量数据库
Pinecone	Serverless 向量数据库	免运维

Python

# 使用Milvus进行大规模向量召回
from pymilvus import MilvusClient

# 连接Milvus
client = MilvusClient(uri="http://localhost:19530")

# 创建推荐物品集合
client.create_collection(
    collection_name="item_embeddings",
    dimension=768,  # LLM Embedding维度
    metric_type="COSINE",
)

# 插入物品向量
client.insert(
    collection_name="item_embeddings",
    data=[
        {"id": item_id, "vector": embedding.tolist(), "category": cat}
        for item_id, embedding, cat in zip(item_ids, embeddings, categories)  # zip按位置配对
    ]
)

# 向量检索召回
results = client.search(
    collection_name="item_embeddings",
    data=[user_embedding.tolist()],
    limit=100,                    # 召回Top 100
    output_fields=["category"],   # 返回额外字段
    filter='category == "电影"',  # 标量过滤
)

17.3.4 推荐系统的 MLOps¶

推荐 MLOps 关键组件：

Text Only

┌─────────────────────────────────────────────────────────┐
│                    推荐系统MLOps全景                      │
├──────────────┬─────────────┬──────────────┬─────────────┤
│  数据管道    │  模型管理   │  部署发布     │  监控告警   │
├──────────────┼─────────────┼──────────────┼─────────────┤
│ • 数据质量   │ • MLflow    │ • 蓝绿部署   │ • 在线指标  │
│   监控       │ • 版本管理  │ • 金丝雀发布 │   实时追踪  │
│ • 特征漂移   │ • 模型注册  │ • AB测试     │ • 特征漂移  │
│   检测       │   中心      │   框架       │   检测      │
│ • 数据回填   │ • 自动训练  │ • 模型回滚   │ • 业务告警  │
│   能力       │   Pipeline  │              │             │
└──────────────┴─────────────┴──────────────┴─────────────┘

AB 测试框架设计：

Python

class RecommendationABTest:
    """推荐系统AB测试框架"""

    def __init__(self):
        self.experiments = {}

    def create_experiment(self, name, control_model, treatment_model,
                         traffic_split=0.5, metrics=None):
        """创建AB实验"""
        self.experiments[name] = {
            "control": control_model,
            "treatment": treatment_model,
            "traffic_split": traffic_split,
            "metrics": metrics or ["ctr", "cvr", "revenue", "dwell_time"],
            "status": "running",
            "results": {"control": [], "treatment": []}
        }

    def assign_group(self, user_id, experiment_name):
        """用户分组（基于hash确保一致性）"""
        hash_val = hash(f"{user_id}_{experiment_name}") % 100
        split = int(self.experiments[experiment_name]["traffic_split"] * 100)
        return "treatment" if hash_val < split else "control"

    def analyze_results(self, experiment_name):
        """分析实验结果（t检验）"""
        from scipy import stats
        import numpy as np

        exp = self.experiments[experiment_name]
        results = {}

        for metric in exp["metrics"]:
            control_data = [r[metric] for r in exp["results"]["control"]]
            treatment_data = [r[metric] for r in exp["results"]["treatment"]]

            t_stat, p_value = stats.ttest_ind(control_data, treatment_data)

            control_mean = np.mean(control_data)
            treatment_mean = np.mean(treatment_data)
            lift = (treatment_mean - control_mean) / control_mean * 100

            results[metric] = {
                "control_mean": control_mean,
                "treatment_mean": treatment_mean,
                "lift": f"{lift:.2f}%",
                "p_value": p_value,
                "significant": p_value < 0.05
            }

        return results

17.4 公平性、偏差与合规¶

17.4.1 推荐系统偏差类型¶

偏差类型	定义	影响	解决方案
Position Bias	用户倾向点击列表靠前的物品	头部物品获得不公平优势	IPW 去偏、位置感知模型
Popularity Bias	热门物品获得更多曝光和交互	长尾物品难以被推荐	逆倾向加权、公平性约束
Selection Bias	只观察到被推荐的物品的反馈	训练数据不代表真实偏好	因果推断、反事实学习
Exposure Bias	只有曝光过的物品才有交互	小众但高质量物品被埋没	探索-利用策略、多样性
Conformity Bias	用户评分受社会影响	评分不反映真实偏好	因果去偏模型

17.4.2 公平性约束推荐¶

Python

import numpy as np

class FairRecommender:
    """公平性约束的推荐系统"""

    def __init__(self, base_recommender, fairness_type="demographic_parity"):
        self.base_recommender = base_recommender
        self.fairness_type = fairness_type

    def recommend_with_fairness(self, user_id, candidate_items,
                                 sensitive_attr, top_k=10):
        """
        带公平性约束的推荐
        sensitive_attr: 物品的敏感属性（如供应商、类别、地区）
        """
        # 获取基础推荐分数
        scores = self.base_recommender.predict(user_id, candidate_items)

        if self.fairness_type == "demographic_parity":
            return self._demographic_parity_rerank(
                candidate_items, scores, sensitive_attr, top_k
            )
        elif self.fairness_type == "equal_opportunity":
            return self._equal_opportunity_rerank(
                candidate_items, scores, sensitive_attr, top_k
            )

    def _demographic_parity_rerank(self, items, scores, attr, top_k):
        """
        Demographic Parity: 各组别物品在推荐列表中的比例应与候选集中相同
        """
        # 统计各组别在候选集中的比例
        groups = set(attr)
        target_ratio = {g: sum(1 for a in attr if a == g) / len(attr) for g in groups}

        # 贪心选择：交替从各组中选择高分物品
        selected = []
        group_counts = {g: 0 for g in groups}
        sorted_indices = np.argsort(scores)[::-1]

        for idx in sorted_indices:
            if len(selected) >= top_k:
                break
            group = attr[idx]
            current_ratio = group_counts[group] / max(len(selected), 1)

            if current_ratio <= target_ratio[group] * 1.2:  # 允许20%偏差
                selected.append(idx)
                group_counts[group] += 1

        return [items[i] for i in selected]

17.4.3 可解释推荐（ Explainable Recommendation ）¶

2024-2025 年，可解释性已从"锦上添花"变成"法规要求"（欧盟 AI Act ）。

三种解释范式：

方式	示例	技术
基于用户	"和你品味相似的用户也喜欢…"	协同过滤路径
基于物品	"因为你看过 XX ，推荐类似的 YY"	物品相似度
自然语言	"这部电影融合了你喜欢的科幻+悬疑元素…"	LLM 生成解释

论文参考："Explainable Recommendation with Large Language Models"（ Lei et al., 2024, WWW ）提出使用 LLM 生成个性化推荐解释。

17.4.4 隐私保护推荐¶

联邦推荐（ Federated Recommendation ）：

Text Only

┌──────────┐   ┌──────────┐   ┌──────────┐
│ 用户设备A │   │ 用户设备B │   │ 用户设备C │
│ 本地模型  │   │ 本地模型  │   │ 本地模型  │
│ 本地数据  │   │ 本地数据  │   │ 本地数据  │
└────┬─────┘   └────┬─────┘   └────┬─────┘
     │              │              │
     └──────────────┼──────────────┘
                    ↓
           ┌───────────────┐
           │  聚合服务器    │
           │ (只接收梯度,  │
           │  不接收数据)   │
           └───────────────┘

差分隐私推荐： - 在用户交互数据中添加校准噪声 - 保证单个用户的行为不可被推断 - ε-差分隐私提供数学化的隐私保证

论文参考："Federated Recommendation Systems: Techniques, Challenges, and Countermeasures"（ Sun et al., 2024, ACM Computing Surveys ）

17.5 面试专题： LLM+推荐与现代推荐架构¶

高频面试题¶

Q1: 什么是生成式推荐？与判别式推荐有什么区别？

判别式推荐从给定候选集中选择（打分排序），生成式推荐直接"生成"推荐结果（如 TIGER 生成物品语义 ID 、 LLM 直接输出物品名称）。生成式无需候选集，但可控性和准确率是挑战。

Q2: TIGER （生成式检索推荐）的核心思路？

将物品编码为语义 Tokenized ID （通过 RQ-VAE ），用 Transformer seq2seq 模型，以用户行为序列为输入，自回归生成下一个推荐物品的语义 Token 序列。优势是统一了召回和排序。

Q3: 推荐系统中的扩散模型（ DiffRec ）原理？

对用户交互向量添加多步高斯噪声（前向扩散），训练去噪网络逐步恢复真实交互（反向扩散）。去噪后的交互向量可视为推荐概率分布。优势是自然处理数据稀疏和不确定性。

Q4: 推荐 Agent 与传统推荐系统的核心区别？

传统推荐是被动的"模型推理"， Agent 推荐是主动的"规划-工具调用-推理-反馈"循环。 Agent 可以调用搜索引擎、知识图谱等外部工具，支持多步推理和动态策略调整。

Q5: 什么是 Feature Store ？在推荐系统中的作用？

Feature Store 是特征管理的基础设施，统一在线/离线特征存储和计算，解决特征一致性问题。 Feast （开源）和 Tecton （商业）是主要方案。核心价值：特征复用、在线低延迟获取、训练-serving 一致性。

Q6: 推荐系统中 Position Bias 如何影响模型训练？如何去偏？

Position Bias 导致靠前位置的物品获得更多点击，模型会错误学习"位置=质量"。去偏方法：(1)逆倾向加权 IPW ；(2)训练时加入位置特征，推理时置为无偏值；(3)使用无偏数据集（随机曝光日志）。

Q7: 联邦推荐如何保护用户隐私？

用户数据保留在设备端，只上传模型梯度给服务器聚合。结合差分隐私（梯度加噪），即使攻击者获取梯度也无法推断单个用户行为。挑战：通信开销大、异构设备、 Non-IID 数据。

Q8: 多场景多任务统一模型相比独立模型的优势和挑战？

优势：数据共享、减少模型维护成本、跨场景知识迁移。挑战：任务间梯度冲突（ Negative Transfer ）、场景差异大导致共享有害、训练复杂度高。解决方案：场景自适应 Gate 、梯度平衡（ GradNorm/PCGrad ）。

Q9: 推荐系统 AB 测试需要注意什么？

(1)样本量充足（ MDE 计算）；(2)用户分桶一致性（避免同一用户切换组）；(3)新鲜度效应（观察足够长时间）；(4)网络效应（社交推荐需特殊设计）；(5)多指标综合评判（不只看 CTR ）。

Q10: 端到端推荐能否完全取代传统多阶段 Pipeline ？

当前还不能。端到端模型在学术上效果好，但工程上面临：(1)全库检索计算量大；(2)可解释性和可调试性差；(3)难以加入业务规则；(4)A/B 测试困难。工业实践中更多是"简化 Pipeline"（如合并粗排精排）而非完全端到端。

Q11: 如何评估推荐系统的公平性？

(1)定义公平性指标（如各组曝光率差异）；(2)离线评估各组 Hit Rate/NDCG 差异；(3)在线 AB 测试各人群指标对比；(4)长期追踪马太效应。常用指标： Gini 系数、暴露公平度、人群间 AUC 差异。

Q12: 可解释推荐在工业中如何落地？

(1)基于规则的模板解释（最简单，如"因为你买过 XX"）；(2)基于注意力权重的解释（中等复杂度）；(3)LLM 生成自然语言解释（最灵活但成本高）。实际落地通常混合使用。

📋 面试要点¶

核心能力：面试官主要考察你对"推荐系统 + LLM/Agent + 工程实践 + 公平性"的综合理解。

能对比传统推荐和 LLM 推荐的优劣

理解生成式推荐的技术原理

了解推荐 MLOps 的实际挑战

能讨论推荐系统的公平性和隐私问题

有推荐系统架构设计的系统化思维

✏️ 练习¶

练习 1 ：生成式推荐实现¶

实现一个简单的 DiffRec ： - 在 MovieLens-100K 数据集上训练 - 对比 DiffRec 与 MF/BPR 的 HR@10 和 NDCG@10

练习 2 ：推荐 Agent 设计¶

设计一个推荐 Agent 应用： - 至少包含 3 个工具（搜索、画像、知识图谱） - 实现多轮对话和意图切换 - 在真实评测（如电影推荐）中验证效果

练习 3 ：公平性分析¶

在 MovieLens 数据集上： - 分析热门偏差（ Popularity Bias ）的程度 - 实现一个公平性约束的重排算法 - 对比公平性约束前后的推荐效果和公平性指标

练习 4 ：推荐系统 MLOps Pipeline¶

搭建一个最小化的推荐 MLOps 流程： - 使用 MLflow 管理推荐模型版本 - 实现一个简单的 AB 测试框架 - 设计在线 CTR/CVR 监控 Dashboard

📚 延伸阅读¶

综述："Generative Recommendation: Towards Next-generation Recommender Paradigm"（ Li et al., 2024 ）
综述："A Survey on Fairness in Recommender Systems"（ Li et al., 2024, ACM Computing Surveys ）
综述："Federated Recommendation Systems"（ Sun et al., 2024 ）
教程： RecSys 2024 Tutorial — "Generative Models for Recommendation"
开源框架：RecBole 2.0 — 支持生成式推荐
博客： Meta Engineering Blog — "Scaling Recommendation Models"

上一章：16-LLM 与推荐系统.md — LLM 驱动的推荐范式与实战