深度学习基础面试题 — 20 道高频原理 + 推导题¶
重要性: AI 算法岗面试中 CNN/RNN/优化/正则化等经典 DL 知识仍是基本功 难度标注:🟢 基础 | 🟡 进阶 | 🔴 困难 公司标签:[字节] [百度] [Google] [Meta] [阿里] [华为] 等
⚠️ 标签说明(2026-04-03):本页公司标签表示“公开面经与岗位讨论里常出现这类题”,用于帮助你建立提问场景,不代表一一对应的官方真题。来源口径见 27-2025-2026大厂真实面经题型地图、29-2025-2026大厂公开面经题目全量索引 和 28-题目真实性与来源维护说明。
一、基础概念( 6 题)¶
Q1: 反向传播算法的推导 🟡 [Google] [字节] [华为]¶
题目:以一个两层全连接网络为例,推导反向传播的梯度计算过程。
参考答案:
网络结构:输入 \(x\) → 隐层 \(h = \sigma(W_1 x + b_1)\) → 输出 \(\hat{y} = W_2 h + b_2\)
前向传播:
损失:\(L = \frac{1}{2}(\hat{y} - y)^2\)
反向传播(链式法则):
核心要点:
- 反向传播本质是链式法则的矩阵形式
- 误差从输出层逐层向后传播
- 计算图中每个节点保存前向的中间结果用于反向计算
追问:反向传播的计算复杂度和前向传播相同吗? → 数量级相同,但训练一步通常会比纯前向更贵,因为还要保存中间激活并计算反向梯度。实际开销取决于算子实现、是否重计算、是否启用混合精度以及框架优化,工程上常见的是“前向 + 反向”明显高于单次前向,但不应把 2-3 倍当成固定常数。
Q2: 激活函数对比 🟢 [字节] [百度] [阿里] [通用]¶
题目:对比 Sigmoid 、 Tanh 、 ReLU 、 GELU 、 SiLU/Swish 的特点。
参考答案:
- Sigmoid:公式为 \(\frac{1}{1+e^{-x}}\)|值域:(0,1)|优点:概率解释|缺点:梯度消失、非零中心|使用场景:二分类输出层
- Tanh:公式为 \(\frac{e^x - e^{-x}}{e^x + e^{-x}}\)|值域:(-1,1)|优点:零中心|缺点:梯度消失|使用场景:RNN(legacy)
- ReLU:公式为 \(\max(0,x)\)|值域:[0,+∞)|优点:计算简单、无梯度消失|缺点:Dead ReLU|使用场景:CNN/全连接
- Leaky ReLU:公式为 \(\max(\alpha x, x)\)|值域:(-∞,+∞)|优点:解决 Dead ReLU|缺点:需调 α|使用场景:替代 ReLU
- GELU:公式为 \(x \cdot \Phi(x)\)|值域:≈(-0.17,+∞)|优点:平滑、概率解释|缺点:计算稍慢|使用场景:Transformer/BERT
- SiLU/Swish:公式为 \(x \cdot \sigma(x)\)|值域:≈(-0.28,+∞)|优点:平滑、自门控|缺点:计算稍慢|使用场景:LLaMA/现代 LLM
为什么现代 LLM 用 SiLU/GELU 而不是 ReLU:
- ReLU 在 x<0 梯度为 0 (信息完全丢失)
- SiLU/GELU 在负值区域有小的非零梯度,信息保留更好
- LLaMA/Qwen/Mistral 使用 SiLU + GLU (Gated Linear Unit)
追问:什么是 Dead ReLU 问题? → 当输入持续为负时, ReLU 输出恒为 0 ,梯度也为 0 ,该神经元永久"死亡"。可通过 Leaky ReLU 或初始化策略缓解。
Q3: 梯度消失和梯度爆炸 🟢 [字节] [华为] [通用]¶
题目:解释梯度消失和梯度爆炸的原因,以及解决方案。
参考答案:
梯度消失原因:
- 链式法则中多个 <1 的数连乘 → 梯度指数衰减
- Sigmoid/Tanh 饱和区梯度接近 0
- 深层网络尤其严重
梯度爆炸原因:
- 链式法则中多个 >1 的数连乘 → 梯度指数增长
- 权重初始化过大
- RNN 中尤其常见
解决方案:
- 梯度消失:方案为 ReLU 系激活函数|说明:正区间梯度恒为 1
- 梯度消失:方案为残差连接|说明:梯度直接传过 shortcut
- 梯度消失:方案为合适的初始化(He/Xavier)|说明:控制前向/反向方差
- 梯度消失:方案为 BatchNorm/LayerNorm|说明:稳定训练
- 梯度爆炸:方案为梯度裁剪|说明:
torch.nn.utils.clip_grad_norm_ - 梯度爆炸:方案为权重正则化|说明:L2 约束权重大小
- 通用:方案为 LSTM 门机制|说明:选择性遗忘/记忆
追问: ResNet 如何解决梯度消失? → 残差连接 \(y = F(x) + x\),梯度 \(\frac{\partial y}{\partial x} = \frac{\partial F}{\partial x} + I\)。关键不在于“梯度至少为 1”,而在于恒等分支给了梯度一条更直接的传播路径,使深层网络更容易训练;即使残差分支学得不好,信息和梯度也不必完全依赖多层非线性连续相乘。
Q4: BatchNorm vs LayerNorm 🟡 [字节] [Google] [Meta]¶
题目:对比 BatchNorm 和 LayerNorm 的归一化维度、适用场景和差异。
参考答案:
- 归一化维度:BatchNorm 对 batch 维度归一化;LayerNorm 对 feature 维度归一化
- 是否依赖 batch:BatchNorm ✅ 是(训练和推理行为不同);LayerNorm ❌ 否(不依赖 batch)
- 推理时:BatchNorm 使用训练时累积的均值/方差;LayerNorm 对每个样本独立计算
- 适用场景:BatchNorm 常用于 CNN(图像);LayerNorm 常用于 Transformer/RNN(NLP)
- batch size 影响:BatchNorm 在 batch 太小时统计量不准;LayerNorm 不受影响
数学:
BatchNorm: 对每个特征通道,沿 batch 维度归一化
x̂ = (x - μ_B) / √(σ²_B + ε), 然后 y = γx̂ + β
μ_B, σ²_B 是当前 batch 在该通道上的均值和方差
LayerNorm: 对每个样本,沿 feature 维度归一化
x̂ = (x - μ_L) / √(σ²_L + ε), 然后 y = γx̂ + β
μ_L, σ²_L 是该样本所有特征的均值和方差
为什么 Transformer 用 LayerNorm:
- NLP 中 batch 内不同样本长度不同, BatchNorm 统计量不准
- LayerNorm 不依赖 batch ,适合变长序列和小 batch
- 现代 LLM 进一步用 RMSNorm (去掉均值中心化,只做缩放,更快)
追问: GroupNorm 和 InstanceNorm 呢? → GroupNorm 将通道分组归一化(介于 BN 和 LN 之间),适用于小 batch 的图像任务。 InstanceNorm 对每个样本的每个通道独立归一化,用于风格迁移。
Q5: 权重初始化 🟡 [Google] [字节]¶
题目:解释 Xavier 和 He 初始化的原理和适用场景。
参考答案:
动机:如果权重初始化不当,前向传播中激活值会指数放大或缩小,导致训练失败。
Xavier 初始化(适用于 Sigmoid/Tanh ):
推导假设:激活函数在 0 附近近似线性( Sigmoid/Tanh 的线性区)
He 初始化(适用于 ReLU ):
推导考虑了 ReLU 会"杀死"一半的激活(负区间输出 0 ),所以方差需要 ×2 补偿。
追问: Transformer 的初始化策略? → 不同 Transformer 家族的初始化并不完全一样。教材里常见的是 GPT 系列使用 \(\mathcal{N}(0, 0.02)\) 这一类初始化,而部分实现还会对残差路径做额外缩放,目的是控制深层堆叠时的方差传播。面试里更重要的是讲清“为什么要控制激活和梯度方差”,而不是把某个具体常数当成所有 Transformer 的统一规则。
Q6: Dropout 的原理和为什么有效 🟢 [字节] [百度] [通用]¶
题目:解释 Dropout 的工作原理,为什么能防止过拟合?
参考答案:
工作原理:
- 训练时:每个神经元以概率 \(p\) 被随机置零
- 推理时:不做 Dropout ,但权重乘以 \((1-p)\) 补偿(或训练时用 inverted dropout 除以 \((1-p)\))
为什么有效:
- 集成效果:每次训练相当于不同的子网络,最终是指数量级子网络的集成
- 减少共适应:神经元不能依赖特定的其他神经元,被迫学习更鲁棒的特征
- 近似贝叶斯: MC Dropout 可以估计预测不确定性
# PyTorch中的Dropout
class Net(nn.Module):
def __init__(self):
super().__init__()
self.fc1 = nn.Linear(784, 256)
self.dropout = nn.Dropout(p=0.5) # 50%的神经元被丢弃
self.fc2 = nn.Linear(256, 10)
def forward(self, x):
x = F.relu(self.fc1(x))
x = self.dropout(x) # 训练时随机丢弃,推理时自动关闭
x = self.fc2(x)
return x
追问:为什么 Transformer 中用 Dropout ,但现代 LLM 有些不用? → 一个常见解释是:大模型训练数据往往更大、归一化和残差设计更成熟,过拟合不一定像小模型那样突出;同时 Dropout 会引入额外噪声和训练开销,因此一些现代 LLM 会减少或移除部分 Dropout。但这不是绝对规律,是否使用仍要看数据规模、训练阶段和具体架构。
二、 CNN 相关( 4 题)¶
Q7: 卷积运算的参数量和计算量 🟢 [字节] [华为] [阿里]¶
题目:给定输入 \(C_{in} \times H \times W\),卷积核 \(K \times K\),输出通道 \(C_{out}\),计算参数量和 FLOPs 。
参考答案:
参数量:
(+1 是 bias ,有些网络不用 bias )
输出尺寸:
P 是 padding , S 是 stride 。
FLOPs (乘加运算数):
示例:输入 3×224×224 , 3×3 卷积, 64 输出通道, stride=1 , padding=1
- 参数量: 64 × (3 × 3 × 3 + 1) = 1,792
- 输出尺寸: 64 × 224 × 224
- FLOPs : 64 × 224 × 224 × 27 ≈ 8700 万
追问:深度可分离卷积( Depthwise Separable Conv )如何减少计算量? → 分为 Depthwise (每通道独立 K×K 卷积)+ Pointwise ( 1×1 卷积跨通道),参数和计算量减少 \(\frac{1}{C_{out}} + \frac{1}{K^2}\) 倍(通常约 8-9 倍)。 MobileNet 使用。
Q8: 经典 CNN 架构演进 🟡 [字节] [百度] [华为]¶
题目:简述从 AlexNet 到 ResNet 的 CNN 架构演进。
参考答案:
- AlexNet(2012):关键创新为大规模 GPU 训练 + ReLU + Dropout|深度:8 层|Top-5:16.4%
- VGG(2014):关键创新为统一使用 3×3 小卷积核|深度:16/19 层|Top-5:7.3%
- GoogLeNet(2014):关键创新为 Inception 模块(多尺度并行)|深度:22 层|Top-5:6.7%
- ResNet(2015):关键创新为残差连接 → 可训练上千层|深度:152 层|Top-5:3.6%
- DenseNet(2017):关键创新为密集连接(所有层互相连接)|深度:121 层|Top-5:-
- EfficientNet(2019):关键创新为复合缩放(深度 + 宽度 + 分辨率)|深度:-|Top-5:-
ResNet 残差块:
为什么 ResNet 能训练更深的网络:
- 梯度直接通过 shortcut 传回:\(\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y}(1 + \frac{\partial F}{\partial x})\)
- 恒等映射保证了最差情况也不会比浅层差
- 使得千层网络训练成为可能
追问: Vision Transformer ( ViT )和 CNN 的根本区别? → ViT 用 Self-Attention 捕捉全局依赖(感受野=全图), CNN 用局部卷积逐层扩大感受野。 ViT 需大数据预训练,否则不如 CNN 。
Q9: 1×1 卷积的作用 🟢 [字节] [华为]¶
题目: 1×1 卷积有什么用途?
参考答案:
- 通道数调整:调整通道数(升维/降维)而不改变空间尺寸
- 跨通道特征融合:相当于对每个空间位置做全连接
- 降低计算量:在 3×⅗×5 卷积前用 1×1 降通道( Bottleneck 设计)
- 增加非线性: 1×1 Conv + ReLU 引入非线性
Bottleneck 结构( ResNet-50+):
计算量从 \(256 \times 256 \times 3^2 = 590K\) 降到 \(256 \times 64 + 64 \times 64 \times 9 + 64 \times 256 = 70K\)(约 8 倍减少)。
Q10: 感受野的计算 🟡 [字节] [华为]¶
题目:如何计算 CNN 中每层的感受野( Receptive Field )?
参考答案:
递推公式:
其中 \(RF_l\) 是第 \(l\) 层的感受野,\(K_l\) 是卷积核大小,\(S_i\) 是第 \(i\) 层的步长。
示例: 3 层 3×3 卷积( stride=1 )
- 第 1 层: RF = 3
- 第 2 层: RF = 3 + (3-1)×1 = 5
- 第 3 层: RF = 5 + (3-1)×1 = 7
→ 3 个 3×3 卷积的感受野等价于 1 个 7×7 卷积,但参数量更少( 3×9C² vs 49C²)。这是 VGG 用小卷积核的原因。
追问:池化层/空洞卷积如何影响感受野? → 池化层增大感受野( stride>1 );空洞卷积( Dilated Conv )在不增加参数的情况下指数级增大感受野。
三、 RNN 相关( 3 题)¶
Q11: RNN/LSTM/GRU 对比 🟡 [百度] [华为] [字节]¶
题目:对比 Vanilla RNN 、 LSTM 、 GRU 的结构和优缺点。
参考答案:
- 门机制:Vanilla RNN 无门机制;LSTM 有 3 门(遗忘/输入/输出);GRU 有 2 门(重置/更新)
- 长期依赖:Vanilla RNN ❌ 差(梯度消失);LSTM ✅ 好;GRU ✅ 好
- 参数量:Vanilla RNN 为 \(4dh\);LSTM 为 \(4 \times 4dh\);GRU 为 \(3 \times 4dh\)
- 速度:Vanilla RNN 最快;LSTM 最慢;GRU 中等
- 效果:Vanilla RNN 较差;LSTM 好;GRU 接近 LSTM
LSTM 核心:
LSTM 为什么能解决梯度消失:
- 记忆单元 \(C_t\) 的更新是加法形式(而非乘法)
- 遗忘门 \(f_t\) 可以选择性保留信息
- 梯度沿 \(C\) 的回传路径较为通畅
追问: Transformer 出现后 RNN/LSTM 还有用吗? → 在资源受限场景(端侧部署/流式处理)仍有价值。 Mamba/RWKV 等新架构借鉴了 RNN 的线性复杂度优势。
Q12: Seq2Seq 和注意力机制的发展 🟡 [百度] [Google]¶
题目:描述从 Seq2Seq 到 Attention 到 Transformer 的发展脉络。
参考答案:
Seq2Seq (2014)
Encoder RNN → 固定长度向量 → Decoder RNN
问题: 长序列信息瓶颈(所有信息挤入一个向量)
Bahdanau Attention (2015)
Decoder每步关注Encoder的不同位置
score(s_t, h_i) = v^T tanh(W[s_t; h_i])
解决了信息瓶颈,但仍是RNN,无法并行
Transformer (2017)
完全基于Self-Attention,丢弃RNN
优势: 并行计算、长距离依赖、可扩展
成为所有现代LLM的基础
追问: Cross-Attention 和 Self-Attention 的区别? → Self-Attention 的 QKV 来自同一输入; Cross-Attention 的 Q 来自 Decoder , KV 来自 Encoder (或来自不同模态/来源)。
Q13: Teacher Forcing 🟢 [百度] [华为]¶
题目:什么是 Teacher Forcing ?有什么问题?
参考答案:
Teacher Forcing:训练时 Decoder 使用真实的上一步 token (而非模型自己的预测)作为输入。
优点:
- 训练收敛快
- 梯度信号更稳定
缺点:
- Exposure Bias (暴露偏差):训练时总能看到正确的前文,推理时看到的是自己的预测(可能有错),导致错误累积
- 曝光偏差 → 推理时生成质量下降
解决方案:
- Scheduled Sampling :训练后期逐渐增加使用模型自身预测的概率
- Curriculum Learning :由易到难的训练策略
- 强化学习( SCST ):用推理模式的结果做奖励信号
四、损失函数( 3 题)¶
Q14: 常见损失函数对比 🟢 [字节] [阿里] [通用]¶
题目:对比分类和回归任务中常见损失函数的适用场景。
参考答案:
分类损失:
- 交叉熵:公式为 \(-y\log\hat{y}-(1-y)\log(1-\hat{y})\)|适用场景:二分类/多分类标准
- Focal Loss:公式为 \(-\alpha(1-p_t)^\gamma\log(p_t)\)|适用场景:类别不平衡
- Label Smoothing CE:将 hard label 变为 soft label|适用场景:防止过拟合/过度自信
- KL 散度:公式为 \(\sum P\log(P/Q)\)|适用场景:知识蒸馏
- Contrastive Loss:正样本拉近,负样本推远|适用场景:对比学习/表示学习
回归损失:
- MSE:公式为 \(\frac{1}{N}\sum(y-\hat{y})^2\)|特点:对异常值敏感
- MAE:公式为 \(\frac{1}{N}\sum\lvert y-\hat{y}\rvert\)|特点:对异常值鲁棒
- Huber Loss:MSE(小误差)+ MAE(大误差)|特点:平衡鲁棒性和精度
- Smooth L1:类似 Huber|特点:目标检测常用
追问: Label Smoothing 的数学形式? → 将 one-hot 标签 \([0,0,1,0]\) 变为 \([\epsilon/K, \epsilon/K, 1-\epsilon+\epsilon/K, \epsilon/K]\),通常 \(\epsilon=0.1\)
Q15: 对比学习损失函数 🟡 [字节] [Meta] [Google]¶
题目:解释 InfoNCE 损失(对比学习核心损失函数)。
参考答案:
InfoNCE ( SimCLR/CLIP 等使用):
- \(z_i\): anchor 的表示
- \(z_j^+\):正样本的表示
- \(\tau\):温度参数(控制分布锐度)
- sim :余弦相似度
直觉:将正样本拉近,同时将所有负样本推远。本质是一个 (2N-1) 类分类问题。
温度参数 τ 的作用:
- τ 小 → 分布更尖锐,模型更关注 hard negative
- τ 大 → 分布更均匀,对所有 negative 一视同仁
- 通常 τ = 0.07~0.5
追问: CLIP 的训练目标是什么? → 对称的 InfoNCE :图文对之间互相做对比学习,图像查文本 + 文本查图像,两个方向的 InfoNCE 相加。
Q16: 知识蒸馏的损失函数 🟡 [字节] [阿里] [Google]¶
题目:解释知识蒸馏的损失设计。
参考答案:
- \(P_T = \text{softmax}(z_T/T)\):教师的软标签
- \(P_S = \text{softmax}(z_S/T)\):学生的软标签
- T :温度( T>1 使分布更平滑,暴露类间相似性)
- α:软标签损失权重
为什么用软标签:
- 硬标签只告诉模型"猫",软标签告诉模型"85% 猫、 10% 狗、 5% 老虎"
- 软标签包含类间关系(暗知识 / dark knowledge )
追问:温度 T 具体怎么影响? → T=1 时就是正常 softmax ; T>1 使分布变平滑, T 越大类间概率差异越小,暴露更多暗知识。通常 T=3~20 。
五、训练技巧( 4 题)¶
Q17: 学习率调度策略 🟡 [字节] [Google] [通用]¶
题目:常见的学习率调度策略有哪些? LLM 训练用什么策略?
参考答案:
- Step Decay:描述为每 N epochs 降低 γ 倍|适用场景:传统 CNN 训练
- Cosine Annealing:描述为余弦衰减到最小值|适用场景:常用,平滑
- Warmup + Cosine:描述为先线性升温再余弦衰减|适用场景:LLM 训练标配
- OneCycleLR:描述为先升后降,单周期|适用场景:快速训练
- ReduceOnPlateau:描述为 loss 不降时降低 lr|适用场景:微调时常用
LLM 标配: Linear Warmup + Cosine Decay:
学习率
| /\
| / \ Cosine Decay
| / \____
| / Warmup \___
| / \___
|/_________________________ steps
0 warmup_steps total_steps
# 典型配置
optimizer = AdamW(model.parameters(), lr=3e-4, weight_decay=0.1)
scheduler = get_cosine_schedule_with_warmup(
optimizer,
num_warmup_steps=2000, # 预热步数
num_training_steps=100000 # 总步数
)
追问: Warmup 为什么重要? → 训练初期参数随机,梯度方差大,大学习率会导致不稳定。 Warmup 让模型先"热身"找到合理的参数区域。
Q18: 混合精度训练 🟡 [字节] [华为] [Google]¶
题目:什么是混合精度训练?为什么能加速训练又不损失精度?
参考答案:
核心思想:前向和反向用 FP16 计算(快),参数和优化器状态用 FP32 存储(精度)。
关键技术:
- Loss Scaling: FP16 精度有限(最小正数 ~6e-8 ),小梯度可能下溢为 0 。将 loss 放大(如 ×65536 ),反向传播后再缩小。
- 动态 Loss Scaling:自动调整放大倍数,遇到 inf/nan 就减小。
效果:
- 训练速度提升 1.5-3x
- 显存减少约 50%
- 精度几乎无损
# PyTorch AMP(自动混合精度)
scaler = torch.cuda.amp.GradScaler()
for data, target in dataloader:
optimizer.zero_grad()
with torch.cuda.amp.autocast(): # FP16前向
output = model(data)
loss = criterion(output, target)
scaler.scale(loss).backward() # Loss Scaling + FP16反向
scaler.step(optimizer) # 梯度Unscale + FP32更新
scaler.update() # 动态调整Scale
追问: BF16 和 FP16 的区别? → BF16 有 8 位指数(和 FP32 相同范围 ±3.4e38 )但只有 7 位尾数(精度低于 FP16 )。在很多支持 BF16 的训练栈里通常不需要像 FP16 那样依赖 Loss Scaling;近年在数据中心训练环境中它是常见选择之一。
Q19: 数据增强方法 🟢 [字节] [阿里] [华为]¶
题目:常见的图像和文本数据增强方法有哪些?
参考答案:
图像数据增强:
- 随机翻转/旋转/裁剪:几何变换
- 颜色抖动/亮度对比度:光照变换
- Mixup:两张图像线性混合
- CutMix:将一张图的区域贴到另一张
- CutOut/Random Erasing:随机遮盖区域
- AutoAugment:自动搜索增强策略
- RandAugment:随机组合增强操作
文本数据增强:
- 同义词替换:WordNet / LLM 生成
- 随机删除/插入/交换:EDA(Easy Data Augmentation)
- 回译:翻译到其他语言再翻回来
- LLM 改写:用大模型生成语义相同的变体
- 合成数据:用 LLM 生成训练数据
追问: Mixup 的数学? → \(\tilde{x} = \lambda x_i + (1-\lambda)x_j\),\(\tilde{y} = \lambda y_i + (1-\lambda)y_j\),\(\lambda \sim \text{Beta}(\alpha, \alpha)\),通常 \(\alpha=0.2\)
Q20: Test-time Compute 和推理链 🔴 [OpenAI] [Google] [字节] [2025-2026 公开热点]¶
题目:什么是 Test-time Compute (如 o1/DeepSeek-R1 )?为什么它会在 2025-2026 的公开讨论中快速升温?
参考答案:
核心思想:在推理时花更多计算(更长推理链、更多采样、搜索),用算力换效果。
传统LLM: 输入 → 模型 → 直接输出答案
Test-time: 输入 → 模型 → [思考步骤1] → [思考步骤2] → ... → 最终答案
↑ 可能涉及回溯、验证、多路径搜索
代表系统:
- OpenAI o1/o3:公开资料显示其强调更强的推理能力,但具体内部实现并未完全公开
- DeepSeek-R1:公开路线强调通过后训练与推理链提升复杂推理表现
- 商业模型中的 reasoning / extended thinking 模式:通过增加测试时计算改善复杂推理表现
技术方案分类:
- 推理链生成(内部思考):
- 模型生成
<think>...</think>内部推理步骤 - 通过 RL (如 GRPO )训练模型学会推理
-
DeepSeek-R1 方案:先用 RL 训练冷启动推理能力,再 SFT 对齐格式
-
多路径采样 + 验证:
- Best-of-N :采样 N 个回答,用 Reward Model 选最好的
- Majority Voting :多次采样取多数票
-
Tree Search : MCTS 风格的搜索+回溯
-
自我纠错:
- Self-Refine :生成 → 批评 → 修正 → 再批评 → ...
- Reflexion :加入环境反馈
Scaling Law 的新维度:
→ 可以用更小的模型 + 更多推理计算,达到更大模型的效果
面试加分点:
- 理解 Train-time Compute 和 Test-time Compute 的权衡
- 知道 GRPO/PPO 如何训练推理链
- 了解推理链的好处(可解释性+准确率)和代价(延迟+成本)
- 能讨论何时值得投入更多推理计算(数学推理 vs 简单对话)
学习检查清单¶
- 能推导两层网络的反向传播
- 理解各种激活函数的优缺点
- 掌握梯度消失/爆炸的原因和解决方案
- 能对比 BatchNorm 和 LayerNorm
- 了解 CNN 的参数量和 FLOPs 计算
- 理解 LSTM 的门机制和为什么能解决长期依赖
- 掌握常见损失函数(交叉熵/Focal Loss/InfoNCE )
- 了解混合精度训练和学习率调度
- 理解 Test-time Compute 的前沿趋势
⚠️ 核验说明(2026-04-03):本页已完成 2026-04-03 人工复核。BF16、Test-time Compute 和具体模型示例均已改为“公开可观察路线”口径,避免把时点性产品信息写成长期定论。
最后更新日期: 2026-04-03