跳转至

09 - 深度学习进阶

深度学习进阶图

📌 导航提示:本章提供高级深度学习话题的索引与核心要点。详细架构解析、公式推导和代码实现请参考 深度学习/ 目录(特别是 06-高级主题/)。


🗺️ 在 ML 知识体系中的定位

深度学习进阶话题是连接基础模型与前沿研究的桥梁。掌握这些技术能帮助你: - 理解现代架构(如 ResNet 、 Transformer )为何有效 - 提升模型训练的稳定性和效率 - 为阅读前沿论文打下基础


🏗️ 高级架构话题索引

话题 核心思想 适用场景 详细教程
残差网络 (ResNet) 跳跃连接让网络学习残差 F(x)=H(x)-x ,解决深层网络退化问题 图像分类、作为骨干网络 深度学习/02-CNN/
DenseNet 密集连接,每层与所有前层相连,特征复用、参数高效 中小数据集图像任务 深度学习/02-CNN/
EfficientNet 复合缩放(深度×宽度×分辨率),统一缩放策略 资源受限的部署场景 深度学习/02-CNN/
注意力机制 动态权重分配,让模型关注输入中最相关的部分 NLP 、 CV 、多模态 深度学习/04-Transformer/
Transformer 纯注意力架构,抛弃循环和卷积,支持并行计算 NLP 、视觉( ViT )、语音 深度学习/04-Transformer/
图神经网络 (GNN) 在图结构数据上进行消息传递和聚合 社交网络、分子、推荐 本目录 17-图神经网络.md

⚙️ 训练优化技术索引

技术 核心思想 为什么重要 详细教程
Batch Normalization 标准化每层输入的均值和方差 加速收敛、允许更大学习率、减轻初始化敏感性 深度学习/01-foundation/
Layer/Group/Instance Norm BN 的变体,适用于小 batch 或序列任务 NLP 中 LayerNorm 是标准选择 深度学习/06-高级主题/
混合精度训练 用 FP16 计算前向/反向, FP32 存储参数 显存减半、训练加速 1.5-2 倍 深度学习/06-高级主题/
梯度累积 多个小 batch 梯度累加后再更新 用小显存模拟大 batch 训练 深度学习/06-高级主题/
学习率调度 Warmup + 余弦退火/线性衰减 稳定训练早期、提升最终性能 深度学习/01-foundation/
知识蒸馏 大模型(Teacher)指导小模型(Student)学习 模型压缩、部署优化 深度学习/06-高级主题/

🔧 正则化与泛化技术

技术 一句话核心
Dropout 训练时随机丢弃神经元,等价于集成多个子网络
数据增强 通过变换扩充训练集(翻转、裁剪、 Mixup 、 CutMix )
权重衰减 L2 正则化,约束权重大小防止过拟合
Early Stopping 验证集性能不再提升时停止训练
标签平滑 软化 one-hot 标签,防止模型过度自信

📋 面试要点

  1. ResNet 为什么能训练非常深的网络? → 残差连接使梯度可以直接回传,缓解梯度消失;恒等映射比学习完整映射更容易
  2. BatchNorm 在训练和推理时的区别? → 训练用当前 batch 统计量,推理用全局移动平均; eval 模式切换很关键
  3. 注意力机制相比 CNN/RNN 的优势? → 全局感受野、并行计算、动态权重;缺点是计算复杂度 O(n²)
  4. 知识蒸馏的核心 loss 是什么? → 软标签 KL 散度 + 硬标签交叉熵的加权组合

✏️ 练习

  1. 架构对比分析:选择一个图像分类任务,分别使用 VGG 、 ResNet 、 EfficientNet (可用预训练模型微调),对比参数量、训练速度、准确率,总结各架构的优劣势。

📖 下一步学习10-强化学习基础.md | 高级话题详解 → 深度学习/06-高级主题/