09 - 深度学习进阶¶

📌 导航提示：本章提供高级深度学习话题的索引与核心要点。详细架构解析、公式推导和代码实现请参考 深度学习/ 目录（特别是 06-高级主题/）。

🗺️ 在 ML 知识体系中的定位¶

深度学习进阶话题是连接基础模型与前沿研究的桥梁。掌握这些技术能帮助你： - 理解现代架构（如 ResNet 、 Transformer ）为何有效 - 提升模型训练的稳定性和效率 - 为阅读前沿论文打下基础

话题	核心思想	适用场景	详细教程
残差网络 (ResNet)	跳跃连接让网络学习残差 F(x)=H(x)-x ，解决深层网络退化问题	图像分类、作为骨干网络	`深度学习/02-CNN/`
DenseNet	密集连接，每层与所有前层相连，特征复用、参数高效	中小数据集图像任务	`深度学习/02-CNN/`
EfficientNet	复合缩放（深度×宽度×分辨率），统一缩放策略	资源受限的部署场景	`深度学习/02-CNN/`
注意力机制	动态权重分配，让模型关注输入中最相关的部分	NLP 、 CV 、多模态	`深度学习/04-Transformer/`
Transformer	纯注意力架构，抛弃循环和卷积，支持并行计算	NLP 、视觉（ ViT ）、语音	`深度学习/04-Transformer/`
图神经网络 (GNN)	在图结构数据上进行消息传递和聚合	社交网络、分子、推荐	本目录 `17-图神经网络.md`

技术	核心思想	为什么重要	详细教程
Batch Normalization	标准化每层输入的均值和方差	加速收敛、允许更大学习率、减轻初始化敏感性	`深度学习/01-foundation/`
Layer/Group/Instance Norm	BN 的变体，适用于小 batch 或序列任务	NLP 中 LayerNorm 是标准选择	`深度学习/06-高级主题/`
混合精度训练	用 FP16 计算前向/反向， FP32 存储参数	显存减半、训练加速 1.5-2 倍	`深度学习/06-高级主题/`
梯度累积	多个小 batch 梯度累加后再更新	用小显存模拟大 batch 训练	`深度学习/06-高级主题/`
学习率调度	Warmup + 余弦退火/线性衰减	稳定训练早期、提升最终性能	`深度学习/01-foundation/`
知识蒸馏	大模型(Teacher)指导小模型(Student)学习	模型压缩、部署优化	`深度学习/06-高级主题/`

架构对比分析：选择一个图像分类任务，分别使用 VGG 、 ResNet 、 EfficientNet （可用预训练模型微调），对比参数量、训练速度、准确率，总结各架构的优劣势。

📖 下一步学习：10-强化学习基础.md | 高级话题详解 → 深度学习/06-高级主题/