大模型( LLM )系统学习指南¶
⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。
写给曾经的"调包侠":如果你也和我一样,习惯了让 AI 写代码,离开 AI 就寸步难行——那么这份指南就是为你准备的。我们要做的不是"学会调用 API",而是真正理解大模型是如何工作的。
为什么要学习大模型¶
大语言模型( Large Language Model, LLM )是近年来 AI 领域最重要的突破。从 ChatGPT 到 Claude ,从开源的 Llama 到国内的 ChatGLM ,这些模型正在改变我们与计算机交互的方式。
但更重要的是:理解大模型,是理解现代 AI 的必经之路。
学习前的自我检查¶
你需要具备的基础¶
✅ 必须掌握(如果你已经学过 ML/DL ,这些应该都有): - Python 编程基础 - PyTorch 或 TensorFlow 基础使用 - 深度学习基础(神经网络、反向传播、优化器) - 基本的线性代数和概率论
⚠️ 建议掌握(如果没有,学习过程中会补充): - Transformer 架构的基本概念 - 注意力机制的原理 - 基本的 Linux 命令
心态准备¶
学习大模型不是一件容易的事。你会遇到: - 复杂的数学公式 - 需要大量计算资源的实验 - 看似永远无法调通的 bug
但请记住:每一次亲手解决问题的经历,都会让你离"独立开发者"更近一步。
学习路线图¶
┌─────────────────────────────────────────────────────────────────┐
│ 大模型学习路线图 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 第一阶段:基础巩固(2-3周) │
│ ├── Transformer架构深入理解 │
│ ├── 自注意力机制数学推导 │
│ ├── 位置编码与变体 │
│ └── 🎯 里程碑:手写完整Transformer(不依赖模板!) │
│ │
│ 第二阶段:大模型核心技术(3-4周) │
│ ├── 模型并行与分布式训练 │
│ ├── 高效微调技术(LoRA、QLoRA) │
│ ├── 推理优化(KV Cache、量化) │
│ ├── 长上下文处理技术 │
│ └── 🎯 里程碑:实现LoRA并微调一个真实模型 │
│ │
│ 第三阶段:系统与工程(3-4周) │
│ ├── 数据工程与预处理 │
│ ├── 训练基础设施(混合精度、梯度累积) │
│ ├── 推理服务部署(vLLM、TGI) │
│ ├── 对齐技术(RLHF、DPO) │
│ └── 🎯 里程碑:部署本地大模型API服务 │
│ │
│ 第四阶段:前沿探索(持续) │
│ ├── 多模态大模型 │
│ ├── 智能体(Agent)系统 │
│ ├── RAG与长文本处理 │
│ └── 模型架构创新(Mamba、RWKV) │
│ │
└─────────────────────────────────────────────────────────────────┘
核心学习原则¶
1. 先思考,后验证¶
遇到问题时,先自己思考至少 10 分钟,写下你的想法和可能的解决方案,然后再去查资料或问 AI 。
为什么? 这个过程会强迫你的大脑建立神经连接。直接问 AI 得到答案,你的大脑什么都没做。
2. 手写代码,拒绝复制粘贴¶
这是最重要的一点。
当你学习一个算法时: - ❌ 不要:打开 AI 助手,说"帮我实现 Transformer" - ✅ 要:打开一个空白文件,从import torch开始,一行一行自己写
你会写得很慢,会出错,会调试很久——但这正是学习的过程。
3. 数学推导,不要只看¶
看到公式时,拿起笔和纸,自己推导一遍。例如: - 注意力分数的计算 - 反向传播的梯度推导 - 损失函数的数学形式
4. 实验验证每个概念¶
每个理论概念都要有对应的代码实验。例如: - 学了位置编码?画个图看看不同位置的编码是什么样的 - 学了注意力?可视化一下注意力权重矩阵 - 学了量化?对比一下 FP32 和 INT8 的精度差异
5. 教给别人¶
尝试用自己的话解释概念。可以: - 写学习笔记 - 在论坛回答问题 - 给同学/朋友讲解
如果你不能简单解释清楚,说明你还没真正理解。
每个阶段的学习方法¶
第一阶段:基础巩固¶
目标:建立对 Transformer 的深入理解
学习方法: 1. 阅读论文《 Attention Is All You Need 》(先读摘要、结论,再读方法) 2. 跟着教程理解每个组件 3. 关键:关闭所有 AI 助手,手写一个 Transformer 4. 训练一个字符级语言模型(生成莎士比亚风格的文本)
检验标准: - 能手写出 Transformer 的核心代码(不查资料) - 能解释清楚为什么需要位置编码 - 能画出注意力权重的热力图
第二阶段:核心技术¶
目标:理解现代大模型的关键技术
学习方法: 1. 学习 LoRA 论文,理解低秩适配的原理 2. 动手实现 LoRA (从空白文件开始) 3. 在一个小数据集上微调 BERT 4. 学习推理优化技术,对比不同方法的性能
检验标准: - 能解释 LoRA 为什么能减少显存占用 - 能实现 LoRA 的前向和反向传播 - 能部署一个优化后的推理服务
第三阶段:系统与工程¶
目标:理解大模型作为一个系统的全貌
学习方法: 1. 学习数据工程的最佳实践 2. 写一个完整的训练脚本(包含日志、检查点、恢复) 3. 学习 vLLM 等推理框架的原理 4. 理解 RLHF 的训练流程
检验标准: - 能独立搭建一个训练 pipeline - 能部署一个高并发推理服务 - 能理解 DPO 和 PPO 的区别
第四阶段:前沿探索¶
目标:了解当前研究前沿,找到自己的兴趣点
学习方法: 1. 阅读最新的论文( arXiv 每日更新) 2. 复现感兴趣的论文 3. 参与开源项目 4. 尝试自己的改进想法
推荐学习资源¶
必读论文¶
基础: 1. Attention Is All You Need - Transformer 开山之作 2. BERT: Pre-training of Deep Bidirectional Transformers 3. Language Models are Few-Shot Learners - GPT-3
核心技术: 4. LoRA: Low-Rank Adaptation of Large Language Models 5. Training Language Models to Follow Instructions - InstructGPT 6. Direct Preference Optimization - DPO
推理优化: 7. vLLM: Easy, Fast, and Cheap LLM Serving 8. FlashAttention: Fast and Memory-Efficient Exact Attention
推荐课程¶
- Stanford CS224N: Natural Language Processing with Deep Learning
- Stanford CS324: Large Language Models
- Princeton COS597G: Understanding Large Language Models
推荐博客和教程¶
- The Illustrated Transformer - 可视化理解 Transformer
- Andrej Karpathy 的神经网络教程 - 从零开始实现神经网络
- Hugging Face NLP Course - 实践导向的 NLP 课程
🎥 视频教程链接¶
中文视频教程¶
B 站推荐¶
💡 以下为推荐的 UP 主和搜索关键词,请在 B 站直接搜索获取最新内容。
推荐 UP 主(在 B 站搜索其名称即可找到): - 李沐 - 「动手学深度学习」系列、论文精读( Transformer 、 GPT 、 BERT 等) - 跟李沐学 AI - 大模型相关论文逐段精读 - 3Blue1Brown - 神经网络和数学直觉可视化 - 同济子豪兄 - 深度学习和大模型入门讲解
推荐搜索关键词: - "Transformer 架构 详解"、"Attention 机制 原理" - "LoRA 微调 教程"、"RLHF DPO 对齐" - "vLLM 部署 教程"、"大模型推理优化"
国内 MOOC 平台¶
💡 以下为推荐平台,请在平台内搜索相关课程名称,获取最新开课信息。
英文视频教程¶
YouTube 优质频道¶
- Andrej Karpathy - 从零开始实现 GPT
- 3Blue1Brown - 神经网络可视化理解
- StatQuest with Josh Starmer - 机器学习概念直观解释
- Hugging Face - NLP 和大模型官方教程
- Yannic Kilcher - 论文解读和前沿技术
Coursera 课程¶
- Deep Learning Specialization - 吴恩达深度学习专项课程
- Natural Language Processing Specialization - NLP 专项课程
- Machine Learning Specialization - 机器学习专项课程
Udemy 课程¶
- Complete Guide to LLMs - 大模型完整指南
- LangChain for LLM Application Development - LangChain 应用开发
- PyTorch for Deep Learning - PyTorch 深度学习
edX 课程¶
- CS224N: NLP with Deep Learning - 斯坦福 NLP 课程
- MIT 6.S191: Introduction to Deep Learning - MIT 深度学习入门
💻 在线练习平台¶
LLM 学习实践平台¶
- Hugging Face Course - NLP 和 Transformers 实践课程, LLM 学习必备
- Papers with Code - LLM 相关论文代码实现和 SOTA 对比
- Google Colab - 免费 GPU 环境,适合 Transformer 实验
- Kaggle - NLP 竞赛和 LLM 相关数据集
LLM 相关课程¶
- Fast.AI - 实用导向的深度学习和 NLP 课程
- Coursera - 搜索"Natural Language Processing Specialization"等课程
- Udacity - NLP 和 Transformer 纳米学位项目
- edX - Stanford CS224n 等 NLP 免费课程
实践项目建议¶
项目 1 :手写 Transformer (第一阶段)¶
目标:从零实现一个 Transformer 模型
要求: - 不使用任何预定义的 Transformer 模块 - 自己实现多头注意力 - 自己实现位置编码 - 训练一个字符级语言模型
参考输出:能生成莎士比亚风格的文本
项目 2 : LoRA 微调(第二阶段)¶
目标:实现 LoRA 并应用到真实模型
要求: - 自己实现 LoRA 层 - 在 GLUE 数据集上微调 BERT - 对比全量微调和 LoRA 的效果
项目 3 :本地推理服务(第三阶段)¶
目标:部署一个本地大模型 API 服务
要求: - 支持并发请求 - 实现流式输出 - 支持量化推理 - 有简单的 Web 界面
常见陷阱与如何避免¶
陷阱 1 :追求大模型,忽视基础¶
表现:一上来就想训练 7B 参数的模型
解决:先在小模型上验证你的想法,再扩大规模
陷阱 2 :只看不动手¶
表现:看了很多论文和教程,但一行代码都没写
解决:每学一个概念,就写代码验证
陷阱 3 :过度依赖 AI 助手¶
表现:一遇到问题就问 AI ,从不自己思考
解决:设定"思考时间",强制自己先想 10 分钟
陷阱 4 :贪多求全¶
表现:同时学多个方向,结果都不深入
解决:一个阶段专注于一个主题,彻底搞懂再往下
陷阱 5 :忽视工程能力¶
表现:只关注算法,不关注代码质量和系统设计
解决:学习软件工程最佳实践,写好文档和测试
学习进度检查表¶
第一阶段检查点¶
- 能手写 Transformer 的核心组件
- 能解释自注意力的计算过程
- 能画出位置编码的图像
- 训练了一个能用的字符级语言模型
- 能独立调试模型训练中的问题
第二阶段检查点¶
- 实现了 LoRA 的前向和反向传播
- 能解释为什么 LoRA 节省显存
- 成功微调了一个预训练模型
- 实现了 KV Cache 优化
- 对比了不同量化方法的性能
第三阶段检查点¶
- 搭建了完整的数据处理 pipeline
- 写了包含日志和检查点的训练脚本
- 部署了本地推理服务
- 理解了 RLHF 的训练流程
- 能优化模型的推理性能
写在最后¶
学习大模型是一段漫长的旅程。你会遇到挫折,会有想要放弃的时刻,会有"为什么我就是不懂"的沮丧。
但请记住:每一个你亲手解决的 bug ,每一次你独立推导的公式,每一行你手写的代码,都在让你变得更强。
大模型时代,真正的竞争力不是"会用 AI 写代码",而是"理解代码背后的原理"。
让我们一起,从"调包侠"成长为真正的工程师。
下一步:开始第一阶段:基础巩固
📚 参考文献¶
核心论文¶
基础架构¶
- Attention Is All You Need - Vaswani et al., 2017
-
Transformer 开山之作,奠定了现代大模型的基础
-
BERT: Pre-training of Deep Bidirectional Transformers - Devlin et al., 2018
-
双向预训练模型, NLP 领域的里程碑
-
Improving Language Understanding by Generative Pre-Training - Radford et al., 2018
-
GPT-1 ,生成式预训练的开端
-
Language Models are Few-Shot Learners - Brown et al., 2020
-
GPT-3 ,展示了大规模语言模型的强大能力
-
Training Compute-Optimal Large Language Models - Hoffmann et al., 2022
- Chinchilla 论文,提出了计算优化的缩放定律
微调技术¶
- LoRA: Low-Rank Adaptation of Large Language Models - Hu et al., 2021
-
低秩适配技术,高效微调的核心方法
-
QLoRA: Efficient Finetuning of Quantized LLMs - Dettmers et al., 2023
-
量化感知的 LoRA ,进一步降低显存需求
-
Training Language Models to Follow Instructions with Human Feedback - Ouyang et al., 2022
-
InstructGPT , RLHF 对齐技术的奠基之作
-
Direct Preference Optimization: Your Language Model is Secretly a Reward Model - Rafailov et al., 2023
- DPO ,简化 RLHF 流程的新方法
推理优化¶
-
vLLM: Easy, Fast, and Cheap LLM Serving - Kwon et al., 2023
- PagedAttention 机制,高效推理服务框架
-
FlashAttention: Fast and Memory-Efficient Exact Attention - Dao et al., 2022
- FlashAttention ,加速注意力计算的核心技术
-
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning - Dao, 2023
- FlashAttention-2 ,进一步优化并行性
-
Efficient Large Language Model Serving on GPUs - Liu et al., 2023
- Orca 框架, GPU 上的高效 LLM 服务
长上下文¶
-
Longformer: The Long-Document Transformer - Beltagy et al., 2020
- 处理长文档的 Transformer 变体
-
Scaling Laws for Neural Language Models - Kaplan et al., 2020
- 神经语言模型的缩放定律
技术博客¶
中文博客¶
- Hugging Face 中文博客 - Hugging Face 官方中文博客
- 李沐:动手学深度学习 - 深度学习系统教程
- Jay Alammar 的博客 - 可视化理解 Transformer 和 NLP 概念
- Lilian Weng 的博客 - 强化学习、 NLP 等深度学习主题
- Sebastian Ruder 的博客 - NLP 和深度学习研究总结
英文博客¶
- The Gradient - AI 研究社区博客
- OpenAI Research - OpenAI 官方研究博客
- Google AI Blog - Google AI 研究博客
- DeepMind Blog - DeepMind 研究博客
- Distill.pub - 可视化机器学习研究
开源项目¶
模型训练与微调¶
- Hugging Face Transformers - 最流行的 Transformer 库
- PEFT (Parameter-Efficient Fine-Tuning) - 参数高效微调库
- bitsandbytes - 量化和优化工具
- DeepSpeed - 分布式训练框架
- Megatron-LM - NVIDIA 的大规模训练框架
推理与服务¶
- vLLM - 高效 LLM 推理服务
- Text Generation Inference (TGI) - Hugging Face 的推理服务
- llama.cpp - CPU 推理优化
- AutoGPTQ - GPTQ 量化工具
- AWQ (Activation-aware Weight Quantization) - 激活感知量化
应用开发¶
- LangChain - LLM 应用开发框架
- LlamaIndex - 数据框架,构建 LLM 应用
- AutoGPT - 自主 AI 智能体
- Semantic Kernel - 微软的 LLM 应用开发 SDK
参考书籍¶
中文书籍¶
- 《深度学习》- Ian Goodfellow 、 Yoshua Bengio 、 Aaron Courville 著,人民邮电出版社
-
深度学习领域的"圣经",系统全面
-
《动手学深度学习》- 李沐、阿斯顿·张 著,人民邮电出版社
-
实践导向,配有 PyTorch 代码
-
《自然语言处理综论》- Daniel Jurafsky 、 James H. Martin 著,电子工业出版社
-
NLP 领域的经典教材
-
《统计学习方法》- 李航 著,清华大学出版社
-
机器学习基础理论的权威教材
-
《机器学习》- 周志华 著,清华大学出版社
-
"西瓜书",国内机器学习经典教材
-
《强化学习》- Richard S. Sutton 、 Andrew G. Barto 著,电子工业出版社
-
强化学习领域的奠基之作
-
《 Python 深度学习》- François Chollet 著,人民邮电出版社
-
Keras 作者撰写的深度学习实践指南
-
《图解深度学习》- [日] 斋藤康毅 著,人民邮电出版社
- 图文并茂,适合入门
英文书籍¶
- "Deep Learning" - Ian Goodfellow, Yoshua Bengio, Aaron Courville
-
MIT Press ,深度学习领域的权威教材
-
"Speech and Language Processing" - Daniel Jurafsky, James H. Martin
-
Stanford , NLP 领域的经典教材
-
"Neural Networks and Deep Learning" - Michael Nielsen
-
免费在线教材,通俗易懂
-
"Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" - Aurélien Géron
-
O'Reilly ,实践导向的机器学习指南
-
"Natural Language Processing with Transformers" - Lewis Tunstall, Leandro von Werra, Thomas Wolf
-
O'Reilly , Transformer 实战指南
-
"Reinforcement Learning: An Introduction" - Richard S. Sutton, Andrew G. Barto
-
MIT Press ,强化学习奠基之作
-
"Python Machine Learning" - Sebastian Raschka, Vahid Mirjalili
-
Packt , Python 机器学习实践
-
"Designing Machine Learning Systems" - Chip Huyen
- O'Reilly ,机器学习系统设计
在线课程¶
中文课程¶
- 李沐:动手学深度学习 - 系统的深度学习教程(含配套 B 站视频,搜索"李沐 动手学深度学习")
- Andrej Karpathy: Neural Networks: Zero to Hero - 从零实现 GPT ( B 站搜索"Karpathy"可找到中文字幕版)
- 吴恩达机器学习/深度学习课程 - B 站搜索"吴恩达 机器学习"或"吴恩达 深度学习"
英文课程¶
- Stanford CS224N: NLP with Deep Learning - 斯坦福 NLP 课程
- Stanford CS324: Large Language Models - 斯坦福大模型课程
- Princeton COS597G: Understanding Large Language Models - 普林斯顿 LLM 课程
- Fast.AI Practical Deep Learning for Coders - 实用深度学习
- Deep Learning Specialization (Coursera) - 吴恩达深度学习专项
社区资源¶
中文社区¶
- 知乎深度学习话题 - 深度学习讨论
- 机器之心 - AI 行业媒体
- 量子位 - AI 前沿资讯
- Datawhale - 开源学习社区
- Hugging Face 中文社区 - 模型和数据集分享
英文社区¶
- Papers with Code - 论文与代码实现
- arXiv.org - 最新 AI 论文
- Machine Learning Subreddit - 机器学习讨论
- Hugging Face - 模型和数据集平台
- Weights & Biases - 实验追踪和可视化
论坛与问答¶
- Stack Overflow AI/ML 标签 - 技术问答
- PyTorch Forum - PyTorch 官方论坛
- Hugging Face Forum - Hugging Face 讨论区
- Reddit r/MachineLearning - 机器学习讨论
邮件列表与 Slack¶
- Distill.pub - 可视化研究
- OpenAI Community - OpenAI 社区
- LangChain Discord - LangChain 社区
最后更新日期: 2026-02-12 适用版本: LLM 学习教程 v2026