大模型（ LLM ）系统学习指南¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

写给曾经的"调包侠"：如果你也和我一样，习惯了让 AI 写代码，离开 AI 就寸步难行——那么这份指南就是为你准备的。我们要做的不是"学会调用 API"，而是真正理解大模型是如何工作的。

为什么要学习大模型¶

大语言模型（ Large Language Model, LLM ）是近年来 AI 领域最重要的突破。从 ChatGPT 到 Claude ，从开源的 Llama 到国内的 ChatGLM ，这些模型正在改变我们与计算机交互的方式。

但更重要的是：理解大模型，是理解现代 AI 的必经之路。

学习前的自我检查¶

你需要具备的基础¶

✅ 必须掌握（如果你已经学过 ML/DL ，这些应该都有）： - Python 编程基础 - PyTorch 或 TensorFlow 基础使用 - 深度学习基础（神经网络、反向传播、优化器） - 基本的线性代数和概率论

⚠️ 建议掌握（如果没有，学习过程中会补充）： - Transformer 架构的基本概念 - 注意力机制的原理 - 基本的 Linux 命令

心态准备¶

学习大模型不是一件容易的事。你会遇到： - 复杂的数学公式 - 需要大量计算资源的实验 - 看似永远无法调通的 bug

但请记住：每一次亲手解决问题的经历，都会让你离"独立开发者"更近一步。

学习路线图¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│                        大模型学习路线图                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  第一阶段：基础巩固（2-3周）                                      │
│  ├── Transformer架构深入理解                                     │
│  ├── 自注意力机制数学推导                                        │
│  ├── 位置编码与变体                                              │
│  └── 🎯 里程碑：手写完整Transformer（不依赖模板！）               │
│                                                                 │
│  第二阶段：大模型核心技术（3-4周）                                │
│  ├── 模型并行与分布式训练                                        │
│  ├── 高效微调技术（LoRA、QLoRA）                                 │
│  ├── 推理优化（KV Cache、量化）                                  │
│  ├── 长上下文处理技术                                            │
│  └── 🎯 里程碑：实现LoRA并微调一个真实模型                       │
│                                                                 │
│  第三阶段：系统与工程（3-4周）                                    │
│  ├── 数据工程与预处理                                            │
│  ├── 训练基础设施（混合精度、梯度累积）                          │
│  ├── 推理服务部署（vLLM、TGI）                                   │
│  ├── 对齐技术（RLHF、DPO）                                       │
│  └── 🎯 里程碑：部署本地大模型API服务                            │
│                                                                 │
│  第四阶段：前沿探索（持续）                                       │
│  ├── 多模态大模型                                                │
│  ├── 智能体（Agent）系统                                         │
│  ├── RAG与长文本处理                                             │
│  └── 模型架构创新（Mamba、RWKV）                                 │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

核心学习原则¶

1. 先思考，后验证¶

遇到问题时，先自己思考至少 10 分钟，写下你的想法和可能的解决方案，然后再去查资料或问 AI 。

为什么？ 这个过程会强迫你的大脑建立神经连接。直接问 AI 得到答案，你的大脑什么都没做。

2. 手写代码，拒绝复制粘贴¶

这是最重要的一点。

当你学习一个算法时： - ❌ 不要：打开 AI 助手，说"帮我实现 Transformer" - ✅ 要：打开一个空白文件，从import torch开始，一行一行自己写

你会写得很慢，会出错，会调试很久——但这正是学习的过程。

3. 数学推导，不要只看¶

看到公式时，拿起笔和纸，自己推导一遍。例如： - 注意力分数的计算 - 反向传播的梯度推导 - 损失函数的数学形式

4. 实验验证每个概念¶

每个理论概念都要有对应的代码实验。例如： - 学了位置编码？画个图看看不同位置的编码是什么样的 - 学了注意力？可视化一下注意力权重矩阵 - 学了量化？对比一下 FP32 和 INT8 的精度差异

5. 教给别人¶

尝试用自己的话解释概念。可以： - 写学习笔记 - 在论坛回答问题 - 给同学/朋友讲解

如果你不能简单解释清楚，说明你还没真正理解。

每个阶段的学习方法¶

第一阶段：基础巩固¶

目标：建立对 Transformer 的深入理解

学习方法： 1. 阅读论文《 Attention Is All You Need 》（先读摘要、结论，再读方法） 2. 跟着教程理解每个组件 3. 关键：关闭所有 AI 助手，手写一个 Transformer 4. 训练一个字符级语言模型（生成莎士比亚风格的文本）

检验标准： - 能手写出 Transformer 的核心代码（不查资料） - 能解释清楚为什么需要位置编码 - 能画出注意力权重的热力图

第二阶段：核心技术¶

目标：理解现代大模型的关键技术

学习方法： 1. 学习 LoRA 论文，理解低秩适配的原理 2. 动手实现 LoRA （从空白文件开始） 3. 在一个小数据集上微调 BERT 4. 学习推理优化技术，对比不同方法的性能

检验标准： - 能解释 LoRA 为什么能减少显存占用 - 能实现 LoRA 的前向和反向传播 - 能部署一个优化后的推理服务

第三阶段：系统与工程¶

目标：理解大模型作为一个系统的全貌

学习方法： 1. 学习数据工程的最佳实践 2. 写一个完整的训练脚本（包含日志、检查点、恢复） 3. 学习 vLLM 等推理框架的原理 4. 理解 RLHF 的训练流程

检验标准： - 能独立搭建一个训练 pipeline - 能部署一个高并发推理服务 - 能理解 DPO 和 PPO 的区别

第四阶段：前沿探索¶

目标：了解当前研究前沿，找到自己的兴趣点

学习方法： 1. 阅读最新的论文（ arXiv 每日更新） 2. 复现感兴趣的论文 3. 参与开源项目 4. 尝试自己的改进想法

推荐 UP 主（在 B 站搜索其名称即可找到）： - 李沐 - 「动手学深度学习」系列、论文精读（ Transformer 、 GPT 、 BERT 等） - 跟李沐学 AI - 大模型相关论文逐段精读 - 3Blue1Brown - 神经网络和数学直觉可视化 - 同济子豪兄 - 深度学习和大模型入门讲解

推荐搜索关键词： - "Transformer 架构详解"、"Attention 机制原理" - "LoRA 微调教程"、"RLHF DPO 对齐" - "vLLM 部署教程"、"大模型推理优化"

国内 MOOC 平台¶

💡 以下为推荐平台，请在平台内搜索相关课程名称，获取最新开课信息。

中国大学 MOOC - 搜索"自然语言处理"、"深度学习"
学堂在线 - 搜索"深度学习"、"人工智能"
网易公开课 - 搜索"机器学习"、"大模型"

英文视频教程¶

YouTube 优质频道¶

Andrej Karpathy - 从零开始实现 GPT
3Blue1Brown - 神经网络可视化理解
StatQuest with Josh Starmer - 机器学习概念直观解释
Hugging Face - NLP 和大模型官方教程
Yannic Kilcher - 论文解读和前沿技术

💻 在线练习平台¶

LLM 学习实践平台¶

Hugging Face Course - NLP 和 Transformers 实践课程， LLM 学习必备
Papers with Code - LLM 相关论文代码实现和 SOTA 对比
Google Colab - 免费 GPU 环境，适合 Transformer 实验
Kaggle - NLP 竞赛和 LLM 相关数据集

LLM 相关课程¶

Fast.AI - 实用导向的深度学习和 NLP 课程
Coursera - 搜索"Natural Language Processing Specialization"等课程
Udacity - NLP 和 Transformer 纳米学位项目
edX - Stanford CS224n 等 NLP 免费课程

实践项目建议¶

项目 1 ：手写 Transformer （第一阶段）¶

目标：从零实现一个 Transformer 模型

要求： - 不使用任何预定义的 Transformer 模块 - 自己实现多头注意力 - 自己实现位置编码 - 训练一个字符级语言模型

参考输出：能生成莎士比亚风格的文本

项目 2 ： LoRA 微调（第二阶段）¶

目标：实现 LoRA 并应用到真实模型

要求： - 自己实现 LoRA 层 - 在 GLUE 数据集上微调 BERT - 对比全量微调和 LoRA 的效果

项目 3 ：本地推理服务（第三阶段）¶

目标：部署一个本地大模型 API 服务

要求： - 支持并发请求 - 实现流式输出 - 支持量化推理 - 有简单的 Web 界面

常见陷阱与如何避免¶

陷阱 1 ：追求大模型，忽视基础¶

表现：一上来就想训练 7B 参数的模型

解决：先在小模型上验证你的想法，再扩大规模

陷阱 2 ：只看不动手¶

表现：看了很多论文和教程，但一行代码都没写

解决：每学一个概念，就写代码验证

陷阱 3 ：过度依赖 AI 助手¶

表现：一遇到问题就问 AI ，从不自己思考

解决：设定"思考时间"，强制自己先想 10 分钟

陷阱 4 ：贪多求全¶

表现：同时学多个方向，结果都不深入

解决：一个阶段专注于一个主题，彻底搞懂再往下

陷阱 5 ：忽视工程能力¶

表现：只关注算法，不关注代码质量和系统设计

解决：学习软件工程最佳实践，写好文档和测试

学习进度检查表¶

第一阶段检查点¶

能手写 Transformer 的核心组件
能解释自注意力的计算过程
能画出位置编码的图像
训练了一个能用的字符级语言模型
能独立调试模型训练中的问题

第二阶段检查点¶

实现了 LoRA 的前向和反向传播
能解释为什么 LoRA 节省显存
成功微调了一个预训练模型
实现了 KV Cache 优化
对比了不同量化方法的性能

第三阶段检查点¶

搭建了完整的数据处理 pipeline
写了包含日志和检查点的训练脚本
部署了本地推理服务
理解了 RLHF 的训练流程
能优化模型的推理性能

写在最后¶

学习大模型是一段漫长的旅程。你会遇到挫折，会有想要放弃的时刻，会有"为什么我就是不懂"的沮丧。

但请记住：每一个你亲手解决的 bug ，每一次你独立推导的公式，每一行你手写的代码，都在让你变得更强。

大模型时代，真正的竞争力不是"会用 AI 写代码"，而是"理解代码背后的原理"。

让我们一起，从"调包侠"成长为真正的工程师。

下一步：开始第一阶段：基础巩固

📚 参考文献¶

核心论文¶

基础架构¶

Attention Is All You Need - Vaswani et al., 2017
Transformer 开山之作，奠定了现代大模型的基础
BERT: Pre-training of Deep Bidirectional Transformers - Devlin et al., 2018
双向预训练模型， NLP 领域的里程碑
Improving Language Understanding by Generative Pre-Training - Radford et al., 2018
GPT-1 ，生成式预训练的开端
Language Models are Few-Shot Learners - Brown et al., 2020
GPT-3 ，展示了大规模语言模型的强大能力
Training Compute-Optimal Large Language Models - Hoffmann et al., 2022
Chinchilla 论文，提出了计算优化的缩放定律

微调技术¶

LoRA: Low-Rank Adaptation of Large Language Models - Hu et al., 2021
低秩适配技术，高效微调的核心方法
QLoRA: Efficient Finetuning of Quantized LLMs - Dettmers et al., 2023
量化感知的 LoRA ，进一步降低显存需求
Training Language Models to Follow Instructions with Human Feedback - Ouyang et al., 2022
InstructGPT ， RLHF 对齐技术的奠基之作
Direct Preference Optimization: Your Language Model is Secretly a Reward Model - Rafailov et al., 2023
DPO ，简化 RLHF 流程的新方法

推理优化¶

vLLM: Easy, Fast, and Cheap LLM Serving - Kwon et al., 2023
- PagedAttention 机制，高效推理服务框架
FlashAttention: Fast and Memory-Efficient Exact Attention - Dao et al., 2022
- FlashAttention ，加速注意力计算的核心技术
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning - Dao, 2023
- FlashAttention-2 ，进一步优化并行性
Efficient Large Language Model Serving on GPUs - Liu et al., 2023
- Orca 框架， GPU 上的高效 LLM 服务

长上下文¶

Longformer: The Long-Document Transformer - Beltagy et al., 2020
- 处理长文档的 Transformer 变体
Scaling Laws for Neural Language Models - Kaplan et al., 2020
- 神经语言模型的缩放定律

技术博客¶

中文博客¶

Hugging Face 中文博客 - Hugging Face 官方中文博客
李沐：动手学深度学习 - 深度学习系统教程
Jay Alammar 的博客 - 可视化理解 Transformer 和 NLP 概念
Lilian Weng 的博客 - 强化学习、 NLP 等深度学习主题
Sebastian Ruder 的博客 - NLP 和深度学习研究总结

英文博客¶

The Gradient - AI 研究社区博客
OpenAI Research - OpenAI 官方研究博客
Google AI Blog - Google AI 研究博客
DeepMind Blog - DeepMind 研究博客
Distill.pub - 可视化机器学习研究

开源项目¶

模型训练与微调¶

Hugging Face Transformers - 最流行的 Transformer 库
PEFT (Parameter-Efficient Fine-Tuning) - 参数高效微调库
bitsandbytes - 量化和优化工具
DeepSpeed - 分布式训练框架
Megatron-LM - NVIDIA 的大规模训练框架

推理与服务¶

vLLM - 高效 LLM 推理服务
Text Generation Inference (TGI) - Hugging Face 的推理服务
llama.cpp - CPU 推理优化
AutoGPTQ - GPTQ 量化工具
AWQ (Activation-aware Weight Quantization) - 激活感知量化

应用开发¶

LangChain - LLM 应用开发框架
LlamaIndex - 数据框架，构建 LLM 应用
AutoGPT - 自主 AI 智能体
Semantic Kernel - 微软的 LLM 应用开发 SDK

参考书籍¶

中文书籍¶

《深度学习》- Ian Goodfellow 、 Yoshua Bengio 、 Aaron Courville 著，人民邮电出版社
深度学习领域的"圣经"，系统全面
《动手学深度学习》- 李沐、阿斯顿·张著，人民邮电出版社
实践导向，配有 PyTorch 代码
《自然语言处理综论》- Daniel Jurafsky 、 James H. Martin 著，电子工业出版社
NLP 领域的经典教材
《统计学习方法》- 李航著，清华大学出版社
机器学习基础理论的权威教材
《机器学习》- 周志华著，清华大学出版社
"西瓜书"，国内机器学习经典教材
《强化学习》- Richard S. Sutton 、 Andrew G. Barto 著，电子工业出版社
强化学习领域的奠基之作
《 Python 深度学习》- François Chollet 著，人民邮电出版社
Keras 作者撰写的深度学习实践指南
《图解深度学习》- [日] 斋藤康毅著，人民邮电出版社
图文并茂，适合入门

英文书籍¶

"Deep Learning" - Ian Goodfellow, Yoshua Bengio, Aaron Courville
MIT Press ，深度学习领域的权威教材
"Speech and Language Processing" - Daniel Jurafsky, James H. Martin
Stanford ， NLP 领域的经典教材
"Neural Networks and Deep Learning" - Michael Nielsen
免费在线教材，通俗易懂
"Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" - Aurélien Géron
O'Reilly ，实践导向的机器学习指南
"Natural Language Processing with Transformers" - Lewis Tunstall, Leandro von Werra, Thomas Wolf
O'Reilly ， Transformer 实战指南
"Reinforcement Learning: An Introduction" - Richard S. Sutton, Andrew G. Barto
MIT Press ，强化学习奠基之作
"Python Machine Learning" - Sebastian Raschka, Vahid Mirjalili
Packt ， Python 机器学习实践
"Designing Machine Learning Systems" - Chip Huyen
O'Reilly ，机器学习系统设计

在线课程¶

中文课程¶

李沐：动手学深度学习 - 系统的深度学习教程（含配套 B 站视频，搜索"李沐动手学深度学习"）
Andrej Karpathy: Neural Networks: Zero to Hero - 从零实现 GPT （ B 站搜索"Karpathy"可找到中文字幕版）
吴恩达机器学习/深度学习课程 - B 站搜索"吴恩达机器学习"或"吴恩达深度学习"

英文课程¶

Stanford CS224N: NLP with Deep Learning - 斯坦福 NLP 课程
Stanford CS324: Large Language Models - 斯坦福大模型课程
Princeton COS597G: Understanding Large Language Models - 普林斯顿 LLM 课程
Fast.AI Practical Deep Learning for Coders - 实用深度学习
Deep Learning Specialization (Coursera) - 吴恩达深度学习专项

社区资源¶

中文社区¶

知乎深度学习话题 - 深度学习讨论
机器之心 - AI 行业媒体
量子位 - AI 前沿资讯
Datawhale - 开源学习社区
Hugging Face 中文社区 - 模型和数据集分享

英文社区¶

Papers with Code - 论文与代码实现
arXiv.org - 最新 AI 论文
Machine Learning Subreddit - 机器学习讨论
Hugging Face - 模型和数据集平台
Weights & Biases - 实验追踪和可视化

论坛与问答¶

Stack Overflow AI/ML 标签 - 技术问答
PyTorch Forum - PyTorch 官方论坛
Hugging Face Forum - Hugging Face 讨论区
Reddit r/MachineLearning - 机器学习讨论

邮件列表与 Slack¶

Distill.pub - 可视化研究
OpenAI Community - OpenAI 社区
LangChain Discord - LangChain 社区

最后更新日期： 2026-02-12 适用版本： LLM 学习教程 v2026