大模型应用开发教程¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

从 Prompt 工程到 RAG 系统、从 Agent 框架到模型微调、从推理优化到生产部署，全面掌握 LLM 应用开发的核心技术栈。

📌 定位说明：本教程覆盖 LLM 应用开发的完整技术栈，是实战导向的工程教程。与本仓库其他模块的关系： - 理论基础（ Transformer 原理、注意力机制数学推导）→ LLM 学习 - Agent 专项实战（手写 Agent 、 MCP Server 开发、多 Agent 系统）→ AI Agent 开发实战 - 深度学习基础（ CNN/RNN/优化器）→ 深度学习

🔗 Agent 相关内容导航：本仓库 Agent 内容形成完整学习路径 → LLM 学习（理论）→ 本目录（框架应用）→ AI Agent 开发实战（深度实战）

📖 教程简介¶

大语言模型（ LLM ）正在重塑软件开发范式。本教程提供从入门到进阶的系统化学习路径，覆盖25 章核心内容（ 00-学习指南 + 01-24 章），帮助你掌握 LLM 应用开发的全部关键技术。

本教程的优势： - 📊 25 章覆盖 LLM 应用全栈（ 00-学习指南 + 01-24 章），远超同类教程的广度 - 🔧 工程导向：每章包含完整可运行代码示例 - 🏗️ 架构思维：专设应用架构设计、推理优化、生产部署章节 - 📈 持续更新：跟踪 2024-2026 年前沿模型与技术发展 - 🎯 面试准备：配套面试题库和项目案例

🎯 学习目标¶

完成本教程后，你将能够：

✅ 熟练运用 Prompt 工程、思维链和上下文学习技术
✅ 独立构建 RAG 系统（基础→高级），集成向量数据库
✅ 使用 LangChain/LlamaIndex/LangGraph/CrewAI 开发复杂应用
✅ 掌握 LoRA/QLoRA 微调方法，训练领域专属模型
✅ 实现模型部署与推理优化（量化/KV Cache/投机解码）
✅ 设计生产级 LLM 应用架构（安全/对齐/可观测性）
✅ 应对大模型应用方向的技术面试

📖 前置知识¶

领域	要求	推荐资料
Python 编程	函数、类、装饰器、`async/await`	Python 开发
机器学习基础	损失函数、梯度下降、过拟合	机器学习
深度学习基础	神经网络、反向传播	深度学习
REST API	HTTP 方法、 JSON 、请求库	-
Git 基础	克隆、提交、分支	Git 与版本控制

🛠️ 推荐工具¶

工具	用途	安装方式
Python 3.11+	编程语言	Python.org
OpenAI API	大模型 API	`pip install openai`
LangChain	应用开发框架	`pip install langchain langchain-openai`
LlamaIndex	数据框架	`pip install llama-index`
ChromaDB	向量数据库	`pip install chromadb`
Hugging Face	模型与数据集	`pip install "transformers>=4.45,<5" datasets`
PEFT	高效微调	`pip install peft`
vLLM	推理加速	`pip install vllm`
uv	包管理	`pip install uv`

📚 目录结构¶

Text Only

LLM应用/
├── README.md                              # 教程导航（本文件）
├── 00-学习指南.md                          # 学习路线建议
│
│   ── 第一阶段: Prompt与推理 ──
├── 01-大模型应用概述.md                     # LLM生态、API调用、应用类型
├── 02-Prompt工程.md                        # 提示词设计、系统提示、模板
├── 03-上下文学习.md                         # ICL、Few-shot、动态示例选择
├── 04-思维链与推理.md                       # CoT、ToT、Self-Consistency
├── 22-结构化输出与函数调用.md      # JSON输出、工具调用、格式控制
│
│   ── 第二阶段: RAG与检索增强 ──
├── 05-RAG系统构建.md                        # RAG架构、文档处理、检索生成
├── 06-向量数据库.md                         # Embedding、Chroma/Pinecone/Weaviate
├── 18-高级RAG技术.md                        # 混合检索、重排序、查询改写、GraphRAG
│
│   ── 第三阶段: 框架与Agent ──
├── 07-Agent开发基础.md                      # ReAct范式、工具调用、Agent循环
├── 08-LangChain-LCEL框架.md                     # Chain/Agent/Memory/Retriever
├── 16-LlamaIndex框架.md                    # 数据连接器、索引、查询引擎
├── 17-多Agent框架.md                        # LangGraph/CrewAI/AutoGen对比
├── 19-Agent评估与可观测性.md                 # LangSmith/Phoenix/评测方法
│
│   ── 第四阶段: 微调与定制 ──
├── 09-大模型微调技术.md                      # Full FT/PEFT/数据准备
├── 10-LoRA与QLoRA.md                       # LoRA原理/QLoRA/训练实战
│
│   ── 第五阶段: 部署与生产 ──
├── 11-大模型部署.md                         # Ollama/vLLM/TGI部署方案
├── 12-推理优化.md                           # 量化/KV Cache/投机解码/Flash Attention
├── 20-大模型应用架构设计.md                   # 系统架构、容错、扩展性设计
│
│   ── 专题与前沿 ──
├── 13-多模态应用.md                         # Vision/Audio/Video多模态LLM
├── 14-大模型安全与对齐.md                    # 越狱防护、RLHF、Red Teaming
├── 15-大模型应用案例.md                      # 翻译/摘要/客服/教育等案例
├── 21-前沿模型横评-2024到2026.md            # GPT-4o/Claude/Gemini/DeepSeek对比
├── 23-Gradio构建AI应用.md                    # Gradio快速构建交互式AI应用界面
├── 24-多模态RAG与向量数据库进阶.md            # 多模态Embedding/Milvus/Text2SQL
│
│   ── 实战与面试 ──
├── 实战项目/                                # 端到端项目源码
├── 测试用例/                                # 单元测试与集成测试示例
├── 面试准备/                                # LLM应用面试题库
└── images/                                 # 插图资源

📊 章节索引¶

第一阶段： Prompt 与推理基础¶

章节	内容	关键技术	预计学时
00-学习指南	学习路线与资源推荐	-	0.5 小时
01-大模型应用概述	LLM 生态与应用类型	API 调用、 Token 计费、模型选择	3 小时
02-Prompt 工程	提示词设计方法论	系统提示、模板、少样本、角色扮演	6 小时
03-上下文学习	In-Context Learning	Few-shot 、动态示例、示例选择策略	4 小时
04-思维链与推理	推理增强技术	CoT 、 ToT 、 Self-Consistency 、 ReAct	5 小时
22-结构化输出	输出格式控制	JSON Schema 、 Function Calling 、 Pydantic	4 小时

第二阶段： RAG 与检索增强¶

章节	内容	关键技术	预计学时
05-RAG 系统构建	RAG 架构与实现	文档切分、 Embedding 、检索+生成	8 小时
06-向量数据库	向量存储与检索	Chroma/Pinecone/Weaviate 、相似度搜索	6 小时
18-高级 RAG 技术	RAG 进阶	混合检索、重排序、查询改写、 GraphRAG	8 小时

第三阶段：框架与 Agent¶

章节	内容	关键技术	预计学时
07-Agent 开发基础	Agent 核心概念	ReAct 、工具调用、 Agent 循环	6 小时
08-LangChain LCEL 框架	LangChain 全栈	Chain/Agent/Memory/Retriever/LCEL	10 小时
16-LlamaIndex 框架	数据连接与查询	数据连接器、索引类型、查询引擎	8 小时
17-多 Agent 框架	多 Agent 对比	LangGraph/CrewAI/AutoGen/MetaGPT	6 小时
19-Agent 评估	评估与可观测	LangSmith 、 Phoenix 、 LLM-as-Judge	4 小时

第四阶段：微调与定制¶

章节	内容	关键技术	预计学时
09-大模型微调技术	微调方法论	Full FT/Adapter/Prefix/数据准备	6 小时
10-LoRA 与 QLoRA	高效微调实战	LoRA 原理/秩选择/QLoRA/训练代码	8 小时

第五阶段：部署与生产¶

章节	内容	关键技术	预计学时
11-大模型部署	部署方案对比	Ollama/vLLM/TGI/ONNX Runtime	6 小时
12-推理优化	推理加速技术	量化(GPTQ/AWQ)/KV Cache/投机解码	8 小时
20-应用架构设计	系统架构	微服务/消息队列/容错/扩展性	6 小时

专题与前沿¶

章节	内容	关键技术	预计学时
13-多模态应用	多模态 LLM	GPT-4V/Gemini Vision/音频/视频	5 小时
14-安全与对齐	LLM 安全	越狱防护/RLHF/Red Teaming/内容安全	4 小时
15-应用案例	行业应用	翻译/摘要/客服/教育/代码/医疗	4 小时
21-前沿模型横评	模型对比	GPT-4o/Claude 4/Gemini 2.5/DeepSeek-R1	3 小时
23-Gradio 构建 AI 应用	AI 应用界面	Interface/Blocks/ChatInterface/HF Spaces	5 小时
24-多模态 RAG 与向量数据库进阶	进阶 RAG	CLIP/BGE-M3/Milvus/Text2SQL/RAGAS 评估	8 小时

🗺️ 学习路线图¶

总学时：约 110 小时 建议周期： 11-12 周（全职学习每周 10 小时，在职学习每周 5-6 小时）

Text Only

第1-2周: Prompt与推理基础 (约30小时)
  ├── 大模型应用概述与API调用
  ├── Prompt工程方法论
  ├── 上下文学习与Few-shot
  ├── 思维链与推理增强
  └── 结构化输出与Function Calling
          │
          ▼
第3-4周: RAG系统开发 (约22小时)
  ├── RAG基础架构与实现
  ├── 向量数据库选型与使用
  ├── 高级RAG技术
  └── 🔗 实战: 构建知识库问答系统
          │
          ▼
第5-7周: 框架与Agent (约34小时)
  ├── LangChain框架全栈
  ├── LlamaIndex数据框架
  ├── Agent开发基础
  ├── 多Agent框架对比
  ├── Agent评估与可观测性
  └── 🔗 实战: 构建研究助手Agent
          │
          ▼
第8-9周: 微调与部署 (约20小时)
  ├── 大模型微调方法论
  ├── LoRA/QLoRA训练实战
  ├── 模型部署方案
  ├── 推理优化技术
  ├── 应用架构设计
  └── 🔗 实战: 微调+部署垂直领域模型
          │
          ▼
第10-12周: 专题与面试 (约4小时 + 实战)
  ├── 多模态/安全/对齐
  ├── 前沿模型横评
  ├── 面试题库突击
  └── 项目整理与简历优化

💡 学习建议¶

按阶段推进：建议按"Prompt→RAG→Agent→微调→部署"的顺序学习
先跑通代码：每章代码先运行成功，再理解原理
结合项目：每完成一个阶段就做对应的实战项目
横向对比：学完 LangChain 和 LlamaIndex 后，对比两者的设计哲学
关注前沿：第 21 章模型横评定期更新，保持技术敏感度
交叉引用： Agent 进阶内容参见 AI Agent 开发实战

🔗 推荐资源¶

官方文档¶

优质课程¶

论文推荐¶

"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (Lewis et al., 2020)
"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022)
"LoRA: Low-Rank Adaptation of Large Language Models" (Hu et al., 2021)
"vLLM: Efficient Memory Management for Large Language Model Serving" (Kwon et al., 2023)

📊 学习进度¶

章节	阅读	代码实践	实战项目
01-大模型应用概述	⬜	⬜	-
02-Prompt 工程	⬜	⬜	⬜
03-上下文学习	⬜	⬜	⬜
04-思维链与推理	⬜	⬜	⬜
05-RAG 系统构建	⬜	⬜	⬜
06-向量数据库	⬜	⬜	⬜
07-Agent 开发基础	⬜	⬜	⬜
08-LangChain LCEL 框架	⬜	⬜	⬜
09-大模型微调技术	⬜	⬜	⬜
10-LoRA 与 QLoRA	⬜	⬜	⬜
11-大模型部署	⬜	⬜	⬜
12-推理优化	⬜	⬜	⬜
13-多模态应用	⬜	⬜	⬜
14-安全与对齐	⬜	⬜	-
15-应用案例	⬜	⬜	⬜
16-LlamaIndex 框架	⬜	⬜	⬜
17-多 Agent 框架	⬜	⬜	⬜
18-高级 RAG 技术	⬜	⬜	⬜
19-Agent 评估	⬜	⬜	⬜
20-架构设计	⬜	⬜	⬜
21-前沿模型横评	⬜	-	-
22-结构化输出	⬜	⬜	⬜
23-Gradio 构建 AI 应用	⬜	⬜	⬜
24-多模态 RAG 进阶	⬜	⬜	⬜

🚀 开始学习¶

准备好了吗？建议从学习指南开始了解全局，然后进入第一章！

学习指南: 00-学习指南 第一步: 01-大模型应用概述

提示: 本教程建议配合 Python 3.11+和 OpenAI API 使用。 Agent 深度内容请参见 AI Agent 开发实战。

祝你学习愉快！ 🎉

最后更新日期： 2026-02-16 适用版本： LLM 应用指南 v2026.02