🧪 测试与质量保证¶

定位：覆盖 AI 研究生需要的完整测试技能体系——从传统软件测试到 AI 模型评估 核心重点： AI 模型测试与评估（ LLM/Agent/多模态评估方法论与实践）

🎯 学习目标¶

通过本教程，你将掌握：

测试基础：黑盒/白盒测试、测试策略与质量度量
单元测试： Python pytest 框架、 Mock 技术、 TDD 开发模式
AI 模型评估 ⭐： LLM 评估基准（ MMLU/HumanEval ）、 Agent 评估框架、多模态模型测试
实战能力：构建端到端测试流水线， CI/CD 集成自动化测试

📚 章节目录¶

编号	章节	核心内容	难度	学习时间
01	软件测试概述	测试理论、方法论、质量模型	⭐⭐	3 小时
02	单元测试	pytest 、 Mock 、覆盖率、 TDD	⭐⭐⭐	4 小时
03	AI 模型测试与评估	LLM/Agent/多模态评估体系	⭐⭐⭐⭐	6 小时

📖 推荐学习路径¶

Text Only

第1天 (3h): 01-软件测试概述
  → 理解测试金字塔、V模型、质量度量

第2天 (4h): 02-单元测试
  → 动手练习 pytest，写出第一个测试套件

第3天 (6h): 03-AI模型测试与评估 ⭐
  → 重点章节！掌握 LLM 评估方法论
  → 实践：用 RAGAS 评估 RAG 系统

🗂️ 补充资源¶

目录	说明	推荐程度
实战项目/	测试实战练习（含 CI/CD 集成）	⭐⭐⭐⭐
面试准备/	测试面试题库与高频考点	⭐⭐⭐⭐⭐

🔗 相关教程¶

AI Agent 开发实战/05-Agent 评估与测试 — Agent 专项评估
MLOps 与 AI 工程化 — 模型监控与持续评估
LLM 应用 — LLM 应用测试实践

🤖 AI 驱动测试补充¶

AI测试：将测试用例生成、缺陷归因、回归分析纳入统一流水线。
LLM测试生成：用大模型按接口契约与业务规则自动生成测试集，再做人工抽检。
Copilot测试 / testim：结合 IDE 辅助生成与平台化回归执行，提高变更迭代速度。

最后更新： 2026-02-18 总学时：约 13 小时（核心章节） + 实战项目