计算机视觉专项教程¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

教程简介¶

本教程专为清华大学计算机技术专业专硕及 985 AI 专业本科生设计，目标是帮助学员掌握计算机视觉的核心理论和工程实践能力，为进入字节跳动、腾讯、阿里巴巴、百度、大疆、影石等互联网大厂的高薪就业岗位做好准备。

计算机视觉是人工智能领域中重要且持续活跃的方向之一，广泛应用于图像识别、目标检测、视频分析、自动驾驶、医疗影像、工业检测等领域。本教程将从基础理论到前沿技术，从算法原理到工程实践，较系统地梳理计算机视觉知识体系。

学习目标¶

完成本教程后，你将能够：

理论目标¶

深入理解计算机视觉的数学基础和核心概念
掌握传统计算机视觉算法的原理和应用场景
精通卷积神经网络（ CNN ）的设计思想和训练技巧
理解目标检测、图像分割、视频分析等任务的代表性现代算法
掌握计算机视觉前沿技术和发展趋势

实践目标¶

熟练使用 OpenCV 、 PyTorch 、 TensorFlow 等工具库
能够独立设计和训练视觉模型
具备解决实际视觉问题的能力
掌握模型部署和优化技术
能够完成端到端的视觉项目开发

面试目标¶

熟悉大厂计算机视觉岗位的面试要求
掌握常见面试题的解答技巧
能够清晰阐述项目经验和技术难点
具备系统设计能力

适用人群¶

清华大学计算机技术专业专硕
985 高校 AI 、计算机、自动化等相关专业本科生
希望进入互联网大厂从事计算机视觉工作的求职者
有一定编程基础和机器学习基础的学习者

前置知识¶

必备知识¶

编程语言： Python （熟练掌握）
数学基础：线性代数、概率论、微积分、优化理论
机器学习：监督学习、无监督学习、模型评估
深度学习：神经网络基础、反向传播、优化算法

学习路径¶

第一阶段：基础夯实（ 2-3 周）¶

Text Only

01-计算机视觉基础.md
02-图像处理基础.md
03-特征提取与描述.md
04-传统计算机视觉算法.md

第二阶段：深度学习入门（ 3-4 周）¶

📌 阶段定位：本阶段侧重 CNN 在 CV 任务中的实际应用。 - 如需深入了解 CNN 的数学原理（卷积公式推导、感受野计算、各种卷积变体原理等），请参考深度学习/02-卷积神经网络/

Text Only

05-卷积神经网络基础.md
06-经典CNN架构.md
07-目标检测.md

第三阶段：进阶技术（ 4-5 周）¶

Text Only

08-图像分割.md
09-视频分析与理解.md
10-三维视觉.md
11-生成模型与GAN.md

第四阶段：前沿技术（ 3-4 周）¶

📌 多模态学习分工说明： - 本章（ 13-多模态学习.md ）：侧重 CV 任务中的实际应用（ VLM 架构对比、实战项目、部署） - 理论基础：深度学习/07-多模态学习（数学推导、算法原理）

Text Only

12-视觉Transformer.md
13-多模态学习.md        # VLM应用（理论→深度学习/）
14-自监督学习.md
15-模型部署与优化.md    # 部署实践（优化技术→模型优化/）

第五阶段：前沿进阶（ 4-5 周）¶

Text Only

16-前沿视觉模型最新进展.md
17-视觉模型实战与部署.md
18-世界模型与视觉生成.md

第六阶段：实战项目（ 4-6 周）¶

完成 3-5 个完整实战项目（见实战项目目录）

第七阶段：面试准备（ 2-3 周）¶

系统准备面试（见面试准备目录）

总学习时间： 22-30 周（各阶段累加： 2-3 + 3-4 + 4-5 + 3-4 + 4-5 + 4-6 + 2-3 = 22-30 周）

环境配置¶

硬件要求¶

CPU：多核处理器（推荐 Intel i7/i9 或 AMD Ryzen 7/9 ）
内存： 16GB 以上（推荐 32GB ）
GPU： NVIDIA 显卡（推荐 RTX 3060 及以上，显存 8GB 以上）
存储： SSD 500GB 以上

软件环境¶

操作系统¶

Ubuntu 20.04/22.04 （推荐）
Windows 10/11 + WSL2
macOS 12+

Python 环境¶

Bash

# 创建虚拟环境
conda create -n cv python=3.9
conda activate cv

# 或使用venv
python -m venv cv_env
source cv_env/bin/activate  # Linux/Mac
# 或 cv_env\Scripts\activate  # Windows

核心库安装¶

Bash

# 基础库
pip install numpy scipy matplotlib pillow

# 图像处理（二选一；服务器/CI 优先 headless）
pip install opencv-python opencv-contrib-python
# 或
pip install opencv-python-headless opencv-contrib-python-headless

# 深度学习框架（二选一）
# PyTorch: CUDA 版本与安装命令请以 https://pytorch.org/get-started/locally/ 的官方选择器为准
pip install torch torchvision torchaudio
# TensorFlow: 2.11+ 已合并 CPU/GPU 包，无需单独安装 tensorflow-gpu
pip install "tensorflow>=2.16,<3"

# 计算机视觉专用
pip install albumentations scikit-image

# 可视化与实验跟踪
pip install tensorboard wandb

# 部署（TensorRT Python 包需与本机 CUDA/TensorRT 版本匹配；无 NVIDIA 环境可先跳过）
pip install onnx onnxruntime

开发工具¶

IDE： PyCharm Professional 、 VS Code
Jupyter： Jupyter Lab
版本控制： Git
容器： Docker （可选）

Docker 环境（推荐）¶

Bash

# 使用官方PyTorch镜像
docker pull pytorch/pytorch:2.0.0-cuda11.7-cudnn8-devel

# 运行容器
docker run --gpus all -it --rm \
    -v $(pwd):/workspace \
    -p 8888:8888 \
    pytorch/pytorch:2.0.0-cuda11.7-cudnn8-devel \
    bash

学习资源¶

经典教材¶

《 Computer Vision: Algorithms and Applications 》 - Richard Szeliski
《 Deep Learning 》 - Ian Goodfellow （第 5 章：机器学习基础）
《 Multiple View Geometry in Computer Vision 》 - Hartley & Zisserman
《 Learning OpenCV 4 Computer Vision with Python 》 - Joseph Howse

在线课程¶

CS231n: Convolutional Neural Networks for Visual Recognition - Stanford
CS4243: Computer Vision and Image Processing - Cornell
Deep Learning Specialization - Coursera （吴恩达）

教程特色¶

1. 理论与实践并重¶

每个知识点都配有详细的代码示例和实战案例

2. 面向关键复盘¶

每章都包含关键复盘问题和解答思路

3. 实战项目驱动¶

提供 5 个完整的实战项目，覆盖不同应用场景

4. 前沿技术跟踪¶

包含近年前沿研究成果和技术趋势

5. 工程化思维¶

注重模型部署、性能优化、工程实践

学习建议¶

高效学习策略¶

理论先行：先理解原理，再动手实践
代码复现：自己实现核心算法，加深理解
项目驱动：通过项目巩固所学知识
持续迭代：不断优化和改进代码
总结反思：定期总结学习心得

常见问题¶

Q1: 学习时间不够怎么办？ A: 优先学习核心章节（ 01-09 章），其他章节可以根据兴趣选择。重点掌握 CNN 、目标检测、图像分割。

Q2: 没有 GPU 怎么办？ A: 可以使用 Google Colab 、 Kaggle Kernels 等云端 GPU 资源，或者先学习理论知识。

Q3: 数学基础薄弱怎么办？ A: 推荐先学习《深度学习》第 2-4 章的数学基础，边学边用，在实践中加深理解。

Q4: 如何做求职向准备？ A: 系统学习面试准备目录的内容，多做算法与系统设计练习，并整理 2-3 个能深入讲清楚的项目。

Q5: 实战项目太难怎么办？ A: 从简单的项目开始，逐步增加难度。可以参考开源项目，理解后再自己实现。

目录结构¶

Text Only

computer-vision/
├── README.md                    # 本文件
├── 00-学习指南.md              # 详细学习计划
├── 01-计算机视觉基础.md        # CV概述、应用、数学基础
├── 02-图像处理基础.md          # 像素操作、滤波、变换
├── 03-特征提取与描述.md        # SIFT、HOG、LBP等
├── 04-传统计算机视觉算法.md    # 边缘检测、分割、匹配
├── 05-卷积神经网络基础.md      # CNN原理、卷积、池化
├── 06-经典CNN架构.md           # LeNet、AlexNet、VGG、ResNet
├── 07-目标检测.md              # R-CNN系列、YOLO、SSD
├── 08-图像分割.md              # FCN、U-Net、DeepLab、Mask R-CNN
├── 09-视频分析与理解.md        # 光流、跟踪、动作识别
├── 10-三维视觉.md              # 相机标定、立体视觉、SLAM
├── 11-生成模型与GAN.md         # GAN、VAE、扩散模型
├── 12-视觉Transformer.md       # ViT、Swin Transformer
├── 13-多模态学习.md            # CLIP、视觉-语言模型
├── 14-自监督学习.md            # SimCLR、MoCo、MAE
├── 15-模型部署与优化.md        # 模型压缩、量化、蒸馏
├── 16-前沿视觉模型最新进展.md # SAM2、VLM、3DGS、视觉生成前沿
├── 17-视觉模型实战与部署.md     # VLM微调、量化部署、MLOps
├── 18-世界模型与视觉生成.md     # 世界模型、Sora、视频生成、3D生成
├── 实战项目/                   # 实战项目目录
│   ├── README.md
│   └── 01-CV实战项目集.md       # 图像分类/目标检测/多模态检索三个完整项目
├── 面试准备/                   # 面试准备目录
│   ├── README.md
│   └── 01-CV面试题精选50题.md   # 基础+进阶+高级复盘问答
└── images/                     # 图片资源目录

🔗 相关章节¶

前置知识¶

AI 数学基础 - 线性代数、概率统计、优化理论
机器学习 - 监督学习、模型评估
深度学习 - 神经网络、 CNN 原理、 Transformer

深入学习¶

深度学习/CNN - CNN 数学原理与架构设计
深度学习/Transformer - ViT 、 Swin Transformer 原理
扩散模型学习 - 图像生成、 Stable Diffusion

应用方向¶

模型优化 - 模型压缩、量化部署、边缘推理
MLOps 与 AI 工程化 - 模型部署与运维

实战资源¶

实战项目 - CV 实战项目集
面试准备 - CV 复盘问答 50 题

版本信息¶

当前版本： v1.2.0
更新日期： 2026-04-03
适用 Python 版本： 3.9+
适用 PyTorch 版本：建议使用官方安装器选择与你的 CUDA/CPU 环境匹配的稳定版
适用 TensorFlow 版本： 2.16+（统一 tensorflow 包）

联系方式¶

如有问题或建议，欢迎通过以下方式联系： - GitHub Issues

许可证¶

本教程采用 MIT 许可证，可自由使用和分享。

祝学习顺利，早日进入心仪的大厂！ 🚀

最后更新日期： 2026-04-03 适用版本：计算机视觉教程 v1.2.0

计算机视觉专项教程¶

教程简介¶

学习目标¶

理论目标¶

实践目标¶

面试目标¶

适用人群¶

前置知识¶

必备知识¶

推荐知识¶

学习路径¶

第一阶段：基础夯实（ 2-3 周）¶

第二阶段：深度学习入门（ 3-4 周）¶

第三阶段：进阶技术（ 4-5 周）¶

第四阶段：前沿技术（ 3-4 周）¶

第五阶段：前沿进阶（ 4-5 周）¶

第六阶段：实战项目（ 4-6 周）¶

第七阶段：面试准备（ 2-3 周）¶

环境配置¶

硬件要求¶

软件环境¶

操作系统¶

Python 环境¶

核心库安装¶

开发工具¶

Docker 环境（推荐）¶

学习资源¶

经典教材¶

在线课程¶

论文资源¶

数据集¶

开源项目¶

教程特色¶

1. 理论与实践并重¶

2. 面向关键复盘¶

3. 实战项目驱动¶

4. 前沿技术跟踪¶

5. 工程化思维¶

学习建议¶

高效学习策略¶

常见问题¶

目录结构¶

🔗 相关章节¶

前置知识¶

深入学习¶

应用方向¶

实战资源¶

版本信息¶

联系方式¶

许可证¶