🔥 数据工程实战项目集( 3 个分级项目)¶
项目 1 :数据管道入门(入门级, 2 周)¶
技术栈¶
Python + Pandas + SQLite/PostgreSQL + Airflow(简化) + dbt
项目描述¶
构建一个 ETL 管道:采集公开 API 数据→清洗转换→入仓→可视化。
交付物¶
- 数据采集脚本(调用公开 API)
- Pandas 清洗转换逻辑
- dbt 数据模型(staging→mart)
- 简单的 Airflow DAG 调度
- Metabase/Superset 报表
项目 2 :实时数据处理平台(进阶级, 3 周)¶
架构¶
Text Only
数据源(Mock) → Kafka → Flink/Spark Streaming(清洗+聚合)
→ Delta Lake(S3/MinIO) → 实时Dashboard(Grafana)
+ 离线: Spark Batch → dbt → PostgreSQL → Metabase
交付物¶
- Kafka Producer 模拟数据流
- Flink/PySpark Streaming 实时处理
- Delta Lake 存储(支持 Time Travel)
- 实时+离线双链路
- Docker Compose 完整环境
- Grafana 实时 Dashboard
项目 3 : LLM 训练数据管道(高级, 4 周)¶
项目描述¶
构建大模型训练数据的完整处理管道。
架构¶
Text Only
数据采集(Common Crawl/自定义爬虫) → 文本提取(Trafilatura)
→ 语言检测 → 去重(MinHash/SimHash) → 质量过滤(Perplexity+规则)
→ PII去除 → 敏感内容过滤 → Tokenize → 打包为训练格式
关键技术¶
- 大规模去重: MinHash LSH (datasketch 库)
- 质量过滤: 用小语言模型计算 Perplexity
- Spark 分布式: 处理 TB 级数据
交付物¶
- 数据爬取+提取 Pipeline
- MinHash 去重(Spark 实现)
- 质量评分模型
- 完整 DAG(Airflow/Dagster)
- 数据质量报告(去重率/过滤率/分布统计)
- DVC 数据版本管理
最后更新: 2026 年 2 月