跳转至

🔥 数据工程实战项目集( 3 个分级项目)


项目 1 :数据管道入门(入门级, 2 周)

技术栈

Python + Pandas + SQLite/PostgreSQL + Airflow(简化) + dbt

项目描述

构建一个 ETL 管道:采集公开 API 数据→清洗转换→入仓→可视化。

交付物

  • 数据采集脚本(调用公开 API)
  • Pandas 清洗转换逻辑
  • dbt 数据模型(staging→mart)
  • 简单的 Airflow DAG 调度
  • Metabase/Superset 报表

项目 2 :实时数据处理平台(进阶级, 3 周)

架构

Text Only
数据源(Mock) → Kafka → Flink/Spark Streaming(清洗+聚合)
→ Delta Lake(S3/MinIO) → 实时Dashboard(Grafana)
+ 离线: Spark Batch → dbt → PostgreSQL → Metabase

交付物

  • Kafka Producer 模拟数据流
  • Flink/PySpark Streaming 实时处理
  • Delta Lake 存储(支持 Time Travel)
  • 实时+离线双链路
  • Docker Compose 完整环境
  • Grafana 实时 Dashboard

项目 3 : LLM 训练数据管道(高级, 4 周)

项目描述

构建大模型训练数据的完整处理管道。

架构

Text Only
数据采集(Common Crawl/自定义爬虫) → 文本提取(Trafilatura)
→ 语言检测 → 去重(MinHash/SimHash) → 质量过滤(Perplexity+规则)
→ PII去除 → 敏感内容过滤 → Tokenize → 打包为训练格式

关键技术

  • 大规模去重: MinHash LSH (datasketch 库)
  • 质量过滤: 用小语言模型计算 Perplexity
  • Spark 分布式: 处理 TB 级数据

交付物

  • 数据爬取+提取 Pipeline
  • MinHash 去重(Spark 实现)
  • 质量评分模型
  • 完整 DAG(Airflow/Dagster)
  • 数据质量报告(去重率/过滤率/分布统计)
  • DVC 数据版本管理

最后更新: 2026 年 2 月