《数据工程综合课设》是延续《分布式计算基础》、《大数据应用开发》课程的实践,重点在于构建Hadoop、Hive和Spark等工具的大数据集群环境。课程涵盖大数据环境的搭建、数据集分析、数据存储、数据探索与预处理,以及用户画像标签的计算和利用SVM算法预测用户挽留的分类模型建立。通过学习,参与者能够掌握Spark工具进行数据统计分析的方法与步骤。