为解决大数据环境下的数据挖掘难题,研究了基于Spark核心引擎的数据挖掘引擎。利用Spark的内存计算算子,实现了多个传统数据挖掘算法的并行计算,使其能在集群环境中高效运行。采用系统分层方法设计了数据挖掘系统,构建了完整的大数据挖掘平台。实验证明,基于Spark的并行计算能显著缩短执行时间,在大数据挖掘应用中表现优异。