为了解决大数据集挖掘效率低、时间消耗大的问题,该研究提出了一种基于Hadoop架构的并行决策树挖掘算法。该算法利用MapReduce并行编程模型,实现了Hadoop架构下SPRINT并行挖掘算法的频繁项集计算。SPRINT算法将原始数据集划分成多个分块,并将其分配给不同的Map进程进行并行计算,从而有效利用系统存储和计算资源。同时,MapReduce计算节点将挖掘结果数据进行汇聚,减少了中间结果数据量,显著缩短了并行挖掘时间。SPRINT算法并行化实验结果表明,Hadoop架构下的SPRINT并行挖掘算法具有良好的可扩展性和集群加速比。