探讨了在大数据分析中如何通过将传统聚类算法并行化来提高计算效率的方法。结合MapReduce分布式处理模型,作者对K-means、PAM和CLARA等三种常见算法进行了分布式化实验,并分析了数据规模和节点数量对并行算法性能的影响。实验结果表明,该方法有效地实现了聚类算法的并行化,并适用于分布式系统。