针对大数据的高维特性及海量性,提出在云计算平台中使用Canopy-Kmeans并行聚类算法。利用三角不等式原理减少计算冗余,显著提升算法执行速度。深入研究了Canopy-Kmeans并行聚类算法,并通过多个不同大小的数据集实验证明,该算法具有良好的加速比、数据伸缩率及扩展性,非常适合于海量数据的挖掘与分析。