BIRCH算法是一种适用于大规模数据集的聚类算法,它通过构建具有统一阈值的聚类特征树(CF树)来实现。改进后的算法不仅能处理数值型数据,还能有效应对混合型属性数据集。我们通过启发式方法选择初始阈值,并提出了阈值在不同阶段的提升策略。此外,对算法参数进行了优化探讨,指出在特定条件下参数的选择对性能影响显著。实验证明,优化后的BIRCH算法在聚类效果上表现出色。