仿射传播聚类算法 (Affinity Propagation Clustering, AP) 是一种高效的聚类算法,特别适用于处理大规模数据集和众多类别的情况。

算法原理:

AP算法通过数据点之间传递信息来识别数据中的聚类中心 (exemplars)。每个数据点都向其他数据点发送信息,表明其适合作为聚类中心的程度,并接收来自其他数据点的类似信息。通过迭代传递信息,算法最终确定一组代表性的聚类中心,并将其他数据点分配到相应的聚类中。

挑战与改进:

传统的AP算法在实际应用中面临两个挑战:

  1. 偏向参数难以确定: 算法的性能受偏向参数的影响,而最佳参数值难以确定。
  2. 震荡问题: 算法可能陷入震荡状态,无法收敛到稳定的聚类结果。

为了解决这些问题,研究者提出了自适应仿射传播聚类算法 (adAP),该算法通过以下策略优化AP算法:

  • 自适应扫描: 扫描偏向参数空间,寻找最佳聚类结果。
  • 自适应阻尼: 调整阻尼因子以消除震荡。
  • 自适应逃离: 降低偏好参数值以避免震荡。

资源:

相关代码和文档可从网上获取。