针对不确定对象的有效和高效聚类启发式方法在数据挖掘领域,聚类分析是核心技术之一。它通过分析数据对象的属性,将具有相似属性的对象分成同一类群。然而,在现实世界的数据中,对象的位置往往存在不确定性,可以通过概率密度函数(pdf)来描述。探讨的是不确定对象的聚类问题,这些对象的位置具有不确定性。现有的剪枝算法存在一个新性能瓶颈,导致每次迭代时为每个不确定对象分配候选簇的开销。为此,提出了新的启发式方法来识别边界案例的对象,并将它们重新分配到更好的簇中。文中提到的关键技术是UK-means算法,其在传统的K-means算法基础上扩展,能够处理不确定对象的聚类问题。如果考虑平方欧几里得距离,UK-means算法(不使用剪枝技术)简化为K-means算法,运行速度更快,但聚类结果会有所不同。为解决这个问题,提出了一种近似UK-means算法,通过启发式识别边界情况的对象并将它们重新分配。此外,提出了三种用于表示簇代表的模型(均值模型、不确定模型和启发式模型),用于计算对象与簇代表之间的预期平方欧几里得距离。这些模型能更好地比较不确定对象的聚类效果。文章的主要贡献包括:1.分析现有剪枝算法,发现性能瓶颈;2.证明UK-means算法可以简化为K-means算法且速度更快;3.提出近似UK-means算法以高效识别边界对象;4.提供三种簇代表模型,实验验证聚类结果差异降低至70%。实验结果显示,近似UK-means算法的平均执行时间仅多出25%,显著减少K-means算法聚类结果的差异,这些发现对数据挖掘研究人员和实践者具有重要参考价值。