聚类分析是机器学习和数据挖掘领域重要技术之一,与监督学习不同,聚类分析无需类别或标签指导,因此如何选择适当的聚类个数一直是难点。为解决这一问题,提出了一种基于Dirichlet过程混合模型的新型聚类算法,采用collapsed Gibbs采样算法对模型参数进行估计。新算法基于非参数贝叶斯模型框架,通过连续采样优化模型参数,实现自适应聚类个数。在人工合成和真实数据集上的实验表明,该算法表现出良好的聚类效果。