随着互联网的普及和企业信息化程度的提高,非结构化(如HTML和纯文件)或半结构化(如XML数据)的文本数据正在快速增长,因此文本数据的管理和分析变得尤为重要。聚类技术作为文本信息挖掘的核心技术之一,将文档集合分成若干簇,确保同一簇内文档内容的相似度尽可能大,不同簇之间的相似度尽可能小。自20世纪50年代以来,人们提出了多种聚类算法,主要分为基于划分和基于层次的两类。其中,K-Means算法是最著名的基于划分的算法之一,自1967年由MacQueen首次提出以来,成为广泛应用于数理统计、模式识别、机器学习和数据挖掘的算法之一。尽管K-Means算法和其变种在速度和实现上有很多优势,但由于初始中心点选择的随机性,其聚类结果可能存在较大波动。基于密度的概念,通过自适应选择最佳密度半径来确定初始中心点,从而优化了K-Means算法的初始过程。同时,针对文本特征矩阵的高维稀疏性,在每个聚类簇上根据变量对聚类结果的贡献程度赋予不同权重,以提高算法的准确性和稳定性。实验结果表明,提出的改进方法能够生成波动小且质量高的聚类结果,适合于文本数据的聚类分析。