对于连续属性,首先需要对各属性值进行零均值规范化,然后进行距离计算。K-Means聚类算法通常需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。常用的相似性度量包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。文档数据的相似性度量通常使用余弦相似性。详细的文档—词矩阵格式可用于表达文档数据。