聚类分析

聚类分析将对象集合分组,形成由相似对象组成的多个类别。与分类不同,聚类事先并不知道要划分的类别。

聚类分析的概念

聚类分析的目标是将数据划分到不同的类别(簇)中,确保同一簇内对象高度相似,而不同簇之间对象差异显著。从统计学角度看,聚类分析是一种通过数据建模简化数据的方法。

聚类分析的应用

  • 商业: 识别不同客户群体,刻画其购买模式。
  • 生物: 动植物分类和基因分类,理解种群结构。
  • 地理: 识别地球数据库中的相似性趋势。
  • 保险: 识别高消费汽车保险客户群体,根据住宅类型、价值和地理位置对城市房产进行分组。
  • 互联网: 文档归类,修复信息。
  • 电子商务: 网站建设和数据挖掘,根据相似浏览行为对客户进行分组,分析其共同特征,提升客户理解,提供更合适的服务。

聚类分析步骤

  1. 数据预处理: 选择数量、类型和特征的标度,包括特征选择(选择重要特征)和特征提取(将输入特征转化为新的显著特征)。剔除孤立点(不符合一般数据行为的数据)。
  2. 定义距离函数: 衡量数据点之间的相似度,评估不同对象的相异性。
  3. 聚类或分组: 将数据划分到不同的簇中。
  4. 评估输出: 评估聚类结果的质量。

距离度量

由于特征类型和特征标度的多样性,距离度量的选择至关重要,并且通常取决于应用场景。许多距离度量方法应用于不同的领域。