聚类分析
聚类分析将对象集合分组,形成由相似对象组成的多个类别。与分类不同,聚类事先并不知道要划分的类别。
聚类分析的概念
聚类分析的目标是将数据划分到不同的类别(簇)中,确保同一簇内对象高度相似,而不同簇之间对象差异显著。从统计学角度看,聚类分析是一种通过数据建模简化数据的方法。
聚类分析的应用
- 商业: 识别不同客户群体,刻画其购买模式。
- 生物: 动植物分类和基因分类,理解种群结构。
- 地理: 识别地球数据库中的相似性趋势。
- 保险: 识别高消费汽车保险客户群体,根据住宅类型、价值和地理位置对城市房产进行分组。
- 互联网: 文档归类,修复信息。
- 电子商务: 网站建设和数据挖掘,根据相似浏览行为对客户进行分组,分析其共同特征,提升客户理解,提供更合适的服务。
聚类分析步骤
- 数据预处理: 选择数量、类型和特征的标度,包括特征选择(选择重要特征)和特征提取(将输入特征转化为新的显著特征)。剔除孤立点(不符合一般数据行为的数据)。
- 定义距离函数: 衡量数据点之间的相似度,评估不同对象的相异性。
- 聚类或分组: 将数据划分到不同的簇中。
- 评估输出: 评估聚类结果的质量。
距离度量
由于特征类型和特征标度的多样性,距离度量的选择至关重要,并且通常取决于应用场景。许多距离度量方法应用于不同的领域。