在数据库中,总会存在一些特立独行的对象,它们与其他数据的行为模式格格不入,这些便是孤立点。

如何识别这些“异类”呢?

  • 统计测试: 假设数据服从某种分布或概率模型,并利用距离度量,那些远离其他数据对象的点就被视为孤立点。
  • 偏差检测: 通过分析对象在主要特征上的差异,而不是依赖统计或距离度量,来识别孤立点。
  • 聚类分析的副产品: 在聚类分析中,那些包含对象数量少于设定阈值的簇,其中的对象通常被视为孤立点。