探寻数据中的异常：孤立点分析

数据挖掘 21

664KB 2024-04-30

#数据挖掘 #异常检测 #孤立点分析 #统计测试 #偏差检测

在数据库中，总会存在一些特立独行的对象，它们与其他数据的行为模式格格不入，这些便是孤立点。

如何识别这些“异类”呢？

统计测试: 假设数据服从某种分布或概率模型，并利用距离度量，那些远离其他数据对象的点就被视为孤立点。
偏差检测: 通过分析对象在主要特征上的差异，而不是依赖统计或距离度量，来识别孤立点。
聚类分析的副产品: 在聚类分析中，那些包含对象数量少于设定阈值的簇，其中的对象通常被视为孤立点。