特征选择作为模式识别、机器学习和数据挖掘的关键预处理步骤,其重要性不言而喻。邻域作为分类学习中的核心概念,能够有效区分决策不同的样本。
我们提出一种新的邻域辨别力指数,用于量化邻域关系中的差异信息,进而反映特征子集的区分能力。区别于传统的基于邻域相似度的方法,该指数直接利用邻域关系的基数进行计算。
为了全面捕捉多个特征子集组合带来的区分信息变化,我们进一步扩展了辨别力指数,引入了联合辨别力指数、条件辨别力指数以及互信息辨别力指数。这些扩展指标与香农熵及其变体具有相似的性质。
针对实值数据的分析,我们在辨别力指数中引入了一个名为“邻域半径”的参数。基于提出的辨别力指数,我们定义了候选特征的显著性度量,并设计了一种贪婪特征选择算法。实验结果表明,基于辨别力指数的算法相较于其他经典算法,取得了更优的性能。