在数据挖掘、机器学习和模式识别领域,特征选择是一个至关重要的问题。针对传统信息增益在类和特征分布不均时存在的偏好问题,本研究提出了一种基于信息增益率和随机森林的特征选择算法。

该算法融合了filter和wrapper模式的优势,首先从信息相关性和分类能力两个方面对特征进行综合度量,然后采用序列前向选择(SFS)策略进行特征选择。算法以分类精度作为评价指标对特征子集进行度量,最终获得最优特征子集。

实验结果表明,该算法不仅可以有效降低特征空间维度,还能提升分类算法的分类性能和查全率。