传统的软件缺陷检测研究往往假设训练数据和测试数据来自相同的特征空间并服从相同的分布。然而,实际应用中数据集可能源于不同的领域,呈现不同的分布特征。此外,目标项目中的可用数据可能较为有限,且通常受到噪声干扰,这都为软件缺陷检测模型的性能带来了不确定性。

为解决这一问题,我们将数据复杂性概念引入软件工程领域,并针对公共软件数据集进行数据复杂性度量研究,以确定适用于缺陷检测的有效度量指标。通过分析复杂性指标与模型性能之间的关系,我们可以深入理解数据复杂性对缺陷检测的影响,为检测模型的管理和设计提供决策支持。