本 Python 代码实现了向后消除算法,可用于人寿保险行业中风险计算的降维,提升模型性能。虽然该算法基于 Kaggle.com 上公开的人寿保险数据集进行验证,但它同样适用于其他领域的维数降低。向后消除是一种多元线性回归方法,本算法中与调整后的 R 平方值结合使用。当调整后的 R 平方值开始减小时,应停止构建模型,因为此时自变量的最大可能组合与风险之间的显着相关性降低。

基于多元线性回归模型的替代假设,风险因变量(数据集的最后一列)与自变量(除了数据集的最后一列之外的所有列)之间存在显著关系。因此,根据替代假设,如果我们能够找到自变量与最大可能组合之间的重要相关性,我们将接受该假设,并尝试建立模型,以拒绝原假设(即风险因变量与单一/独立变量的组合无关)。对于此分析,我检查了所有独立变量的统计分析 p 值。