问题 1:逻辑回归
实验结果表明,随着进入 Logistic 回归分类器 的样本数量增加,测试准确性也逐步提高。这是合理的,因为数据集中的模式在样本量增多时变得更加代表性。随着更多样本的引入,模型的泛化能力也变得更强。下图展示了模型的测试准确性与训练时使用的样本数之间的关系,随着样本数量的增加,测试准确性呈明显的上升趋势。
问题 2:稀疏Logistic回归
根据实验结果,理想的正则化参数为 0.1。当正则化参数过大时, AUC 值会降低,正则化参数为 0 或 1 时,模型的性能较差。当正则化参数为 1 时,模型的测试准确度恰好为 50%。这是因为测试数据包含了74个阳性样本和74个阴性样本,因此,模型始终预测为0时,正好能够正确分类一半的样本。下图显示了精度与 L1 正则化参数 的关系。实验还揭示了一个有趣的模式,数据集中的相关特征数量约为 15-20 个。