Matlab AUC Code-CSE 847Homework 4Logistic Regression and Sparse Logistic Regression Analysis

问题 1：逻辑回归

实验结果表明，随着进入 Logistic 回归分类器 的样本数量增加，测试准确性也逐步提高。这是合理的，因为数据集中的模式在样本量增多时变得更加代表性。随着更多样本的引入，模型的泛化能力也变得更强。下图展示了模型的测试准确性与训练时使用的样本数之间的关系，随着样本数量的增加，测试准确性呈明显的上升趋势。

问题 2：稀疏Logistic回归

根据实验结果，理想的正则化参数为 0.1。当正则化参数过大时， AUC 值会降低，正则化参数为 0 或 1 时，模型的性能较差。当正则化参数为 1 时，模型的测试准确度恰好为 50%。这是因为测试数据包含了74个阳性样本和74个阴性样本，因此，模型始终预测为0时，正好能够正确分类一半的样本。下图显示了精度与 L1 正则化参数 的关系。实验还揭示了一个有趣的模式，数据集中的相关特征数量约为 15-20 个。