如何衡量机器学习研究的可重复性?目前关于可重复性的讨论大多基于直觉或假设,缺乏实证数据支持。发布代码是目前领域内常用的做法,但这不足以完全确保可重复性。为了量化可重复性,我们手动尝试复现了 1984 年至 2017 年间发表的 255 篇论文,记录了每篇论文的特征,并对结果进行了统计分析。 在复现过程中,我们没有参考作者提供的代码(如果有的话),以避免因代码与论文之间可能存在的差异而产生偏差。

本研究的目的是推动关于可重复性研究的量化讨论。这项工作并非试图对数据中所有潜在见解进行全面评估,改进协议、数据和解决偏差等方面仍需进一步研究。