迈向量化独立可重复机器学习研究

如何衡量机器学习研究的可重复性？目前关于可重复性的讨论大多基于直觉或假设，缺乏实证数据支持。发布代码是目前领域内常用的做法，但这不足以完全确保可重复性。为了量化可重复性，我们手动尝试复现了 1984 年至 2017 年间发表的 255 篇论文，记录了每篇论文的特征，并对结果进行了统计分析。在复现过程中，我们没有参考作者提供的代码（如果有的话），以避免因代码与论文之间可能存在的差异而产生偏差。

本研究的目的是推动关于可重复性研究的量化讨论。这项工作并非试图对数据中所有潜在见解进行全面评估，改进协议、数据和解决偏差等方面仍需进一步研究。