在数据库、机器学习、多媒体、计算机视觉等众多领域中,最近邻搜索(NNS)都是一项至关重要的基础操作。
为解决此问题,研究者们已经提出了数百种算法,但目前仍缺乏公开、全面的比较。这里的“全面”指的是使用来自不同研究领域的最新算法,并在各种数据集上进行评估。
为帮助从事相关研究或需要解决实际问题的研究人员和从业者,我们基于高维数据上的欧几里德距离,建立了一个用于最近邻搜索(NNS)的基准。
该基准的优势在于:
- 方便研究人员轻松地将其新算法与最新算法以及各种数据集进行比较。 这对于全面了解算法性能尤为重要。
- 方便从业者轻松了解不同算法的性能及其折衷。 这有助于他们根据自身目标和约束选择最佳方案。
我们也希望整个社区能够共同构建和维护这个基准,例如:提交新算法、提供有用的数据集,以及提出建议或改进意见。
基准范围:
我们通过以下约束来界定此基准的范围:
- 具有代表性和竞争力的近似 NNS 算法。 众所周知,在高维情况下,精确的 NNS 算法甚至无法超越简单的线性扫描算法。因此,该基准主要关注近似 NNS 算法。