数据挖掘导论(第二版),中文第4章:K最近邻分类器(K-Nearest Neighbor,KNN)是数据挖掘和机器学习领域广泛应用的一种基本分类算法。其核心思想是:如果一个对象与另一个对象非常相似,它们可能属于同一类别。KNN分类器需要三个基本要素:存储的数据集、距离度量标准和最近邻数k。在分类过程中,KNN首先计算未知对象与最近邻的距离,确定k个最近邻,然后利用它们的类别标识确定未知对象的类别。最近邻的定义是:K-最近邻是指与目标对象距离最近的k个数据点。计算距离的方法包括欧几里得、曼哈顿和闵可夫斯基等。K的选择对KNN至关重要,过小的k易受噪声影响,过大的k可能包含远离目标点的数据。通常需要交叉验证确定合适的k值。数据标准化解决属性尺度不同的问题。高维数据中欧几里得距离可能产生意想不到的结果,可以考虑曼哈顿或闵可夫斯基距离。KNN是一种局部分类器,能产生任意形状的判定边界,但也有缺陷如处理缺失值和不相关属性。提高效率可用k-d树和LSH等技术,同时压缩和降维可改善性能。KNN是常用的分类算法,需根据实际情况选择和改进。