为了提高 MNIST 手写数字识别的效率和准确率,提出了一种基于高斯过程潜变量模型 (GPLVM) 降维和支持向量机 (SVM) 分类的方法。该方法首先利用 GPLVM 对高维手写数字图像进行降维,然后使用 SVM 对降维后的数据进行分类。

分类方法

设计了两种分类方法:

方法一: 直接降维分类。对预处理后的原始数据使用 GPLVM 进行降维,然后通过 SVM 交叉验证进行分类,最后输出分类结果。

方法二: 阶梯跳跃降维分类。对预处理后的原始数据设定动态调整数据样本作为 GPLVM 降维算法的输入,通过 SVM 交叉验证分类后,对分类结果和当前维数进行保存。判断阶梯跳跃降维操作是否完毕,如果需要进一步降维,则计算新的阶梯维数执行迭代分类;如果已经结束,则输出合并后的结果。

方法二实现步骤

方法二的具体实现步骤如下:

  1. 数据预处理: 对原始数据集进行预处理,转换为实验程序需要的数据格式,并进行归一化处理。
  2. 设定阶梯维数: 采用对折交叉的方式将原始数据样本的维数进行等分,例如,原始数据为 24 维,若采用 6 折阶梯维数,则具体的降维顺序为 24 -> 20 -> 15 -> 10 -> 5 -> 1。
  3. 动态调整数据样本: 第一次输入时,数据样本保持为原始状态。在后面的迭代过程中,首先执行降维和 SVM 交叉验证分类,然后判断是否需要进一步降维。如果需要,则对此刻的样本进行动态调整,将上一次降维后的样本数据输出作为下一次 GPLVM 降维操作的输入。

GPLVM 降维优势

与其他非线性降维方法不同,GPLVM 不仅关注保持数据空间原有的局部距离,还侧重于在潜变量空间内分离原数据空间中距离较远的点。通过添加反向约束,GPLVM 同样实现了对原空间局部距离的保持。