基于 GPLVM 降维和 SVM 的 MNIST 手写数字识别

为了提高 MNIST 手写数字识别的效率和准确率，提出了一种基于高斯过程潜变量模型 (GPLVM) 降维和支持向量机 (SVM) 分类的方法。该方法首先利用 GPLVM 对高维手写数字图像进行降维，然后使用 SVM 对降维后的数据进行分类。

分类方法

设计了两种分类方法：

方法一： 直接降维分类。对预处理后的原始数据使用 GPLVM 进行降维，然后通过 SVM 交叉验证进行分类，最后输出分类结果。

方法二： 阶梯跳跃降维分类。对预处理后的原始数据设定动态调整数据样本作为 GPLVM 降维算法的输入，通过 SVM 交叉验证分类后，对分类结果和当前维数进行保存。判断阶梯跳跃降维操作是否完毕，如果需要进一步降维，则计算新的阶梯维数执行迭代分类；如果已经结束，则输出合并后的结果。

方法二的具体实现步骤如下：

数据预处理： 对原始数据集进行预处理，转换为实验程序需要的数据格式，并进行归一化处理。
设定阶梯维数： 采用对折交叉的方式将原始数据样本的维数进行等分，例如，原始数据为 24 维，若采用 6 折阶梯维数，则具体的降维顺序为 24 -> 20 -> 15 -> 10 -> 5 -> 1。
动态调整数据样本： 第一次输入时，数据样本保持为原始状态。在后面的迭代过程中，首先执行降维和 SVM 交叉验证分类，然后判断是否需要进一步降维。如果需要，则对此刻的样本进行动态调整，将上一次降维后的样本数据输出作为下一次 GPLVM 降维操作的输入。

与其他非线性降维方法不同，GPLVM 不仅关注保持数据空间原有的局部距离，还侧重于在潜变量空间内分离原数据空间中距离较远的点。通过添加反向约束，GPLVM 同样实现了对原空间局部距离的保持。