简单验证

原理: 将数据集划分为训练集(例如 2/3 数据)和测试集(例如 1/3 数据)。

变形: 随机子选样(参见图 15.4)。

操作流程:

  1. 加载数据集(例如 Iris 数据集)。
  2. 使用“Split Data”操作符将数据划分为 80% 的训练集和 20% 的测试集。
  3. 将训练集输入“Decision Tree”决策树模型进行训练。
  4. 将测试集输入“Apply Model”应用模型,应用训练好的模型。
  5. 使用“Performance”性能测试操作符评估模型在测试集上的准确性(参见图 15.5)。

K-次交叉验证

原理: 将数据集分为 k 个子集,轮流使用其中 k-1 个子集进行训练,剩余 1 个子集进行测试,重复 k 次。