云计算与数据挖掘参数设置指南

输入路径设置:

  • trainInputPath: 训练集在分布式文件系统 (DFS) 上的路径。
  • testInputPath: 测试集在 DFS 上的路径。
  • predictInputPath: 预测测试集在 DFS 上的路径。
  • outputPath: 结果输出在 DFS 上的路径。

计算资源配置:

  • numMapTasks: Map 任务的数量,通常设置为计算集群核心数量的 4 倍。
  • numReduceTasks: Reduce 任务的数量,通常设置为计算集群核心数量的 2 倍。

神经网络参数:

  • learningRate: 神经网络的学习率,默认为 0.6。
  • moment: 神经网络的学习冲量,默认为 0.9。
  • middleNum: 神经网络中间层的数量,默认为 5。
  • middlePopulation: 神经网络各个中间层节点的数量,每一层的节点数用逗号隔开。例如,有两个中间层,分别有 x 和 y 个节点,则参数配置为 'x,y'。

模型训练和评估:

  • min_success_ratio: 期望达到的最小成功率,默认为 0.7。
  • index: 预测利用的属性,默认为除目标属性外所有整型和浮点型属性。
  • TargetIndex: 要预测的目标属性,默认为最后一维。
  • modelPath: 训练中用于存储模型的路径,或者测试时要利用的模型文件路径。