使用-tinyxml指南数据清洗和线性辨别分析步骤详解

图9.10总体流程图第一步：数据清洗通过观察数据集的整体情况，我们发现在训练数据集中，决策能力这一栏的数据有一些异常。按照规定，这个数据的取值范围应该是0-100，但实际情况显示的是0-103，需要进行处理。测试数据集中的决策数据值在0-119，同样也超出了正常取值范围，需要进行处理。我们使用“Filter Examples”操作符连接数据，并设置保留决策能力大于等于3且小于等于100的数据，具体操作见图9.11。接着，引入“Linear Discriminant Analysis”操作符进行线性辨别分析，无需额外参数设置。最后，通过Set Role操作符将“专供体育项目”的标签属性设置为“label”，详见图9.12。

使用-tinyxml指南 数据清洗和线性辨别分析步骤详解

使用-tinyxml指南数据清洗和线性辨别分析步骤详解