信息增益计算示例:以天气数据集为例
本示例使用天气数据集 weather,目标是计算使用属性“wind”(风力)划分数据集 S 所获得的信息增益。
数据集 S:
| outlook | temperature | humidity | wind | play ball |
|---|---|---|---|---|
| sunny | hot | high | weak | no |
| sunny | hot | high | strong | no |
| overcast | hot | high | weak | yes |
| rain | mild | high | weak | yes |
| rain | cool | normal | strong | no |
| overcast | cool | normal | strong | yes |
| sunny | mild | high | weak | no |
| sunny | cool | normal | weak | yes |
| rain | mild | normal | weak | yes |
| sunny | mild | normal | strong | yes |
| overcast | mild | high | strong | yes |
| overcast | hot | normal | weak | yes |
| rain | mild | high | strong | no |
计算步骤:
- 计算数据集 S 的信息熵。
- 根据属性“wind”的取值将数据集 S 划分成子集。
- 分别计算每个子集的信息熵。
- 计算划分后子集信息熵的加权平均值。
- 信息增益 = 数据集 S 的信息熵 - 划分后子集信息熵的加权平均值。
具体计算过程:
(此处省略具体计算过程,建议参考信息熵和信息增益的计算公式进行计算。)
结果:
通过计算可以得到数据集 S 对属性“wind”的信息增益。